Qu'est-ce qu'Apache Spark MLlib ? Apache Spark MLlib est une bibliothèque d'apprentissage automatique évolutive conçue pour le traitement et l'analyse de grandes données. En savoir plus dans le Glossaire AI de SEOFAI.

Explorez 20 termes de l'IA dans le Big Data

Anonymisation

L'anonymisation est le processus de suppression des identifiants personnels des données pour protéger la vie privée des individus.

Apache Arrow

Apache Arrow est un cadre open-source pour le traitement et l’analyse de données haute performance.

Algorithme d'approximation

Apache Kafka est une plateforme de streaming d'événements distribuée utilisée pour la création de pipelines de données en temps réel et d'applications.

Données obscures

Les données obscures désignent les informations que les organisations collectent mais n'utilisent pas pour l'analyse ou la prise de décision.

l'intégration des données

DI

L'intégration des données est le processus de fusionner des données provenant de différentes sources en une vue unifiée.

Lac de données

DL

Un lac de données est un référentiel centralisé qui stocke de grandes quantités de données brutes dans leur format natif.

Data Lakehouse

DLH

Un Data Lakehouse combine les meilleures caractéristiques des data lakes et des data warehouses pour une gestion et une analyse efficaces des données.

Pipeline de données

Un pipeline de données est une série de processus qui déplacent et transforment des données d'un système à un autre.

Découpage de données

Le découpage de données est le processus d'extraction de sous-ensembles spécifiques de données à partir d'un ensemble de données plus vaste pour l'analyse.

Flux de données

Un flux de données est un flux continu de données généré en temps réel, souvent utilisé pour l'analyse et le traitement.

Vitesse des données

La vitesse des données fait référence à la rapidité avec laquelle les données sont générées, traitées et analysées, ce qui est crucial pour la prise de décision en temps réel.

Azure Machine Learning

ML BDD

Databricks ML est une plateforme d'apprentissage automatique intégrée à Apache Spark pour la science des données collaborative et le déploiement de modèles.

Delta Lake

DL

Delta Lake est une couche de stockage open-source qui apporte fiabilité et performance aux lacs de données.

Calcul distribué

L'informatique distribuée implique plusieurs ordinateurs interconnectés travaillant ensemble pour résoudre efficacement des tâches complexes.

Cadre Hadoop

Hadoop est un cadre open-source pour le stockage distribué et le traitement de grandes données à l'aide d'un cluster d'ordinateurs.

Données à grande échelle

Les données à grande échelle désignent d'énormes ensembles de données nécessitant des techniques avancées de traitement et de stockage en raison de leur taille et complexité.

Données en ligne

Les données en ligne font référence à des informations accessibles via Internet, y compris le contenu généré par l'utilisateur et les flux de données en temps réel.

Algorithme hors mémoire

Un algorithme hors-norme traite des données qui dépassent la capacité de mémoire en utilisant un stockage externe.

Traitement hors-norme

Out-of-core processing is a technique for handling data that doesn't fit into a computer's memory by utilizing disk storage.

SingleStore

SingleStore est une base de données SQL distribuée conçue pour l'analyse en temps réel et les charges de travail transactionnelles.

Back to All Terms
oEmbed (JSON) + /