KI-Glossar: Begriffe & Definitionen Zu Big Data

Anonymisierung

Anonymisierung ist der Prozess, bei dem persönliche Kennungen aus Daten entfernt werden, um die Privatsphäre einzelner Personen zu schützen.

Apache Arrow

Apache Arrow ist ein Open-Source-Framework für Hochleistungs-Datenverarbeitung und -analyse.

Apache Kafka

Apache Kafka ist eine verteilte Plattform für Event-Streaming, die zum Aufbau von Echtzeit-Datenpipelines und Anwendungen verwendet wird.

Dunkle Daten

Dark Data bezieht sich auf Informationen, die Organisationen sammeln, aber nicht für Analysen oder Entscheidungsfindungen verwenden.

Datenintegration

DI

Datenintegration ist der Prozess, bei dem Daten aus verschiedenen Quellen zu einer einheitlichen Ansicht zusammengeführt werden.

Data Lake

DL

Ein Data Lake ist ein zentrales Repository, das große Mengen an Rohdaten in ihrem ursprünglichen Format speichert.

Data Lakehouse

DLH

Ein Data Lakehouse kombiniert die besten Eigenschaften von Data Lakes und Data Warehouses für effizientes Datenmanagement und Analysen.

Datenpipeline

Eine Datenpipeline ist eine Reihe von Prozessen, die Daten von einem System zum anderen bewegen und transformieren.

Datenaufteilung

Data Slicing ist der Prozess, bei dem spezifische Teilmengen von Daten aus einem größeren Datensatz für Analysen extrahiert werden.

Datenstrom

Ein Datenstrom ist ein kontinuierlicher Fluss von Daten, der in Echtzeit erzeugt wird und häufig für Analyse und Verarbeitung verwendet wird.

Daten-Geschwindigkeit

Daten-Geschwindigkeit bezieht sich auf die Geschwindigkeit, mit der Daten erzeugt, verarbeitet und analysiert werden, was für Echtzeitentscheidungen entscheidend ist.

Databricks ML

DB ML

Databricks ML ist eine Plattform für maschinelles Lernen, die in Apache Spark integriert ist und für kollaborative Data Science und Modellbereitstellung verwendet wird.

Delta Lake

DL

Delta Lake ist eine Open-Source-Speicherschicht, die Zuverlässigkeit und Leistung für Data Lakes bringt.

Verteiltes Rechnen

Verteiltes Rechnen umfasst mehrere miteinander verbundene Computer, die zusammenarbeiten, um komplexe Aufgaben effizient zu lösen.

Hadoop-Framework

Hadoop ist ein Open-Source-Framework für die verteilte Speicherung und Verarbeitung großer Datenmengen mit einem Computernetzwerk.

Große Datenmengen

Große Datenmengen beziehen sich auf riesige Datensätze, die aufgrund ihrer Größe und Komplexität fortschrittliche Verarbeitungs- und Speicherungstechniken erfordern.

Online-Daten

Online-Daten sind Informationen, die über das Internet zugänglich sind, einschließlich nutzergenerierter Inhalte und Echtzeit-Datenströme.

Out-of-Core-Algorithmus

Ein Out-of-Core-Algorithmus verarbeitet Daten, die den Arbeitsspeicher übersteigen, indem er externe Speicherung nutzt.

Out-of-Core-Verarbeitung

Out-of-core processing is a technique for handling data that doesn't fit into a computer's memory by utilizing disk storage.

SingleStore

SingleStore ist eine verteilte SQL-Datenbank, die für Echtzeit-Analysen und transaktionale Arbeitslasten entwickelt wurde.