AI Glossary: ビッグデータ Terms & Definitions

匿名化

匿名化とは、個人のプライバシーを保護するためにデータから個人識別子を削除するプロセスです。

Apache Arrowは、高性能なデータ処理と分析のためのオープンソースフレームワークです。

Apache Kafkaは、リアルタイムのデータパイプラインやアプリケーションを構築するために使用される分散型イベントストリーミングプラットフォームです。

ダークデータは、組織が収集しているが分析や意思決定には使用しない情報を指します。

DI

データ統合は、異なるソースからのデータを統合して一つのビューにまとめるプロセスです。

DL

データレイクは、大量の生データをそのネイティブフォーマットで保存するための集中型リポジトリです。

DLH

Data Lakehouseは、データレイクとデータウェアハウスの最良の特徴を組み合わせて、効率的なデータ管理と分析を実現します。

データパイプラインは、データをあるシステムから別のシステムへ移動・変換する一連のプロセスです。

データスライシングは、より大きなデータセットから特定の部分集合を抽出して分析するプロセスです。

データストリームは、リアルタイムで生成される連続的なデータの流れであり、分析や処理に頻繁に使用されます。

データの速度（Data Velocity）とは、データが生成、処理、分析される速度を指し、リアルタイムの意思決定にとって重要です。

DB ML

Databricks MLは、協調的なデータサイエンスとモデル展開のためにApache Sparkと統合された機械学習プラットフォームです。

DL

Delta Lakeは、データレイクに信頼性とパフォーマンスをもたらすオープンソースのストレージ層です。

分散コンピューティングは、複数の相互接続されたコンピュータが協力して複雑なタスクを効率的に解決することを含みます。

Hadoopは、コンピュータのクラスターを使用したビッグデータの分散ストレージと処理のためのオープンソースフレームワークです。

大規模データは、そのサイズと複雑さから高度な処理と保存技術を必要とする膨大なデータセットです。

オンラインデータとは、インターネットを通じてアクセス可能な情報であり、ユーザー生成コンテンツやリアルタイムデータストリームを含みます。

Out-of-coreアルゴリズムは、外部記憶を使用してメモリ容量を超えるデータを処理します。

Out-of-core processing is a technique for handling data that doesn't fit into a computer's memory by utilizing disk storage.

SingleStoreは、リアルタイム分析とトランザクションワークロード向けに設計された分散SQLデータベースです。