ビッグデータ

ビッグデータの20のAI用語を探索

匿名化

匿名化とは、個人のプライバシーを保護するためにデータから個人識別子を削除するプロセスです。

Apache Arrow

Apache Arrowは、高性能なデータ処理と分析のためのオープンソースフレームワークです。

アパッチ Kafka

Apache Kafkaは、リアルタイムのデータパイプラインやアプリケーションを構築するために使用される分散型イベントストリーミングプラットフォームです。

ダークデータ

ダークデータは、組織が収集しているが分析や意思決定には使用しない情報を指します。

データ統合

DI

データ統合は、異なるソースからのデータを統合して一つのビューにまとめるプロセスです。

データレイク

DL

データレイクは、大量の生データをそのネイティブフォーマットで保存するための集中型リポジトリです。

データレイクハウス

DLH

Data Lakehouseは、データレイクとデータウェアハウスの最良の特徴を組み合わせて、効率的なデータ管理と分析を実現します。

データパイプライン

データパイプラインは、データをあるシステムから別のシステムへ移動・変換する一連のプロセスです。

データスライシング

データスライシングは、より大きなデータセットから特定の部分集合を抽出して分析するプロセスです。

データストリーム

データストリームは、リアルタイムで生成される連続的なデータの流れであり、分析や処理に頻繁に使用されます。

データの速度

データの速度(Data Velocity)とは、データが生成、処理、分析される速度を指し、リアルタイムの意思決定にとって重要です。

AWSサービス

DB ML

Databricks MLは、協調的なデータサイエンスとモデル展開のためにApache Sparkと統合された機械学習プラットフォームです。

Delta Lake

DL

Delta Lakeは、データレイクに信頼性とパフォーマンスをもたらすオープンソースのストレージ層です。

分散コンピューティング

分散コンピューティングは、複数の相互接続されたコンピュータが協力して複雑なタスクを効率的に解決することを含みます。

Hadoopフレームワーク

Hadoopは、コンピュータのクラスターを使用したビッグデータの分散ストレージと処理のためのオープンソースフレームワークです。

大規模データ

大規模データは、そのサイズと複雑さから高度な処理と保存技術を必要とする膨大なデータセットです。

オンラインデータ

オンラインデータとは、インターネットを通じてアクセス可能な情報であり、ユーザー生成コンテンツやリアルタイムデータストリームを含みます。

Out-of-Coreアルゴリズム

Out-of-coreアルゴリズムは、外部記憶を使用してメモリ容量を超えるデータを処理します。

Out-of-Core処理

Out-of-core processing is a technique for handling data that doesn't fit into a computer's memory by utilizing disk storage.

SingleStore

SingleStoreは、リアルタイム分析とトランザクションワークロード向けに設計された分散SQLデータベースです。

Back to All Terms
コントロール + /