AI Glossary: データ品質 Terms & Definitions

データ中心の機械学習

DCML

データ中心の機械学習は、アルゴリズムの最適化だけでなく、データの質と関連性を高めることでモデルの性能を向上させることに焦点を当てています。

データクレンジング

データクレンジングは、データセット内のエラーや不整合を特定し修正するプロセスです。

データキュレーション

データキュレーションは、データの品質、アクセス性、使いやすさを確保するために管理・維持するプロセスです。

データエンリッチメント

データエンリッチメントは、外部ソースからの価値あるコンテキストを追加して既存のデータを強化します。

データ調和

データハーモナイゼーションは、異なるソースからのデータを統合し、一貫性と使いやすさを確保するプロセスです。

データリーク

データリークは、トレーニングデータセットの外部からの情報が誤ってモデルのトレーニングに使用される場合に発生します。

データ系譜

データ系統とは、データがさまざまなプロセスを経て移動する過程を追跡し、データの完全性とコンプライアンスを確保することを指します。

データプロファイリング

データプロファイリングは、データの構造、品質、関係性を理解するための分析です。

データの由来

依存構造解析

データの出所とは、データの履歴と起源を指し、そのソースや変換過程を詳述します。

データ品質

データ品質とは、AIや分析に使用されるデータの正確性、一貫性、信頼性を指します。

データ品質ゲート

DQG

データ品質ゲートは、データが使用前に特定の品質基準を満たしていることを保証するプロセスです。

データの冗長性

データの冗長性は、データベースやストレージシステム内で不要な重複を指します。

データクリーニング

データスクラビングは、正確性と品質を確保するためにデータをクリーンアップし検証するプロセスです。

データ標準化

データ標準化は、一貫性と正確性を保つためにデータを共通の形式に変換するプロセスです。

データ検証

データ検証は、処理前にチェックや制約を設けてデータの正確性と品質を保証します。

データの真実性

データの真実性とは、AIや分析に使用されるデータの正確性、信頼性、真実性を指します。

エンティティ解決

ER

エンティティ解決は、異なるデータセット間で同じ実世界のエンティティを指すレコードを識別し統合するプロセスです。

ゴールドスタンダードデータセット

GSD

ゴールドスタンダードデータセットは、AIモデルの訓練と評価に使用される非常に正確で信頼性の高いデータのコレクションです。

補完戦略

補完戦略は、分析の精度を向上させるためにデータセットの欠損データを埋める方法です。

不完全なデータ

不完全なデータは、分析やAIモデルのトレーニングに使用される情報が欠落または利用できない状態を指します。

ラベルノイズ

LN

ラベルノイズは、機械学習タスクにおいてデータに割り当てられたラベルの不正確さや誤りを指します。

ラベルノイズ遷移

LNT

ラベルノイズ遷移は、機械学習においてデータの誤ったラベリングがモデルの訓練に影響を与える過程を指します。

Lossless Compression Failure（可逆圧縮失敗）

損失なし圧縮失敗は、情報を失うことなくデータを圧縮できない場合に発生します。

データがありません

Missing dataは、データセット内の値の欠落を指し、分析やモデルの性能に影響を与えます。

欠損値補完

Missing values imputationは、分析やモデリングのためにデータの欠損部分を埋める方法です。

NaN値

NaN

NaN（Not a Number）は、計算において未定義または表現できない数値値を表します。

ノイズの多いデータ

ノイジーデータとは、分析や機械学習モデルを歪める可能性のある不正確または無関係な情報を指します。

ノイジーラベル

NL

ノイジーラベルとは、トレーニングデータにおいて誤ったり誤解を招くアノテーションのことで、機械学習モデルの性能を妨げる可能性があります。