AI用語集：AI Datasetsの用語と定義

アノテーションアーティファクト

アノテーションアーティファクトは、AIデータセットの理解を深めるための補助資料です。

CIFAR-100データセット

CIFAR-100データセットは、機械学習研究のための100クラスに分類された60,000枚の32x32カラー画像のコレクションです。

CoLA

CoLAは、「Corpus of Linguistic Acceptability」の略で、言語モデルを評価するためのデータセットです。

コーパス

コーパスは、言語学的分析に使用される書かれたまたは話されたテキストのコレクションです。

クラウドソーシングデータ

クラウドソーシングデータは、多くの人々から情報を収集する方法であり、多くの場合オンラインプラットフォームを通じて行われます。

データ取得

データ取得は、分析や意思決定のためにさまざまなソースから情報を収集・測定するプロセスです。

データ収集

データ収集は、さまざまな分野、特にAIにおいて分析と意思決定のために情報を体系的に収集することです。

データキュレーション

データキュレーションは、データの品質、アクセス性、使いやすさを確保するために管理・維持するプロセスです。

データセット

データセットは、分析や処理のために構造化された形式で整理された関連データポイントの集まりです。

データセット蒸留

データセット蒸留は、AIモデルのトレーニングに必要な重要な情報を保持しながら、より小さく効率的なデータセットを作成する方法です。

Europarlコーパス

EPC

Europarlコーパスは、欧州議会の議事録の多言語データセットであり、言語処理タスクに役立ちます。

特徴行列

特徴行列は、機械学習モデルのためにデータの特徴を整理し、分析や評価を支援します。

ホモジェナイゼーションリスク

ホモジニゼーションリスクは、均一なトレーニングデータセットによるAIモデルの多様性喪失の可能性を指します。

ImageNetデータセット

ImageNetは、機械学習やコンピュータビジョンの研究で使用される大規模な視覚物体認識用データセットです。

不均衡データ

不均衡なデータは、データセット内のクラスが均等に表現されていない場合に発生し、偏ったモデル予測につながることがあります。

不完全なデータ

不完全なデータは、分析やAIモデルのトレーニングに使用される情報が欠落または利用できない状態を指します。

インライアデータ

インライアーデータは、データセット内で期待される分布に従うデータポイントを指します。

ラベルの不均衡

ラベル不均衡は、AIモデルの訓練に使用されるデータセット内のクラスの不均等な分布を指します。

ラベル付きデータ

ラベル付きデータは、パターンを学習し予測を行うために使用される注釈付き情報です。

ラベリング戦略

ラベリング戦略は、AIモデルの訓練のためにデータにどのように注釈を付けるかを定義し、その性能や精度に影響します。

低リソース言語

低リソース言語は、広く話されている言語と比較してAIモデルの訓練に利用できるデータが限られている言語です。

モデルクォーリー

モデルクォーリーは、3Dグラフィックスやモデリングにおいて、機械学習モデルの訓練やテストに使用される3Dオブジェクトのデータセットです。

モノリンガルコーパス

モノリンガルコーパスは、言語分析に使用される単一言語のテキストのコレクションです。

複数ソースのデータ

複数ソースのデータは、分析と洞察を向上させるために複数の出所から収集されたデータを指します。

新しいデータ

新しいデータとは、AIモデルのトレーニングのために収集された新鮮な情報を指し、パフォーマンスと精度を向上させます。

ノイジーラベル

ノイジーラベルは、機械学習モデルのトレーニングデータセットにおける誤ったまたは誤解を招く注釈です。

観測データ

観測データとは、さまざまな分野で直接測定または観察によって収集された情報を指します。

オープンナレッジベース

OKB

オープンナレッジベースは、構造化された情報や知識を共有するための協働プラットフォームで、AIアプリケーションに頻用されます。