AI Datasetsで36のAI用語を探索
アノテーションアーティファクトは、AIデータセットの理解を深めるための補助資料です。
CIFAR-100データセットは、機械学習研究のための100クラスに分類された60,000枚の32x32カラー画像のコレクションです。
CoLAは、「Corpus of Linguistic Acceptability」の略で、言語モデルを評価するためのデータセットです。
コーパスは、言語学的分析に使用される書かれたまたは話されたテキストのコレクションです。
クラウドソーシングデータは、多くの人々から情報を収集する方法であり、多くの場合オンラインプラットフォームを通じて行われます。
データ取得は、分析や意思決定のためにさまざまなソースから情報を収集・測定するプロセスです。
データ収集は、さまざまな分野、特にAIにおいて分析と意思決定のために情報を体系的に収集することです。
データキュレーションは、データの品質、アクセス性、使いやすさを確保するために管理・維持するプロセスです。
データセットは、分析や処理のために構造化された形式で整理された関連データポイントの集まりです。
データセット蒸留は、AIモデルのトレーニングに必要な重要な情報を保持しながら、より小さく効率的なデータセットを作成する方法です。
Europarlコーパスは、欧州議会の議事録の多言語データセットであり、言語処理タスクに役立ちます。
特徴行列は、機械学習モデルのためにデータの特徴を整理し、分析や評価を支援します。
ホモジニゼーションリスクは、均一なトレーニングデータセットによるAIモデルの多様性喪失の可能性を指します。
ImageNetは、機械学習やコンピュータビジョンの研究で使用される大規模な視覚物体認識用データセットです。
不均衡なデータは、データセット内のクラスが均等に表現されていない場合に発生し、偏ったモデル予測につながることがあります。
不完全なデータは、分析やAIモデルのトレーニングに使用される情報が欠落または利用できない状態を指します。
インライアーデータは、データセット内で期待される分布に従うデータポイントを指します。
ラベル不均衡は、AIモデルの訓練に使用されるデータセット内のクラスの不均等な分布を指します。
ラベル付きデータは、パターンを学習し予測を行うために使用される注釈付き情報です。
ラベリング戦略は、AIモデルの訓練のためにデータにどのように注釈を付けるかを定義し、その性能や精度に影響します。
低リソース言語は、広く話されている言語と比較してAIモデルの訓練に利用できるデータが限られている言語です。
モデルクォーリーは、3Dグラフィックスやモデリングにおいて、機械学習モデルの訓練やテストに使用される3Dオブジェクトのデータセットです。
モノリンガルコーパスは、言語分析に使用される単一言語のテキストのコレクションです。
複数ソースのデータは、分析と洞察を向上させるために複数の出所から収集されたデータを指します。
新しいデータとは、AIモデルのトレーニングのために収集された新鮮な情報を指し、パフォーマンスと精度を向上させます。
ノイジーラベルは、機械学習モデルのトレーニングデータセットにおける誤ったまたは誤解を招く注釈です。
観測データとは、さまざまな分野で直接測定または観察によって収集された情報を指します。
オープンナレッジベースは、構造化された情報や知識を共有するための協働プラットフォームで、AIアプリケーションに頻用されます。