AI Glossary: AI評価 Terms & Definitions

ベースライン精度

ベースライン精度は、モデルが効果的とみなされるために達成しなければならない最小の精度です。

ベンチマーク飽和

ベンチマーク飽和は、追加のベンチマークを導入しても性能評価に大きな改善が見られなくなる状態を指します。

BIG-Bench Lite

BBL

BIG-Bench Liteは、多様なタスクを用いて大規模言語モデルを評価するベンチマークです。

Bleuスコア指標

BLEU

Bleuスコア指標は、機械生成されたテキストの品質を参照テキストと比較して評価します。

能力評価

CE

Capability Evaluation assesses an AI system's performance and effectiveness in specific tasks or functions.

CIDErスコア

CIDEr

CIDErスコアは、人間が生成したキャプションとの合意に基づいて画像キャプションモデルを評価する指標です。

循環推論ループ

円環推論ループは、結論が前提により仮定されている場合に生じる推論の循環です。

比較評価

比較評価は、定義された指標を用いてAIシステムの性能を比較する評価方法です。

混同行列の指標

混同行列の指標は、分類モデルの性能を評価するための指標（正確性、適合率、再現率、F1スコア）です。

対照群

対照群は、実験で治療群と比較するために使用される基準群です。

クロスバリデーション折りたたみ

CVフォールド

Cross Validation Foldsは、モデルの信頼性と性能を向上させるためにデータのサブセットを用いて検証を行うものです。

データドリフト

データドリフトは、データの統計的性質が時間とともに変化し、モデルのパフォーマンスに影響を与える現象です。

劣化モード

Degenerate Modeは、AIシステムの性能が低下したり、期待に応えられなくなる状態を指します。

展開ドリフト

展開ドリフトは、展開後にAIモデルがトレーニング条件から逸脱することを指します。

開発セット

開発セットは、トレーニングプロセス中にAIモデルを微調整するために使用されるデータのサブセットです。

等誤差率

EER

等エラー率（EER）は、生体認証システムの性能を評価する指標です。

エラー分析

エラー分析は、AIモデルが犯す誤りを調査し、その性能と信頼性を向上させるためのものです。

誤差率

エラー率は、AIモデルが行った誤った予測の頻度を総予測数と比較して測定します。

AIの評価

AIの評価は、AIシステムの効果性、正確性、目的との整合性を確保するための評価を含みます。

評価ゲーミング

Evaluation gaming involves using game-based methods to assess AI systems' performance and behavior.

F値

F1

F-Measureは、精度とリコールのバランスをとる分類モデルの性能を評価する指標です。

事実性キャリブレーション

事実性キャリブレーションは、AI生成コンテンツが現実の事実と一致するように調整することです。

故障モード

故障モードとは、システムやコンポーネントが故障し、その機能や性能に影響を与える特定の方法です。

誤陽性

FP

AIにおける偽陽性は、モデルが誤って陽性結果を識別する誤った結果を指します。

偽陽性率

FPR

The False Positive Rate measures the proportion of incorrect positive predictions in a model's output.

反証可能性

反証可能性とは、証拠によって理論を誤りであると証明できる能力を指します。

忠実性ギャップ

Fidelity Gap（忠実度ギャップ）は、AIシステムの期待される性能と実際の性能との差を指します。

Fold交差検証

Fold Cross-Validationは、統計分析の結果が独立したデータセットにどの程度一般化するかを評価する手法です。