AI評価における169のAI用語を探索
ベースライン精度は、モデルが効果的とみなされるために達成しなければならない最小の精度です。
ベンチマーク飽和は、追加のベンチマークを導入しても性能評価に大きな改善が見られなくなる状態を指します。
BIG-Bench Liteは、多様なタスクを用いて大規模言語モデルを評価するベンチマークです。
Bleuスコア指標は、機械生成されたテキストの品質を参照テキストと比較して評価します。
Capability Evaluation assesses an AI system's performance and effectiveness in specific tasks or functions.
CIDErスコアは、人間が生成したキャプションとの合意に基づいて画像キャプションモデルを評価する指標です。
円環推論ループは、結論が前提により仮定されている場合に生じる推論の循環です。
比較評価は、定義された指標を用いてAIシステムの性能を比較する評価方法です。
混同行列の指標は、分類モデルの性能を評価するための指標(正確性、適合率、再現率、F1スコア)です。
対照群は、実験で治療群と比較するために使用される基準群です。
Cross Validation Foldsは、モデルの信頼性と性能を向上させるためにデータのサブセットを用いて検証を行うものです。
データドリフトは、データの統計的性質が時間とともに変化し、モデルのパフォーマンスに影響を与える現象です。
Degenerate Modeは、AIシステムの性能が低下したり、期待に応えられなくなる状態を指します。
展開ドリフトは、展開後にAIモデルがトレーニング条件から逸脱することを指します。
開発セットは、トレーニングプロセス中にAIモデルを微調整するために使用されるデータのサブセットです。
等エラー率(EER)は、生体認証システムの性能を評価する指標です。
エラー分析は、AIモデルが犯す誤りを調査し、その性能と信頼性を向上させるためのものです。
エラー率は、AIモデルが行った誤った予測の頻度を総予測数と比較して測定します。
AIの評価は、AIシステムの効果性、正確性、目的との整合性を確保するための評価を含みます。
Evaluation gaming involves using game-based methods to assess AI systems' performance and behavior.
F-Measureは、精度とリコールのバランスをとる分類モデルの性能を評価する指標です。
事実性キャリブレーションは、AI生成コンテンツが現実の事実と一致するように調整することです。
故障モードとは、システムやコンポーネントが故障し、その機能や性能に影響を与える特定の方法です。
AIにおける偽陽性は、モデルが誤って陽性結果を識別する誤った結果を指します。
The False Positive Rate measures the proportion of incorrect positive predictions in a model's output.
反証可能性とは、証拠によって理論を誤りであると証明できる能力を指します。
Fidelity Gap(忠実度ギャップ)は、AIシステムの期待される性能と実際の性能との差を指します。
Fold Cross-Validationは、統計分析の結果が独立したデータセットにどの程度一般化するかを評価する手法です。