AI Glossary: Inférence IA Terms & Definitions

TPU Cloud

Cloud TPU est un accélérateur matériel spécialisé pour les tâches d'apprentissage automatique, conçu par Google pour améliorer la performance et l'efficacité.

Inférence exacte

L'inférence exacte est une méthode statistique qui calcule les probabilités exactes des résultats dans un modèle probabiliste.

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite est un modèle d'IA léger axé sur un traitement efficace des données et des tâches d'inférence.

Budget d'inférence

Le budget d'inférence désigne les contraintes sur les ressources informatiques utilisées lors de l'inférence du modèle d'IA.

Phase d'inférence

La phase d'inférence est l'étape où les modèles d'IA font des prédictions ou prennent des décisions en fonction de nouvelles données.

Orientation par inférence

La conduite de l'inférence est une technique utilisée pour guider et optimiser le processus de prise de décision des modèles d'IA lors de l'inférence.

Exécution du modèle

L'exécution du modèle fait référence au processus d'exécution d'un modèle d'IA entraîné pour faire des prédictions ou des décisions basées sur de nouvelles données.

Matériel du modèle

Le matériel du modèle fait référence aux dispositifs physiques utilisés pour exécuter des modèles d'IA, y compris les CPU, GPU et accélérateurs spécialisés.

Inférence de modèle

L'inférence du modèle est le processus d'utilisation d'un modèle d'IA entraîné pour faire des prédictions à partir de nouvelles données.

Instanciation du modèle

L'instanciation du modèle est le processus de création d'une instance d'un modèle d'apprentissage automatique en utilisant des paramètres et configurations prédéfinis.

Réponse du modèle

Une réponse de modèle est une sortie prédéfinie générée par un système d'IA en fonction des données d'entrée.

Serveur de modèle

Un serveur de modèle est une plateforme qui sert des modèles d'IA pour l'inférence, permettant aux applications d'utiliser ces modèles à distance.

Vitesse du modèle

La vitesse du modèle désigne le temps nécessaire à un modèle d’IA pour faire des prédictions après sa formation.

o1-mini

Le o1-mini est un modèle d'IA compact et efficace conçu pour l'inférence sur appareil et les applications dans divers domaines.

Inférence hors ligne

L'inférence hors ligne est le processus d'exécuter des modèles d'IA sur des données précollectées sans interaction en temps réel.

Inférence sur l'appareil

L'inférence sur appareil fait référence à l'exécution de modèles d'IA directement sur un appareil sans dépendre des ressources cloud.

Inférence en ligne

L'inférence en ligne fait référence au processus de faire des prédictions en temps réel en utilisant un modèle d'IA entraîné.

Inférence optimisée

L'inférence optimisée fait référence au processus d'amélioration de l'efficacité et des performances des modèles d'IA lors de leur phase de prise de décision.

Génération de sortie

La génération de sortie fait référence au processus de production de résultats à partir d'un modèle d'IA, tels que du texte, des images ou du son.

État de sortie

L'état de sortie fait référence au résultat final produit par un modèle d'IA après traitement des données d'entrée.

Inférence parallèle

L'inférence parallèle est une technique en IA qui traite plusieurs inférences simultanément pour améliorer la vitesse et l'efficacité.

Résultat du paramètre

Parameter output refers to the results or values produced by a model's parameters during AI inference or training.

État du Paramètre

L'état des paramètres fait référence aux valeurs actuelles des paramètres dans un modèle d'IA lors de l'entraînement ou de l'inférence.

TensorRT

TRT

TensorRT est une bibliothèque d'inférence en apprentissage profond haute performance développée par NVIDIA.