Explorez 24 termes liés à l'IA dans AI Inference
Cloud TPU est un accélérateur matériel spécialisé pour les tâches d'apprentissage automatique, conçu par Google pour améliorer la performance et l'efficacité.
L'inférence exacte est une méthode statistique qui calcule les probabilités exactes des résultats dans un modèle probabiliste.
Gemini 2.0 Flash-Lite est un modèle d'IA léger axé sur un traitement efficace des données et des tâches d'inférence.
Le budget d'inférence désigne les contraintes sur les ressources informatiques utilisées lors de l'inférence du modèle d'IA.
La phase d'inférence est l'étape où les modèles d'IA font des prédictions ou prennent des décisions en fonction de nouvelles données.
La conduite de l'inférence est une technique utilisée pour guider et optimiser le processus de prise de décision des modèles d'IA lors de l'inférence.
L'exécution du modèle fait référence au processus d'exécution d'un modèle d'IA entraîné pour faire des prédictions ou des décisions basées sur de nouvelles données.
Le matériel du modèle fait référence aux dispositifs physiques utilisés pour exécuter des modèles d'IA, y compris les CPU, GPU et accélérateurs spécialisés.
L'inférence du modèle est le processus d'utilisation d'un modèle d'IA entraîné pour faire des prédictions à partir de nouvelles données.
L'instanciation du modèle est le processus de création d'une instance d'un modèle d'apprentissage automatique en utilisant des paramètres et configurations prédéfinis.
Une réponse de modèle est une sortie prédéfinie générée par un système d'IA en fonction des données d'entrée.
Un serveur de modèle est une plateforme qui sert des modèles d'IA pour l'inférence, permettant aux applications d'utiliser ces modèles à distance.
La vitesse du modèle désigne le temps nécessaire à un modèle d’IA pour faire des prédictions après sa formation.
Le o1-mini est un modèle d'IA compact et efficace conçu pour l'inférence sur appareil et les applications dans divers domaines.
L'inférence hors ligne est le processus d'exécuter des modèles d'IA sur des données précollectées sans interaction en temps réel.
L'inférence sur appareil fait référence à l'exécution de modèles d'IA directement sur un appareil sans dépendre des ressources cloud.
L'inférence en ligne fait référence au processus de faire des prédictions en temps réel en utilisant un modèle d'IA entraîné.
L'inférence optimisée fait référence au processus d'amélioration de l'efficacité et des performances des modèles d'IA lors de leur phase de prise de décision.
La génération de sortie fait référence au processus de production de résultats à partir d'un modèle d'IA, tels que du texte, des images ou du son.
L'état de sortie fait référence au résultat final produit par un modèle d'IA après traitement des données d'entrée.
L'inférence parallèle est une technique en IA qui traite plusieurs inférences simultanément pour améliorer la vitesse et l'efficacité.
Parameter output refers to the results or values produced by a model's parameters during AI inference or training.
L'état des paramètres fait référence aux valeurs actuelles des paramètres dans un modèle d'IA lors de l'entraînement ou de l'inférence.
TensorRT est une bibliothèque d'inférence en apprentissage profond haute performance développée par NVIDIA.