AWS et Cerebras accélèrent l'inférence IA pour la logistique

Amazon Web Services et Cerebras s’associent pour révolutionner l’inférence IA

Amazon Web Services, Inc. (AWS) et Cerebras Systems ont annoncé une collaboration stratégique. Cette initiative promet de livrer, dans les prochains mois, des solutions d’inférence IA parmi les plus rapides pour les applications d’intelligence artificielle générative et les charges de travail LLM.

La solution sera déployée sur Amazon Bedrock dans les centres de données AWS. Elle combine des serveurs alimentés par Trainium d’AWS, les systèmes Cerebras CS-3 et le réseau Elastic Fabric Adapter (EFA).

Plus tard cette année, AWS proposera aussi des LLM open-source de premier plan et Amazon Nova, utilisant le matériel de Cerebras.

Une réponse aux goulots d’étranglement de performance

« L’inférence est là où l’IA apporte une réelle valeur, mais la vitesse reste un goulot d’étranglement critique », explique David Brown, Vice-président des services de calcul et ML chez AWS.

« Ce que nous construisons avec Cerebras résout ce problème en divisant la charge de travail d’inférence. Chaque système fait ce qu’il fait de mieux grâce à la connexion avec l’Elastic Fabric Adapter d’Amazon. »

Le résultat sera une inférence d’un ordre de grandeur plus rapide et plus performante que ce qui est disponible aujourd’hui.

Un partenariat pour démocratiser l’IA rapide

« Notre partenariat avec AWS pour construire une solution d’inférence désagrégée apportera l’inférence la plus rapide à un large éventail de clients », déclare Andrew Feldman, fondateur et PDG de Cerebras Systems.

« Chaque entreprise dans le monde bénéficiera d’une inférence ultra-rapide dans son environnement AWS existant. »

La technologie de désagrégation d’inférence

La solution Trainium + CS-3 permet la « désagrégation d’inférence ». Cette technique sépare l’inférence IA en deux étapes distinctes.

Le traitement des requêtes (« prefill ») et la génération de sortie (« decode ») présentent des caractéristiques computationnelles très différentes.

Le prefill est parallèle et intensif en calcul, nécessitant une bande passante mémoire modérée. Le decode, quant à lui, est séquentiel, léger en calcul, mais intensif en bande passante mémoire.

Optimisation spécialisée pour chaque étape

Chaque étape bénéficie d’architectures de calcul distinctes et d’un réseau EFA à faible latence et haute bande passante.

En désagrégeant la problématique d’inférence avec Trainium pour le prefill et Cerebras CS-3 pour le decode, les défis computationnels peuvent être optimisés séparément.

La solution, construite sur le système AWS Nitro, garantira que les systèmes Cerebras CS-3 et les instances alimentées par Trainium fonctionnent avec la sécurité et la cohérence opérationnelle attendues d’AWS.

Des puces IA de pointe

Trainium est la puce IA conçue par Amazon pour offrir des performances évolutives et une efficacité de coût pour l’entraînement et l’inférence. Elle s’applique à un large éventail de charges de travail d’IA générative.

Deux des laboratoires d’IA les plus avancés au monde – Anthropic et OpenAI – utilisent Trainium. Anthropic a choisi AWS comme partenaire principal d’entraînement, tandis qu’OpenAI consommera 2 gigawatts de capacité Trainium.

Le système d’inférence IA le plus rapide au monde

Le CS-3 de Cerebras est le système d’inférence IA le plus rapide au monde. Il offre des milliers de fois plus de bande passante mémoire que le GPU le plus rapide.

OpenAI, Cognition, Mistral et d’autres utilisent Cerebras pour accélérer leurs charges de travail les plus exigeantes, comme le codage agentique.

Dans la solution désagrégée, le CS-3 sera dédié à l’accélération du décodage, permettant de gérer davantage de tokens de sortie rapidement.

À lire aussi : [Sujet lié au Maroc]

AWS et Cerebras accélèrent l’inférence IA pour la logistique

Amazon Web Services et Cerebras s’associent pour révolutionner l’inférence IA

Une réponse aux goulots d’étranglement de performance

Un partenariat pour démocratiser l’IA rapide

La technologie de désagrégation d’inférence

Optimisation spécialisée pour chaque étape

Des puces IA de pointe

Le système d’inférence IA le plus rapide au monde

News

Posidonia 2026 : L’intelligence artificielle au cœur de la plus grande édition de l’histoire du salon

Expansion mondiale : AD Ports Group s’offre l’opérateur brésilien CLI pour 835 millions de dollars

Posidonia 2026 : Hengli Heavy Industry décroche un contrat massif de 2,2 milliards de dollars

La propulsion éolienne franchit le cap historique des 100 navires de commerce équipés dans le monde

Détroit d’Ormuz : le retour lent du trafic maritime dans un contexte de tensions persistantes

Tanger Med classé 5ᵉ port le plus performant...

Volvo Trucks, ‘‘Volvo Concept Truck’’ : Economie d’énergie

PortNet Maroc 2025 – Inscription, services, tarifs et...

Nouveau sang, diversification et déploiment géographique, Les fruits...

Incoterms 2020 Maroc – Explications simples et comparatif...

Lettre d'information

Merci pour votre inscription !

Recent Posts

Posidonia 2026 : L’intelligence artificielle au cœur de la plus grande édition de l’histoire du salon

Expansion mondiale : AD Ports Group s’offre l’opérateur brésilien CLI pour 835 millions de dollars

Posidonia 2026 : Hengli Heavy Industry décroche un contrat massif de 2,2 milliards de dollars

Editor's Picks

Posidonia 2026 : L’intelligence artificielle au cœur de la plus grande édition de l’histoire du salon

Expansion mondiale : AD Ports Group s’offre l’opérateur brésilien CLI pour 835 millions de dollars

Posidonia 2026 : Hengli Heavy Industry décroche un contrat massif de 2,2 milliards de dollars

Lifestyle

Posidonia 2026 : L’intelligence artificielle au cœur de la plus grande édition de l’histoire du salon

Expansion mondiale : AD Ports Group s’offre l’opérateur brésilien CLI pour 835 millions de dollars

Posidonia 2026 : Hengli Heavy Industry décroche un contrat massif de 2,2 milliards de dollars

Categories

Rejoignez la communauté TLR !

Lettre d'information

Merci pour votre inscription !

Amazon Web Services et Cerebras s’associent pour révolutionner l’inférence IA

Une réponse aux goulots d’étranglement de performance

Un partenariat pour démocratiser l’IA rapide

La technologie de désagrégation d’inférence

Optimisation spécialisée pour chaque étape

Des puces IA de pointe

Le système d’inférence IA le plus rapide au monde

Related posts

Lettre d'information

Merci pour votre inscription !