AWS et Cerebras accélèrent l'inférence IA pour la logistique -

Amazon Web Services et Cerebras s’associent pour révolutionner l’inférence IA

Amazon Web Services, Inc. (AWS) et Cerebras Systems ont annoncé une collaboration stratégique qui promet de livrer, dans les prochains mois, les solutions d’inférence IA les plus rapides disponibles pour les applications d’intelligence artificielle générative et les charges de travail LLM.

La solution sera déployée sur Amazon Bedrock dans les centres de données AWS. Elle combine les serveurs alimentés par Trainium d’AWS, les systèmes Cerebras CS-3, et le réseau Elastic Fabric Adapter (EFA).

Plus tard cette année, AWS proposera également des LLM open-source de premier plan et Amazon Nova utilisant le matériel Cerebras.

Une réponse aux goulots d’étranglement de performance

« L’inférence est là où l’IA apporte une réelle valeur aux clients, mais la vitesse reste un goulot d’étranglement critique pour les charges de travail exigeantes comme l’assistance au codage en temps réel et les applications interactives », explique David Brown, Vice-président des services de calcul et ML chez AWS.

« Ce que nous construisons avec Cerebras résout ce problème : en divisant la charge de travail d’inférence entre Trainium et CS-3, et en les connectant avec l’Elastic Fabric Adapter d’Amazon, chaque système fait ce qu’il fait de mieux. »

Le résultat sera une inférence d’un ordre de grandeur plus rapide et plus performante que ce qui est disponible aujourd’hui.

Un partenariat pour démocratiser l’IA rapide

« Notre partenariat avec AWS pour construire une solution d’inférence désagrégée apportera l’inférence la plus rapide à une base de clients mondiale », déclare Andrew Feldman, fondateur et PDG de Cerebras Systems.

« Chaque entreprise dans le monde pourra bénéficier d’une inférence ultra-rapide dans son environnement AWS existant. »

La technologie de désagrégation d’inférence

La solution Trainium + CS-3 permet la « désagrégation d’inférence », une technique qui sépare l’inférence IA en deux étapes distinctes.

Le traitement des requêtes (« prefill ») et la génération de sortie (« decode ») ont des caractéristiques computationnelles profondément différentes.

Le prefill est naturellement parallèle, intensif en calcul, et nécessite une bande passante mémoire modérée. Le decode, en revanche, est intrinsèquement séquentiel, léger en calcul, et intensif en bande passante mémoire.

Optimisation spécialisée pour chaque étape

Chaque étape bénéficie d’architectures de calcul différentes et d’un réseau EFA à faible latence et haute bande passante entre elles.

En désagrégeant stratégiquement le problème d’inférence – avec Trainium optimisé pour le prefill et le Cerebras CS-3 optimisé pour le decode – les deux défis computationnels peuvent être optimisés de manière spécialisée.

La nouvelle solution, construite sur le système AWS Nitro, garantira que les systèmes Cerebras CS-3 et les instances alimentées par Trainium fonctionnent avec la même sécurité, isolation et cohérence opérationnelle attendues d’AWS.

Des puces IA de pointe

Trainium est la puce IA spécialement conçue par Amazon pour offrir des performances évolutives et une efficacité coût pour l’entraînement et l’inférence sur une large gamme de charges de travail d’IA générative.

Deux des laboratoires d’IA les plus avancés au monde – Anthropic et OpenAI – se sont engagés avec Trainium. Anthropic a désigné AWS comme son partenaire principal d’entraînement, tandis qu’OpenAI consommera 2 gigawatts de capacité Trainium.

Le système d’inférence IA le plus rapide au monde

Le CS-3 de Cerebras est le système d’inférence IA le plus rapide au monde. Il offre des milliers de fois plus de bande passante mémoire que le GPU le plus rapide.

OpenAI, Cognition, Mistral et d’autres utilisent Cerebras pour accélérer leurs charges de travail les plus exigeantes, notamment le codage agentique.

Dans la solution désagrégée, le CS-3 sera entièrement dédié à l’accélération du décodage, permettant une capacité dramatiquement plus élevée pour des tokens de sortie rapides.

AWS et Cerebras accélèrent l’inférence IA pour la logistique

Amazon Web Services et Cerebras s’associent pour révolutionner l’inférence IA

Une réponse aux goulots d’étranglement de performance

Un partenariat pour démocratiser l’IA rapide

La technologie de désagrégation d’inférence

Optimisation spécialisée pour chaque étape

Des puces IA de pointe

Le système d’inférence IA le plus rapide au monde

Jdioui

FedEx révolutionne la livraison locale avec son nouveau service « SameDay Local »

FRET MARITIME : AD Ports Group enregistre un chiffre d’affaires record en 2025

LOGISTIQUE INVERSE : CEVA Logistics lance une ligne maritime pour les batteries lithium-ion

SMART PORT : PortNet S.A. organise les Rencontres du Digital 2026 à El Jadida

Technogym lance Sand Stone et redéfinit le concept du Wellness Luxury Living

Canon Picture Profiles, Get The Most Out of...

Financial Gravity Hosts AI Design Challenge For Tax...

How to Use Auto AF Fine Tune on...

Photo Exhibit Puts Talents, Emotion On Display

The Art of Photography as Therapy for Your...

Recent Posts

FedEx révolutionne la livraison locale avec son nouveau service « SameDay Local »

FRET MARITIME : AD Ports Group enregistre un chiffre d’affaires record en 2025

LOGISTIQUE INVERSE : CEVA Logistics lance une ligne maritime pour les batteries lithium-ion

Editor's Picks

FedEx révolutionne la livraison locale avec son nouveau service « SameDay Local »

FRET MARITIME : AD Ports Group enregistre un chiffre d’affaires record en 2025

LOGISTIQUE INVERSE : CEVA Logistics lance une ligne maritime pour les batteries lithium-ion

Lifestyle

FedEx révolutionne la livraison locale avec son nouveau service « SameDay Local »

FRET MARITIME : AD Ports Group enregistre un chiffre d’affaires record en 2025

LOGISTIQUE INVERSE : CEVA Logistics lance une ligne maritime pour les batteries lithium-ion

Categories

Amazon Web Services et Cerebras s’associent pour révolutionner l’inférence IA

Une réponse aux goulots d’étranglement de performance

Un partenariat pour démocratiser l’IA rapide

La technologie de désagrégation d’inférence

Optimisation spécialisée pour chaque étape

Des puces IA de pointe

Le système d’inférence IA le plus rapide au monde

Related posts