Amazon Web Services et Cerebras s’associent pour révolutionner l’inférence IA
Amazon Web Services, Inc. (AWS) et Cerebras Systems ont annoncé une collaboration stratégique. Cette initiative promet de livrer, dans les prochains mois, des solutions d’inférence IA parmi les plus rapides pour les applications d’intelligence artificielle générative et les charges de travail LLM.
La solution sera déployée sur Amazon Bedrock dans les centres de données AWS. Elle combine des serveurs alimentés par Trainium d’AWS, les systèmes Cerebras CS-3 et le réseau Elastic Fabric Adapter (EFA).
Plus tard cette année, AWS proposera aussi des LLM open-source de premier plan et Amazon Nova, utilisant le matériel de Cerebras.
Une réponse aux goulots d’étranglement de performance
« L’inférence est là où l’IA apporte une réelle valeur, mais la vitesse reste un goulot d’étranglement critique », explique David Brown, Vice-président des services de calcul et ML chez AWS.
« Ce que nous construisons avec Cerebras résout ce problème en divisant la charge de travail d’inférence. Chaque système fait ce qu’il fait de mieux grâce à la connexion avec l’Elastic Fabric Adapter d’Amazon. »
Le résultat sera une inférence d’un ordre de grandeur plus rapide et plus performante que ce qui est disponible aujourd’hui.
Un partenariat pour démocratiser l’IA rapide
« Notre partenariat avec AWS pour construire une solution d’inférence désagrégée apportera l’inférence la plus rapide à un large éventail de clients », déclare Andrew Feldman, fondateur et PDG de Cerebras Systems.
« Chaque entreprise dans le monde bénéficiera d’une inférence ultra-rapide dans son environnement AWS existant. »
La technologie de désagrégation d’inférence
La solution Trainium + CS-3 permet la « désagrégation d’inférence ». Cette technique sépare l’inférence IA en deux étapes distinctes.
Le traitement des requêtes (« prefill ») et la génération de sortie (« decode ») présentent des caractéristiques computationnelles très différentes.
Le prefill est parallèle et intensif en calcul, nécessitant une bande passante mémoire modérée. Le decode, quant à lui, est séquentiel, léger en calcul, mais intensif en bande passante mémoire.
Optimisation spécialisée pour chaque étape
Chaque étape bénéficie d’architectures de calcul distinctes et d’un réseau EFA à faible latence et haute bande passante.
En désagrégeant la problématique d’inférence avec Trainium pour le prefill et Cerebras CS-3 pour le decode, les défis computationnels peuvent être optimisés séparément.
La solution, construite sur le système AWS Nitro, garantira que les systèmes Cerebras CS-3 et les instances alimentées par Trainium fonctionnent avec la sécurité et la cohérence opérationnelle attendues d’AWS.
Des puces IA de pointe
Trainium est la puce IA conçue par Amazon pour offrir des performances évolutives et une efficacité de coût pour l’entraînement et l’inférence. Elle s’applique à un large éventail de charges de travail d’IA générative.
Deux des laboratoires d’IA les plus avancés au monde – Anthropic et OpenAI – utilisent Trainium. Anthropic a choisi AWS comme partenaire principal d’entraînement, tandis qu’OpenAI consommera 2 gigawatts de capacité Trainium.
Le système d’inférence IA le plus rapide au monde
Le CS-3 de Cerebras est le système d’inférence IA le plus rapide au monde. Il offre des milliers de fois plus de bande passante mémoire que le GPU le plus rapide.
OpenAI, Cognition, Mistral et d’autres utilisent Cerebras pour accélérer leurs charges de travail les plus exigeantes, comme le codage agentique.
Dans la solution désagrégée, le CS-3 sera dédié à l’accélération du décodage, permettant de gérer davantage de tokens de sortie rapidement.
À lire aussi : [Sujet lié au Maroc]