Amazon Web Services et Cerebras s’associent pour révolutionner l’inférence IA
Amazon Web Services, Inc. (AWS) et Cerebras Systems ont annoncé une collaboration stratégique qui promet de livrer, dans les prochains mois, les solutions d’inférence IA les plus rapides disponibles pour les applications d’intelligence artificielle générative et les charges de travail LLM.
La solution sera déployée sur Amazon Bedrock dans les centres de données AWS. Elle combine les serveurs alimentés par Trainium d’AWS, les systèmes Cerebras CS-3, et le réseau Elastic Fabric Adapter (EFA).
Plus tard cette année, AWS proposera également des LLM open-source de premier plan et Amazon Nova utilisant le matériel Cerebras.
Une réponse aux goulots d’étranglement de performance
« L’inférence est là où l’IA apporte une réelle valeur aux clients, mais la vitesse reste un goulot d’étranglement critique pour les charges de travail exigeantes comme l’assistance au codage en temps réel et les applications interactives », explique David Brown, Vice-président des services de calcul et ML chez AWS.
« Ce que nous construisons avec Cerebras résout ce problème : en divisant la charge de travail d’inférence entre Trainium et CS-3, et en les connectant avec l’Elastic Fabric Adapter d’Amazon, chaque système fait ce qu’il fait de mieux. »
Le résultat sera une inférence d’un ordre de grandeur plus rapide et plus performante que ce qui est disponible aujourd’hui.
Un partenariat pour démocratiser l’IA rapide
« Notre partenariat avec AWS pour construire une solution d’inférence désagrégée apportera l’inférence la plus rapide à une base de clients mondiale », déclare Andrew Feldman, fondateur et PDG de Cerebras Systems.
« Chaque entreprise dans le monde pourra bénéficier d’une inférence ultra-rapide dans son environnement AWS existant. »
La technologie de désagrégation d’inférence
La solution Trainium + CS-3 permet la « désagrégation d’inférence », une technique qui sépare l’inférence IA en deux étapes distinctes.
Le traitement des requêtes (« prefill ») et la génération de sortie (« decode ») ont des caractéristiques computationnelles profondément différentes.
Le prefill est naturellement parallèle, intensif en calcul, et nécessite une bande passante mémoire modérée. Le decode, en revanche, est intrinsèquement séquentiel, léger en calcul, et intensif en bande passante mémoire.
Optimisation spécialisée pour chaque étape
Chaque étape bénéficie d’architectures de calcul différentes et d’un réseau EFA à faible latence et haute bande passante entre elles.
En désagrégeant stratégiquement le problème d’inférence – avec Trainium optimisé pour le prefill et le Cerebras CS-3 optimisé pour le decode – les deux défis computationnels peuvent être optimisés de manière spécialisée.
La nouvelle solution, construite sur le système AWS Nitro, garantira que les systèmes Cerebras CS-3 et les instances alimentées par Trainium fonctionnent avec la même sécurité, isolation et cohérence opérationnelle attendues d’AWS.
Des puces IA de pointe
Trainium est la puce IA spécialement conçue par Amazon pour offrir des performances évolutives et une efficacité coût pour l’entraînement et l’inférence sur une large gamme de charges de travail d’IA générative.
Deux des laboratoires d’IA les plus avancés au monde – Anthropic et OpenAI – se sont engagés avec Trainium. Anthropic a désigné AWS comme son partenaire principal d’entraînement, tandis qu’OpenAI consommera 2 gigawatts de capacité Trainium.
Le système d’inférence IA le plus rapide au monde
Le CS-3 de Cerebras est le système d’inférence IA le plus rapide au monde. Il offre des milliers de fois plus de bande passante mémoire que le GPU le plus rapide.
OpenAI, Cognition, Mistral et d’autres utilisent Cerebras pour accélérer leurs charges de travail les plus exigeantes, notamment le codage agentique.
Dans la solution désagrégée, le CS-3 sera entièrement dédié à l’accélération du décodage, permettant une capacité dramatiquement plus élevée pour des tokens de sortie rapides.
À lire aussi : Les ports marocains investissent massivement dans la digitalisation logistique