Cerebras Systems, fabricant du plus grand processeur au monde, a battu le record du modèle d'IA le plus complexe formé sur un seul appareil.

À l'aide d'un système CS-2, alimenté par la puce de la taille d'une tranche de la société (WSE-2), Cerebras peut désormais former des modèles d'IA avec jusqu'à 20 milliards de paramètres grâce à de nouvelles optimisations au niveau logiciel.

La société affirme que cette percée résoudra l'un des problèmes les plus frustrants pour les ingénieurs en intelligence artificielle : la nécessité de partitionner des modèles à grande échelle sur des milliers de GPU. Le résultat est une opportunité de réduire considérablement le temps nécessaire pour développer et former de nouveaux modèles.

Cerebras apporte l'IA aux masses

Dans des sous-disciplines telles que le traitement du langage naturel (TAL), les performances du modèle sont en corrélation linéaire avec le nombre de paramètres. En d'autres termes, plus le modèle est grand, meilleur est le résultat final.

Aujourd'hui, le développement de produits d'IA à grande échelle implique traditionnellement de diffuser un modèle sur un grand nombre de GPU ou d'accélérateurs, soit parce qu'il y a trop de paramètres à stocker en mémoire, soit parce qu'il y a des performances de calcul insuffisantes pour gérer les charges de travail d'entraînement.

"Ce processus est douloureux et prend souvent des mois", a expliqué Cerebras. Pour aggraver les choses, le processus est unique pour chaque paire de clusters de calcul dans le réseau, de sorte que le travail n'est pas transférable entre différents clusters de calcul ou réseaux de neurones. C'est complètement personnalisé. »

Bien que les modèles les plus complexes comprennent plus de 20 milliards de paramètres, la possibilité de former des modèles d'IA à relativement grande échelle sur un seul appareil CS-2 supprime ces goulots d'étranglement pour beaucoup, accélérant le développement pour les acteurs existants et démocratisant l'accès pour ceux qui n'en étaient pas capables auparavant. faire cela. . participer à l'espace.

« La capacité de Cerebras à fournir au grand public de grands modèles de langage avec un accès simple et économique inaugure une nouvelle ère passionnante de l'IA. Il offre aux organisations qui ne peuvent pas se permettre de dépenser des dizaines de millions un chemin facile et abordable vers le NLP de grande ligue », a déclaré Dan Olds, directeur de recherche, Intersect360 Research.

"Il sera intéressant de voir quelles nouvelles applications et découvertes les clients CS-2 feront lors de la formation des modèles de classe GPT-3 et GPT-J sur des ensembles de données massifs."

De plus, Cerebras a laissé entendre que son système CS-2 pourrait gérer des modèles encore plus grands à l'avenir, avec "même des billions de paramètres". Pendant ce temps, le chaînage de plusieurs systèmes CS-2 pourrait ouvrir la voie à des réseaux d'IA plus grands que le cerveau humain.

Share