Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

keepthepace_@jlai.lu · 2 months ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

Camus [il/lui]@lemmy.blahaj.zone · 2 months ago

Tu parles des modèles open source, quels sont les plus importants pour le moment? Y a-t-il une grande tendance à gérer ces modèles sous licences open source / libres, ou à l’inverse les modèles les plus performants sont-ils la propriété de société privées?

keepthepace_@jlai.lu · edit-2 2 months ago

Pour l’instant GPT-4, modèle fermé possédé par OpenAI est considéré comme le meilleur modèle avec la série Claude d’Anthropic (fermés aussi) qui le dépasse sur certaines choses.

Mais ça sent la fin de règne. Mistral et Meta (pourtant deux boites privées) ont sorti des modèles libres qui vient disputer leur turf.

En Open source, ça change toutes les semaines. En ce moment, Llama-3 est le modèle libre (certains considèrent sa licence trop restrictive pour être considérée libre, mais perso je considère que ça va) qui a les meilleures performances, y a un mois c’était la série de Mistral. La série des Command R pourrait être les prochains à monter.

Pour suivre cette course hippique et épique, le meilleur classement reste sûrement l’arène LMSYS où des gens évaluent les modèles en aveugle.

Il faut garder à l’esprit qu’il y a un aspect qui “handicape” les modèles libres: ils tentent de rester petits. Ils bénéficient de la communauté open source si beaucoup de monde peut les faire tourner. Un modèle à 7 milliards de paramètres (la taille la plus populaire) ou à 70 milliards (la taille considérée “max” pour la commu) va avoir du mal à concurrencer un modèle comme GPT-4 qu’on estime avoir 1700 milliards de paramètres.

En intelligence par paramètre dans le modèle, l’open source gagne de loin.