Alibaba innove un modèle d’intelligence artificielle qui surpasserait DeepSeek-V3

Redaction Journal 29 janvier 2025

2 minutes de lecture

L’entreprise technologique chinoise Alibaba a publié mercredi une nouvelle version de son modèle d’intelligence artificielle Qwen 2.5 qui, selon elle, surpasse le très acclamé DeepSeek-V3.

Le moment inhabituel de la sortie de Qwen 2.5-Max, le premier jour du Nouvel An lunaire, lorsque la plupart des Chinois sont en congé et en famille, souligne la pression que l’ascension fulgurante de la start-up chinoise d’IA DeepSeek au cours des trois dernières semaines a exercée non seulement sur ses rivaux étrangers, mais aussi sur sa concurrence nationale.

« Qwen 2.5-Max surpasse… presque sur tous les plans GPT-4o, DeepSeek-V3 et Llama-3.1-405B », a déclaré l’unité cloud d’Alibaba dans une annonce publiée sur son compte officiel WeChat, faisant référence aux modèles d’IA open source les plus avancés d’OpenAI et de Meta.

La sortie le 10 janvier de l’assistant IA de DeepSeek, alimenté par le modèle DeepSeek-V3, ainsi que la sortie le 20 janvier de son modèle R1, ont choqué la Silicon Valley et provoqué une chute des actions technologiques, les coûts de développement et d’utilisation prétendument faibles de la startup chinoise incitant les investisseurs à remettre en question les énormes plans de dépenses des principales entreprises d’IA aux États-Unis.

Mais le succès de DeepSeek a également conduit à une ruée parmi ses concurrents nationaux pour mettre à niveau leurs propres modèles d’IA.

Deux jours après la sortie de DeepSeek-R1, le propriétaire de TikTok, ByteDance, a publié une mise à jour de son modèle d’IA phare, qui, selon lui, surpassait l’o1 d’OpenAI soutenu par Microsoft dans AIME, un test de référence qui mesure la façon dont les modèles d’IA comprennent et répondent à des instructions complexes.

Cela fait écho à l’affirmation de DeepSeek selon laquelle son modèle R1 rivalisait avec l’o1 d’OpenAI sur plusieurs tests de performance.

Le prédécesseur du modèle V3 de DeepSeek, DeepSeek-V2, a déclenché une guerre des prix des modèles d’IA en Chine après sa sortie en mai dernier.

Le fait que DeepSeek-V2 soit open source et incroyablement bon marché, seulement 1 yuan (0,14 $) par million de jetons – ou unités de données traitées par le modèle d’IA – a conduit la division cloud d’Alibaba à annoncer des réductions de prix allant jusqu’à 97 % sur une gamme de modèles.

D’autres entreprises technologiques chinoises ont emboîté le pas, notamment Baidu, qui a lancé le premier équivalent chinois de ChatGPT en mars 2023, et Tencent, la société Internet la plus valorisée du pays.

Liang Wenfeng, l’énigmatique fondateur de DeepSeek, a déclaré dans une rare interview accordée au média chinois Waves en juillet que la startup « ne se souciait pas » des guerres de prix et que la réalisation de l’AGI (intelligence artificielle générale) était son principal objectif.

OpenAI définit l’AGI comme des systèmes autonomes qui surpassent les humains dans les tâches les plus rentables.

Alors que les grandes entreprises technologiques chinoises comme Alibaba comptent des centaines de milliers d’employés, DeepSeek fonctionne comme un laboratoire de recherche, composé principalement de jeunes diplômés et de doctorants issus des meilleures universités chinoises.

Liang a déclaré dans son interview de juillet qu’il pensait que les plus grandes entreprises technologiques chinoises pourraient ne pas être bien adaptées à l’avenir du secteur de l’IA, contrastant leurs coûts élevés et leurs structures descendantes avec le fonctionnement allégé et le style de gestion souple de DeepSeek.

« Les grands modèles fondamentaux nécessitent une innovation continue, les capacités des géants de la technologie ont leurs limites », a-t-il déclaré. (Reuters)