Anthropic lance un nouveau modèle d'IA qui « pense » aussi longtemps que vous le souhaitez

Anthropic lance un nouveau modèle d’IA de pointe appelé Claude 3.7 Sonnet, que la société a conçu pour « réfléchir » aux questions aussi longtemps que les utilisateurs le souhaitent.
Anthropic considère Claude 3.7 Sonnet comme le premier « modèle de raisonnement hybride d'IA » du secteur, car il s'agit d'un modèle unique capable de fournir à la fois des réponses en temps réel et des réponses plus réfléchies et « réfléchies » aux questions. Les utilisateurs peuvent choisir d'activer ou non les capacités de « raisonnement » du modèle d'IA, qui incitent Claude 3.7 Sonnet à « réfléchir » pendant une période courte ou longue.
Ce modèle représente l'effort plus vaste d'Anthropic pour simplifier l'expérience utilisateur autour de ses produits d'IA. La plupart des chatbots d'IA actuels disposent d'un sélecteur de modèle intimidant qui oblige les utilisateurs à choisir entre plusieurs options différentes qui varient en termes de coût et de capacités. Les laboratoires comme Anthropic préfèrent que vous n'ayez pas à y penser : idéalement, un seul modèle fait tout le travail.
Claude 3.7 Sonnet sera déployé auprès de tous les utilisateurs et développeurs lundi, a déclaré Anthropic, mais seuls les utilisateurs payant pour les plans de chatbot Claude premium d'Anthropic auront accès aux fonctionnalités de raisonnement du modèle. Les utilisateurs de Claude gratuit obtiendront la version standard, non raisonnée, de Claude 3.7 Sonnet, qui, selon Anthropic, surpasse son précédent modèle d'IA de pointe, Claude 3.5 Sonnet . (Oui, la société a sauté un numéro.)
Claude 3.7 Sonnet coûte 3 $ par million de jetons d'entrée (ce qui signifie que vous pouvez entrer environ 750 000 mots, soit plus de mots que toute la série du Seigneur des Anneaux, dans Claude pour 3 $) et 15 $ par million de jetons de sortie. Cela le rend plus cher que l'o3-mini d'OpenAI (1,10 $ par 1 M de jetons d'entrée/4,40 $ par 1 M de jetons de sortie) et le R1 de DeepSeek (0,55 $ par 1 M de jetons d'entrée/2,19 $ par 1 M de jetons de sortie), mais gardez à l'esprit que o3-mini et R1 sont des modèles strictement de raisonnement — pas des hybrides comme Claude 3.7 Sonnet.

Claude 3.7 Sonnet est le premier modèle d'IA d'Anthropic capable de « raisonner », une technique vers laquelle de nombreux laboratoires d'IA se sont tournés à mesure que les méthodes traditionnelles d'amélioration des performances de l'IA s'essoufflent .
Les modèles de raisonnement comme o3-mini, R1, Gemini 2.0 Flash Thinking de Google et Grok 3 (Think) de xAI utilisent plus de temps et de puissance de calcul avant de répondre aux questions. Les modèles décomposent les problèmes en étapes plus petites, ce qui tend à améliorer la précision de la réponse finale. Les modèles de raisonnement ne pensent pas ou ne raisonnent pas nécessairement comme le ferait un humain, mais leur processus est calqué sur la déduction.
À terme, Anthropic aimerait que Claude détermine lui-même combien de temps il doit « réfléchir » aux questions, sans que les utilisateurs aient besoin de sélectionner des commandes à l'avance, a déclaré Diane Penn, responsable des produits et de la recherche chez Anthropic, à TechCrunch lors d'une interview.
« De la même manière que les humains n’ont pas deux cerveaux distincts pour les questions auxquelles on peut répondre immédiatement et celles qui nécessitent une réflexion », a écrit Anthropic dans un article de blog partagé avec TechCrunch, « nous considérons le raisonnement comme l’une des capacités qu’un modèle de frontière devrait avoir, pour être intégrée en douceur à d’autres capacités, plutôt que comme quelque chose à fournir dans un modèle séparé. »
Anthropic a indiqué qu'elle permettait à Claude 3.7 Sonnet de montrer sa phase de planification interne à travers un « bloc-notes visible ». Lee a déclaré à TechCrunch que les utilisateurs verront le processus de réflexion complet de Claude pour la plupart des invites, mais que certaines parties pourraient être expurgées pour des raisons de confiance et de sécurité.

Anthropic affirme avoir optimisé les modes de réflexion de Claude pour les tâches du monde réel, comme les problèmes de codage difficiles ou les tâches d'agent. Les développeurs qui exploitent l'API d'Anthropic peuvent contrôler le « budget » de réflexion, en échangeant la vitesse et le coût contre la qualité de la réponse.
Lors d'un test visant à mesurer des tâches de codage dans le monde réel, SWE-Bench, Claude 3.7 Sonnet a obtenu un score de 62,3 % de précision, contre 49,3 % pour le modèle o3-mini d'OpenAI. Lors d'un autre test visant à mesurer la capacité d'un modèle d'IA à interagir avec des utilisateurs simulés et des API externes dans un environnement de vente au détail, TAU-Bench, Claude 3.7 Sonnet a obtenu un score de 81,2 %, contre 73,5 % pour le modèle o1 d'OpenAI.
Anthropic affirme également que Claude 3.7 Sonnet refusera de répondre aux questions moins souvent que ses modèles précédents, affirmant que le modèle est capable de faire des distinctions plus nuancées entre les demandes nuisibles et bénignes. Anthropic affirme avoir réduit les refus inutiles de 45 % par rapport à Claude 3.5 Sonnet. Cela arrive à un moment où d'autres laboratoires d'IA repensent leur approche pour restreindre les réponses de leur chatbot IA .
En plus de Claude 3.7 Sonnet, Anthropic publie également un outil de codage agentique appelé Claude Code. Lancé en avant-première de recherche, l'outil permet aux développeurs d'exécuter des tâches spécifiques via Claude directement depuis leur terminal.
Lors d'une démonstration, les employés d'Anthropic ont montré comment Claude Code peut analyser un projet de codage avec une simple commande telle que « Expliquez la structure de ce projet ». En utilisant un langage simple dans la ligne de commande, un développeur peut modifier une base de code. Claude Code décrira ses modifications au fur et à mesure qu'il les modifiera, et testera même un projet pour détecter les erreurs ou le poussera vers un référentiel GitHub.
Claude Code sera initialement disponible pour un nombre limité d'utilisateurs selon le principe du « premier arrivé, premier servi », a déclaré un porte-parole d'Anthropic à TechCrunch.
Anthropic lance Claude 3.7 Sonnet à un moment où les laboratoires d'IA livrent de nouveaux modèles à un rythme effréné. Anthropic a toujours adopté une approche plus méthodique et axée sur la sécurité. Mais cette fois, l'entreprise cherche à prendre les devants.
La question est de savoir combien de temps cela va durer. OpenAI est peut-être sur le point de lancer son propre modèle d'IA hybride ; le PDG de la société, Sam Altman, a déclaré qu'il arriverait dans « quelques mois ».
techcrunch