Actualité · ~9 min

Claude Opus 4.7 : la sortie qui change la donne

Anthropic dévoile Claude Opus 4.7 — specs, benchmarks, prix, et ce que ça change concrètement pour les devs et les stratégies IA.

A
Antoine, expert référencement IA/GEO, rédacteur Citability

Anthropic a fini par sortir du bois. Après plusieurs semaines de rumeurs, de fuites dans The Information et de teasers internes, Claude Opus 4.7 a été lancé le 16 avril 2026 — deux jours à peine avant la rédaction de ce papier. Et autant le dire tout de suite : ce n’est pas une mise à jour cosmétique. C’est un saut de capacités agentiques, une refonte du tokenizer, une nouvelle politique sécurité, et une petite confession publique au passage.

On fait le tour, sans jargon superflu, de ce qu’il faut retenir pour les développeurs, les équipes produit et les stratégies GEO.

Une sortie officialisée le 16 avril 2026

Anthropic a publié Opus 4.7 en disponibilité générale le jeudi 16 avril 2026, sur Claude.ai, l’API Claude, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry. L’identifiant API est tout simplement claude-opus-4-7.

La sortie avait été éventée le 14 avril au soir par The Information, qui annonçait le modèle pour “la semaine” — un planning que l’éditeur a respecté à la lettre. Selon VentureBeat (avril 2026), cette livraison permet à Anthropic de reprendre, de justesse, la tête du classement des LLMs généralement disponibles, devant GPT-5.4 et Gemini 3.1 Pro sur la majorité des benchmarks clés.

Fait marquant : dans son propre communiqué, Anthropic concède publiquement qu’Opus 4.7 ne surpasse pas son modèle interne Claude Mythos Preview, toujours non distribué au grand public pour raisons de sécurité. Une humilité inhabituelle dans le marketing LLM, qu’on détaille plus bas.

Specs : 1M de contexte, vision 3,75 MP et nouveau tokenizer

Sur le papier, Opus 4.7 conserve les grands fondamentaux d’Opus 4.6 tout en musclant trois axes concrets.

Fenêtre de contexte et sortie

La fenêtre reste à 1 million de tokens en entrée et 128 000 tokens en sortie, au prix API standard, sans premium long-context. Anthropic insiste sur ce point dans sa documentation : pas de surcoût caché sur les très longs prompts.

Vision haute résolution

C’est l’upgrade le plus spectaculaire côté multimodal. Selon la documentation officielle Anthropic (avril 2026), la résolution d’image maximale passe à 2 576 px sur le grand côté, soit environ 3,75 mégapixels — plus de 3× le plafond précédent (1 568 px / 1,15 MP). Les coordonnées du modèle sont désormais 1:1 avec les pixels réels, ce qui simplifie énormément le computer use et l’analyse de screenshots.

Traduction concrète : un agent qui doit cliquer sur un bouton d’UI, lire un diagramme, ou extraire des données d’un graphique scanné, va travailler avec beaucoup plus de fidélité. XBOW rapporte selon Anthropic 98,5 % de visual acuity contre 54,5 % pour Opus 4.6 — un bond inhabituel à ce niveau d’échelle.

Nouveau tokenizer (et petite subtilité prix)

Opus 4.7 embarque un nouveau tokenizer, qui contribue aux gains de performance mais consomme 1,0× à 1,35× plus de tokens qu’Opus 4.6 sur un même texte. Ce point est assumé par Anthropic dans sa doc, mais il a fait grincer quelques dents côté communauté — on y revient.

Paramètres qui disparaissent

Quelques changements cassants pour les intégrateurs : les paramètres temperature, top_p et top_k renvoient désormais une erreur 400 si on les modifie. Les budgets de thinking explicites sont supprimés au profit de l’adaptive thinking, seul mode “thinking-on” supporté. Et les blocs de raisonnement sont omis par défaut dans la réponse — il faut explicitement opter pour display: "summarized" pour les afficher. De quoi revoir un bon nombre d’intégrations.

Nouvelles capacités : xhigh, task budgets et Claude Code

Opus 4.7 introduit trois nouveautés vraiment pensées pour les usages agentiques longs.

Le palier d’effort xhigh

Au-delà des niveaux low / medium / high / max déjà connus, Anthropic ajoute un nouveau palier xhigh (“extra high”), positionné entre high et max. Selon la documentation officielle, Anthropic recommande de démarrer sur xhigh pour le code et les tâches agentiques, et au minimum high pour tout ce qui touche au raisonnement fin.

Task budgets (bêta publique)

Nouveau concept : un task budget donne au modèle un ordre de grandeur du nombre de tokens à consommer sur une boucle agentique complète (thinking + tool calls + tool results + sortie). Le modèle voit un compte à rebours et priorise son travail pour finir proprement dans l’enveloppe. Ce n’est pas un cap dur — c’est une suggestion que le modèle internalise. Minimum recommandé : 20 000 tokens.

Pour activer cette feature, il faut passer le header bêta task-budgets-2026-03-13 et le paramètre task_budget dans la configuration de sortie. Utile pour les workflows où on veut que le modèle “s’auto-modère” plutôt que de se faire guillotiner sèchement par max_tokens.

Claude Code : /ultrareview et auto mode étendu

Côté Claude Code, la mise à jour apporte une slash command /ultrareview dédiée aux sessions de chasse aux bugs, un extended auto mode pour les utilisateurs Max, et un relèvement du niveau d’effort par défaut à xhigh. De quoi rendre le CLI sensiblement plus autonome sur les tâches longues.

Benchmarks : leader en code, contesté sur le long contexte

Les chiffres publiés par Anthropic et repris par Vellum, LLM-Stats et VentureBeat donnent une photo assez nette : Opus 4.7 domine le coding et l’agentique, mais n’est pas le champion partout.

Coding et agentique

  • SWE-bench Verified : 87,6 % (contre 80,6 % pour Gemini 3.1 Pro, selon VentureBeat avril 2026)
  • SWE-bench Pro : 64,3 %, bond de 10,9 points depuis les 53,4 % d’Opus 4.6
  • MCP-Atlas (scaled tool use) : 77,3 %
  • OSWorld-Verified (computer use) : 78,0 %

Selon Anthropic (avril 2026), Opus 4.7 résout 3× plus de tâches de production qu’Opus 4.6 sur les benchmarks internes, avec un gain d’environ 13 % sur le coding. Replit, Vercel et Databricks ont confirmé des gains mesurables sur leurs workflows réels.

Raisonnement et knowledge work

  • GPQA Diamond : 94,2 % — à égalité statistique avec GPT-5.4 (94,4 %) et Gemini 3.1 Pro (94,3 %), selon The Next Web
  • Finance Agent v1.1 : 64,4 % — leader
  • CharXiv (visual reasoning) : 82,1 % sans outils, 91,0 % avec outils
  • GDPVal-AA (knowledge work, Elo) : 1 753 contre 1 674 pour GPT-5.4 et 1 314 pour Gemini 3.1 Pro

Là où Opus 4.7 ne gagne pas

Deux zones d’ombre à signaler. Sur BrowseComp (recherche web), Opus 4.7 tombe à 79,3 %, loin derrière GPT-5.4 Pro (89,3 %) et Gemini 3.1 Pro (85,9 %). Et sur le benchmark MRCR de long-context retrieval, plusieurs sources indépendantes (dont Startup Fortune, avril 2026) rapportent un score de 32,2 % contre 78,3 % pour Opus 4.6 — une régression que la communauté qualifie de “collapse”. À prendre avec les pincettes d’usage, mais à surveiller si votre usage dépend du retrieval dans des contextes très longs.

Surtout, sur SWE-bench Pro, Claude Mythos Preview — le modèle qu’Anthropic ne distribue pas — domine toujours à 77,8 %, largement devant Opus 4.7. Anthropic ne s’en cache pas.

Prix : inchangé, mais attention au tokenizer

Selon la grille officielle Anthropic (avril 2026) :

  • Entrée : 5 $ / million de tokens
  • Sortie : 25 $ / million de tokens

Exactement les mêmes tarifs qu’Opus 4.6. Avec jusqu’à 90 % d’économies avec le prompt caching et 50 % avec le batch processing.

Sauf qu’à tokenizer plus bavard, facture plus salée. Si votre workload voit ses textes tokenizés 1,2× plus qu’avant, c’est mécaniquement 20 % de coût en plus à enveloppe équivalente. Plusieurs commentateurs (Finout, Decrypt, avril 2026) parlent d’une “stealth price hike” — pas faux, même si Anthropic documente le changement très ouvertement.

Le conseil pragmatique : re-calibrer vos max_tokens, utiliser le prompt caching agressivement, et tester votre workload réel avant de généraliser.

Positionnement : le pari “safe and shippable”

C’est peut-être le point le plus intéressant stratégiquement. Selon Axios et CNBC (16 avril 2026), Anthropic assume qu’Opus 4.7 est volontairement moins capable que Mythos Preview en cybersécurité. Pendant l’entraînement, l’éditeur a fait des efforts pour réduire différentiellement les capacités offensives du modèle.

En parallèle, Opus 4.7 embarque des garde-fous automatiques en temps réel qui détectent et bloquent les requêtes indiquant un usage cyber prohibé ou à haut risque. Les chercheurs sécurité légitimes peuvent candidater au Cyber Verification Program d’Anthropic pour débloquer les cas d’usage red team et pentest.

La formule d’Anthropic est assumée : “ce qu’on apprend en déployant ces safeguards en conditions réelles nous rapproche d’une éventuelle diffusion large des modèles de la classe Mythos”. Opus 4.7 est donc à la fois un produit et un banc d’essai.

Réactions : chaud et froid côté communauté

La réception n’a pas été unanime, loin de là.

Côté positif, les retours partenaires sont concordants : Replit voit “la même qualité à moindre coût” sur les workflows utilisateurs ; Vercel parle d’un modèle “phénoménal sur les tâches de code one-shot” ; Databricks mesure 21 % d’erreurs en moins sur l’analyse de documents entreprise.

Côté négatif, un vrai backlash s’est structuré sur Reddit, Hacker News et X (Startup Fortune, avril 2026) autour de trois griefs :

  1. Le style d’écriture long-format devient plus mécanique, avec un réflexe excessif de bullets et de headers plutôt qu’une prose fluide.
  2. Le ton est plus “corporate”, moins chaleureux, moins d’emojis — Anthropic assume d’ailleurs dans sa doc une tonalité “plus directe, plus opinionnée, moins validation-forward”.
  3. Le tokenizer fait grimper la facture sans amélioration proportionnelle sur tous les workloads.

Pour les équipes GEO et content, c’est à tester en conditions réelles : Opus 4.7 reste excellent pour raisonner, mais il peut être moins à l’aise pour rédiger du contenu long-format “naturel” sans guidage fort côté prompt.

Ce que ça change pour le GEO

Trois implications concrètes pour qui travaille la visibilité dans les réponses IA.

1. Les agents Claude deviennent plus autonomes. Avec l’extended auto mode, xhigh par défaut et les task budgets, de plus en plus de recherches vont se faire en mode agentique — donc une question se pose : votre site est-il lisible et citable par un agent qui explore plusieurs pages et synthétise ?

2. La vision haute résolution rebat les cartes visuelles. Si vous publiez des infographies, schémas ou captures annotées, ils peuvent désormais être “lus” proprement par Claude à pleine résolution. Autant les soigner (texte vectoriel, contrastes, légendes).

3. Le contenu long-format factuel reste roi. Opus 4.7 privilégie la réponse directe, la concision calibrée à la complexité, et l’évaluation fine des sources. La structure “réponse en tête + preuve + contexte” reste le bon format.


Sources :