Claude Codeが突然「壊れた」夏、そして大復活――2025年8月の品質劣化事件とその後

2025年8月、Claude Codeが突然おかしくなったと感じた開発者は多かった。あれは気のせいではなかった。三重のインフラバグが引き起こした「静かな災害」と、その後の驚くべき大復活の全貌を振り返る。

2026-05-03 ·

Claude Code
Anthropic
AI開発ツール
インフラ障害
ポストモーテム

あの夏、何かがおかしかった。

コードを書かせると突然タイ語が混入する。英語で質問しているのに中国語の文字が返ってくる。指示を無視する。コンテキストを失う。長いセッションで前の判断を覚えていない。Claude Codeを毎日使っていた開発者たちは、口を揃えて「壊れた」と言った。

しかし当初、Anthropicは沈黙していた。

何が起きていたのか

2025年8月5日、最初のバグが静かに忍び込んだ。

Anthropicはちょうどそのころ、Claude Sonnet 4向けに100万トークンのコンテキストウィンドウ対応サーバーを準備していた。そのサーバーへのルーティング設定に誤りがあり、通常の短いコンテキストのリクエストが、100万トークン対応の別系統サーバーへ誤って振り分けられ始めた。最初の影響範囲はリクエスト全体の0.8%程度と小さく、検知が難しかった。

続く8月25日、さらに二つのバグが重なった。

一つ目はTPUサーバーへの設定ミスだ。トークン生成の最適化を目的としたコードがデプロイされたが、それがTPUのコンパイラ（XLA）の隠れたバグを露出させた。結果として、本来なら出力されるはずのないトークンに誤って高い確率が割り当てられ、英語の応答の途中に「สวัสดี」（タイ語の挨拶）や中国語の文字が混入したり、コードに明らかな構文エラーが生じたりする現象が発生した。

二つ目はXLA:TPUコンパイラのバグだ。approximate top-k（確率の高いトークンを高速に絞り込む処理）に関わるもので、特定のバッチサイズやモデル設定下でまったく誤った結果を返すことがあった。このバグはデバッグツールの有無や、前後の処理内容によって再現したりしなかったりと、調査を著しく困難にさせた。

そして8月29日、これら三つのバグが重なっているとは知らずに行われた通常のロードバランシング調整が、状況を一気に悪化させた。誤ルーティングの割合が急増し、最悪の時間帯（8月31日）にはSonnet 4リクエストの**16%が誤ったサーバーへ向かっていた。Claude Codeユーザーに限れば、その期間にリクエストを行ったユーザーの約30%**が、少なくとも1回は誤ルーティングによる劣化した応答を受け取っていたとされる。

さらに同じ8月28日、AnthropicはProおよびMaxプランへの週次利用上限の導入を発表していた。品質低下と重なったこの変更が、「コストを削減するためにモデルを意図的に劣化させているのではないか」という疑惑に火をつけた。

コミュニティの怒り

/r/ClaudeCodeは毎日「解約した」というスレッドで埋まった。「ここ数週間でClaudeが崖から落ちた」「賢い編集ができなくなった、コンテキストを失う、矛盾する、とにかくひどい」といった投稿が相次いだ。AMDのAIシニアエグゼクティブは「複雑なエンジニアリングタスクには使えない状態」と公言した。サイバーセキュリティの専門家たちは、劣化したコード品質が危険な脆弱性を生む可能性を警告した。

一方で競合のOpenAI Codex CLIへの移行が加速した。あるツールのデータによれば、Claude Codeの利用シェアは83%から70%まで低下し、そのぶんCodexが伸びた。

最も批判を集めたのは、品質低下そのものではなくAnthropicの沈黙だった。

ユーザーからの報告が溢れる中、Anthropicは週単位で何も言わなかった。やがてSam AltmanがRedditのスレッドをX（旧Twitter）で引用リツイートした。そのタイミングで初めてAnthropicは動いた——「GPT-5.5のリリース日に、ガスライティングした後でようやく認めた」と揶揄するユーザーも少なくなかった。

Anthropicの公式見解

9月8日、Anthropicはインシデント情報として「二つのバグを解決した」とRedditに投稿した。そして9月17日、詳細な技術的ポストモーテムを公開した。

そこには明記されていた——「需要やサーバー負荷によってモデルの品質を意図的に下げることは絶対にない」。品質低下はすべてインフラのバグによるものであり、コスト削減を目的とした意図的な行為ではないと。

検知が遅れた理由についても正直に述べている。バグが三つ異なる形で、異なる割合で、異なるプラットフォームに影響していたため、報告が矛盾していたこと。プライバシー保護のためエンジニアが実際のユーザーインタラクションにアクセスできず、バグの再現が困難だったこと。そして既存のベンチマーク評価では、この種の断続的な品質劣化を検出できなかったこと。

技術的な根本原因は驚くほど複雑だった。2024年12月に発見・修正済みだと思われていたTPUの精度問題が、実は別の深刻なバグを隠蔽していたのだ。「修正したつもりの修正が、別のバグを覆い隠すワークアラウンドだった」——こうした技術的負債の連鎖が、2025年夏の混乱を招いた。

この事件が問いかけるもの

Anthropicはポストモーテムの中で、再発防止策として「統計的有意性を持った品質ベンチマークの継続的モニタリング」「カナリアデプロイの徹底」「社内のカスタマーサポートとエンジニアの連携改善」などを挙げている。実際、その後2026年4月にも再び品質劣化事件が起き（こちらは推論コストの削減設定変更などが原因）、Anthropicは再度ポストモーテムを公開している。繰り返す教訓は、まだ完全には活かされていない。

しかし、より根本的な問いが残る。

AIコーディングツールは今や、多くの開発者にとってインフラそのものだ。サーバーが落ちれば気づく。しかしAIが「ちょっとだけ」おかしくなっても、気づけないことがある。コードに混入するバグは、その場では通過しても後で爆発する。Claude Codeの「壊れた夏」が示したのは、AIツールの信頼性とは単なる「動くかどうか」ではなく、**「一貫して、予測可能に、高品質であるかどうか」**という問題だということだ。

ユーザーが「気のせいじゃなかった」と確信するまでに、一ヶ月近くかかった。それは長すぎる。

そして私たちユーザーにできることは、「なんかおかしい」という感覚を無視しないことだ。ベンチマークでも評価指標でもなく、日々の開発の中でのあの違和感——あれは正直なシグナルだった。

それでも、Claudeは帰ってきた

ここで話を終えると、Claude Codeへの失望の記録になってしまう。しかし実際には、この事件には続きがある——しかも劇的な続きが。

バグ修正の完了から約二週間後の2025年9月29日、AnthropicはClaude Sonnet 4.5をリリースした。

発表は控えめではなかった。「世界最高のコーディングモデル」。実際、ソフトウェアエンジニアリングの標準ベンチマークであるSWE-bench Verifiedで77.2%というスコアを叩き出した。これはバグ騒動前のSonnet 4をはるかに上回る数字だ。さらに、複雑な複数ステップのタスクを30時間以上継続実行できることが確認されたという。壊れた夏に「コンテキストを失う」と叩かれたモデルが、30時間連続作業へと進化した。

Sonnet 4.5はClaude Codeの新しいデフォルトモデルに設定され、あわせてClaude Codeはバージョン2.0に到達した。SDK全体の名称も「Claude Code SDK」から「Claude Agent SDK」に改められ、--agentsフラグによるサブエージェントの動的追加が可能になった。VS Code拡張機能のベータ版も同時公開され、IDEのサイドバーでリアルタイムに差分を確認できる体験が生まれた（筆者も使っているGhosttyのユーザーにとっては、ターミナルとIDEの橋渡しがようやく本格化した瞬間だった）。

インフラ面でも、問題の根本に向き合う新機能が加わった。コンテキスト編集機能（Context Editing）はトークン上限に近づいたときに古いコンテキストを自動削除でき、メモリツールとの組み合わせでは複雑タスクの性能が39%向上、トークン消費量は84%削減されたとAnthropicは報告している。夏の劣化がコンテキスト管理の弱さを白日の下にさらし、その弱さが直接修正されたかたちだ。

そして勢いは止まらなかった。2026年2月にはOpus 4.6とSonnet 4.6が立て続けにリリースされ、SWE-bench VerifiedでSonnet 4.6が**80.8%**を記録。注目すべきはその価格据え置きと、100万トークンコンテキストウィンドウの正式GA（一般公開）だ——ちょうど一年前、100万トークン対応サーバーへの誤ルーティングが品質劣化の引き金を引いたあの機能が、今度は誰でも使える武器として解放された。

事件の傷跡が完全に癒えたわけではない。2026年4月にも再び品質劣化問題が起き（推論コスト削減設定の変更や、システムプロンプトへの「25語制限」という悪手が重なったことが原因）、Anthropicは三度目のポストモーテムを書く羽目になった。繰り返すパターンは、まだ体質として残っている。

それでも、あの夏からの軌跡は「落ちたものが本当に戻れるのか」という問いへの、一つの答えだと思う。

Claude Codeは確かに壊れた。しかしその後、より強く、より誠実に、帰ってきた。

Last updated 2026-05-03