Claude Fable 5のセキュリティが48時間で突破される—暗号資産への危機感

最新型AI「Fable 5」のガードレールが即座に破られた経緯

Anthropicが2026年6月に公開した最新AI「Claude Fable 5」が、わずか48時間で安全機構を回避されてしまった。AI研究者「Pliny the Liberator」が複数の手法を組み合わせてセキュリティを突破したと報告している。Fable 5は本来、より高性能だが危険とされた「Mythos」モデルの安全版として設計されており、ユーザーが違法な薬物製造方法やハッキング手順といった有害情報を取得できないよう厳重に制限されていた。しかし、このセキュリティ層を複数の技術で破ることが可能だったのである。

Plinyが用いたのはUnicode文字列、長文脈フレーミング、小説的な文脈枠組み、学術的な分解・再構成、そして既にジェイルブレイクされたClaude Opus 4.8の組み合わせだ。特に有効だったのは「分解・再構成」という手法で、有害な要求を複数の無害に見える小さな質問に分割し、各段階では安全フィルターが検知できないようにしながら、最終的に組み立てると危険な情報が完成する仕組みである。

X (formerly Twitter)
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) on X 🚨 JAILBREAK ALERT 🚨 ANTHROPIC: PWNED 🫡 FABLE-5: LIBERATED 🦋 let's start with the 🐘... the consensus seems to be that this has been one of the most disappoi...

暗号資産エコシステムに潜む新たな脅威

仮想通貨コミュニティはこのニュースに強い懸念を表明している。Fable 5とMythosの公開当初から、これらのAIモデルが暗号資産プロトコルやソフトウェアへの攻撃に悪用される可能性が指摘されていた。ジェイルブレイク版Fable 5が存在するという事実は、その脅威がより現実的になったことを意味する。AIを用いた巧妙なスマートコントラクト攻撃やセキュリティ脆弱性の発見が、これまで以上に容易になる可能性が高い。暗号資産の分散型ファイナンス(DeFi)プラットフォームは既に複雑な構造を持つため、高度なAIに攻撃されると防御が難しくなる。

Plinyは2024年頃からChatGPTやClaude、Grokなど複数のAIモデルに対するジェイルブレイク手法を開発し、新モデル公開直後に「ジェイルブレイク警告」を発表することで知られている。この人物の行動は、AIメーカーのセキュリティテストの限界を露呈させるたびに、業界全体に緊張をもたらしている。

Anthropicの安全対策が批判される背景と業界の反発

Fable 5の重厚な制限には、公開当初から激しい反発が起きている。プリンストン大学のAI研究者Sayash Kapoorは、AIメーカーがガードレールを導入して初めて「一貫した不満」が発生したと指摘する。セキュリティを重視する余り、正当な研究者や開発者までもが機能を利用できなくなっているのだ。

Plinyも「このモデルのドロップは史上最も期待外れであり、正規の研究者が人類の進歩に貢献する道を事実上奪っている」とコメントしている。一方、Anthropicは外部バグバウンティプログラムを実施し、1000時間以上のテストで「普遍的なジェイルブレイクは発見されなかった」と発表していた。しかし、この主張はPlinyの成功により、早くも無効化された。セキュリティと利便性のバランスをどう取るのか、AI企業は根本的な課題に直面している。

目次