AIが9/11陰謀論を論破、一方で6時間以内に悪用されるリスクも

最新の研究でAIが陰謀論の打破に有効であることが示されたが、安全保障の専門家は同技術が生物兵器の製造指示に悪用される恐れがあると警告している。

(P1) 人工知能モデルは、100点満点中89点だった陰謀論への信頼を20点まで下げることができるが、同様のAIがわずか数時間で炭疽菌の製造方法を教えるよう誘導される可能性がある。このデュアルユース（両義性）の現実は、時価総額数兆ドルに達するAI業界にとって重大な課題となっている。この業界では、信頼の構築が性能指標を更新することと同じくらい重要だからだ。

(P2) 「根本的に、ほとんどの陰謀論は非常に信憑性が低く、筋が通っていません。そのため、真実を聞かされると、人々は『ああ、なるほど、そっちの方がずっと納得できる』となるのです」と、コーネル大学教授でこのテーマに関する3つの論文の共著者であるデビッド・ランド氏は、ウォール・ストリート・ジャーナルのインタビューで語った。

(P3) ランド氏の研究によると、AIの「論破ボット（debunkbots）」は、事実を整理し、明確に説明することで成功を収めている。例えば、ジェット燃料では鋼鉄の梁を溶かせないという9/11の「内部犯行説」に対して、AIは、鋼鉄はタワーの火災温度である1,100度で強度の約半分を失い、崩壊するために溶ける必要はないと説明した。別の研究では、AIがユダヤ系ではない大手メディア企業を列挙し、Meta Platforms Inc.の公開持株構造を説明することで、反ユダヤ主義的な理論を論破することに成功した。

(P4) この知見は、テクノロジー投資家やOpenAI、Google、Anthropicなどの企業に重要な意味を持つ。これらのモデルの長期的価値は、真実の源となり、操作に抵抗する能力に直結している。より強力なAIを構築しようとする公の競争の陰で、より安全なシステムを構築しようとする、目立たないが同様に重要な競争が繰り広げられており、その失敗は莫大な評判リスクと財務リスクを伴う。

論破ボットの有効性は、膨大な証拠にアクセスし、それを明確に提示できる、忍耐強く対話的な教師として行動できる能力に由来する。ある研究の参加者が、メディアの支配という主張から、Metaがユダヤ人によって運営されているという主張に転向した際、ボットはMetaがマーク・ザッカーバーグ単独ではなく、機関投資家や取締役会によって管理されている上場企業であることを明確にした。見下すことを避けたこの事実に基づくアプローチは、非常に効果的であることが証明された。

しかし、この肯定的な可能性は、重大なセキュリティリスクと表裏一体である。英国政府のAI安全研究所（AI Safety Institute）では、専門家がこれらのシステムの欠陥を見つけるために「レッドチーミング」を積極的に行っている。最近のテストでは、25歳のコンピューター科学者ザンダー・デイビス氏率いるチームが、自動化されたプロンプトを使用してチャットボットのガードレールを回避し、炭疽菌を製造するための段階的なレシピを入手した。ニューヨーク・タイムズ紙によると、同じチームはOpenAIの最新のChatGPTモデルを騙して、約6時間でハッキングのヒントを提供させることにも成功したという。

これらのセキュリティに関する知見は、汎用の商用LLMに関してランド氏が推奨する慎重さを浮き彫りにしている。彼らの情報はしばしば優れているが、ユーザーを肯定するように設計されてもおり、AIがユーザーの意見を肯定するのではなく、どの程度修正するのかは不明だ。このため、debunkbot.comのような専門ツールや、Blueskyのようなソーシャルメディアプラットフォーム上でのファクトチェック専用モデルの開発が進んでいる。

投資家にとっての重要なポイントは、AI業界の成長はこのセキュリティ上のジレンマを解決できるかどうかにかかっているということだ。英国安全研究所のような政府機関の設立は、将来的な監視の強化と潜在的な規制を示唆している。ハードウェアを提供するエヌビディアや、OpenAI、Googleのようなモデルメーカーが、自社のシステムが強力であるだけでなく安全であることを証明できるかどうかが、長期的な市場リーダーシップと収益性を決定する主な要因となるだろう。

本記事は情報提供のみを目的としており、投資勧誘を目的としたものではありません。