ChatGPTやGeminiなどの文章生成AIで拡散するマルウェア Morris II を研究者が発表

ChatGPTやGeminiなどの文章生成AIは日本でも普及し始めていますが、直接的な危険性も発生しています。

コーネル工科大学の研究者がChatGPTやGeminiなどの生成AIを標的にしたマルウェア「Morris II (モーリス ツー)」を開発した事を発表しました。

ChatGPT利用に関する調査

株式会社野村総合研究所の2023年6月調査のレポートによると、
ChatGPTの認知度は68.8%で、利用率は15.4%となっており、2024年にはさらに増加していると思われます。

特に認知・利用ともに最も高いのは情報通信(認知率88.4%、利用率32.8%)であり、次いで製造(認知率75.6%、利用率19.2%)で、今後も増加すると思われます。

Morris IIとは

Morris II(モーリス ツー)はコーネル工科大学の Ben Nassi 氏と、Stav Cohen 氏、Ron Bitton 氏が主導した研究で発表され、このマルウェアが検証環境で生成型 AI 電子メール アシスタントに侵入し、データを抽出してスパムを広め、それによって ChatGPT や Gemini などの著名な AI モデルのセキュリティ対策を破る能力を実証しました。

なお名前の由来は1988年に同大学で開発された有名なワームMorris に関連しています。

Morris IIの概要

敵対的自己複製プロンプトとは

敵対的自己複製プロンプトのユニークな点は、通常のプロンプトが出力する通常のデータとは異なり、GenAI モデルに別のプロンプト (コード) を生成させるように仕向けることができる点にあります

1:自己複製

自己複製はGenAI モデルに入力されると、プロンプト自体も出力に含めるように仕向けます。
これにより、次回の推論でもプロンプトが複製され、ワームのように伝播していくことが可能になります。

2:悪意ある活動(ペイロード)の実行

悪意ある活動の実行 (ペイロード)は、GenAI モデルが出力する内容に悪意のある動作 (ペイロード) を仕込むこともできます。
例えば、スパム送信、プロパガンダ拡散、個人情報漏洩、フィッシング攻撃など。

3:新しいホストへ伝播

新しいホストへの伝播は、テキスト、音声、画像など様々な種類の入力に埋め込むことができ、
GenAI エコシステム内の別のホスト(端末)に感染を広げることができます。

脆弱性のある生成AI

敵対的自己複製プロンプトを含むメッセージを受信した際に悪用され得る、2 種類の GenAI アプリケーションのクラスについて説明します。

RAGを使用した生成AIのアプリケーション

このタイプのアプリケーションは、GenAI サービスとの連携において RAG (Retrieval-Augmented Generation) を使用します。RAG は外部検索や過去のやり取りを考慮に入れて自動返信を生成する技術です。データベースがエコシステム内の他のクライアントから受信した新しいデータで継続的に更新されるため、敵対的自己複製プロンプトが仕込まれると、そのデータベースが汚染されてしまいます。

GenAIサービスの出力に依存するGenAIアプリケーション

このタイプのアプリケーションは、実行フローが GenAI サービスの出力に依存しています。つまり、アプリケーションは GenAI 出力の内容に基づいて次のタスクを決定します。悪意のある仕掛けられたプロンプトが出力されると、アプリケーションは本来のタスクとは異なる、望ましくない動作をしてしまう可能性があります。

実験例

以下ではマルウェア(ワーム)の伝播に関する実験の詳細です

攻撃者の目的

攻撃者の目的は、以下の 4 つの条件を満たす敵対的自己複製プロンプトを含むメッセージを作成することです。

1:受信者 (新しいホスト) の RAG データベースに保存されること
2:新しいメッセージへの応答時に RAG によって取り出されること
3:GenAI モデルによる推論の実行中に複製されること
4:攻撃者によってあらかじめ定義された悪意のある活動 (ペイロード) を開始すること

1 つ目の条件は、受信した内容が自動的にデータベースに保存されるアクティブな RAG によって満たされます。しかし、残りの 3 つの条件を満たすかどうかは、ワームの成功率と伝播率に大きく影響します。

マルウェア(ワーム)の仕込み方

ワームを仕掛けるには、2 番目の条件から 4 番目の条件を満たすメッセージを作成する必要があります。そのためには、メッセージに敵対的自己複製プロンプトを含める必要があります。

このようなプロンプトの作成は、ファジングと呼ばれる手法や、
ブラックボックスアクセスを使用して GenAI モデルにクエリを実行することで実現できます。
さらに、モデルにアクセスしなくても、インターネット上で既知のジェイルブレイキングプロンプトを検索することで、同様の機能を持つプロンプトを発見することもできます。ジェイルブレイキング手法は、個人ブログやフォーラムでユーザー間で活発に議論され共有されています。

ワーム伝播のステップ

図はワームが伝播するステップを示しています。

  1. 攻撃者 (c1) は、敵対的自己複製プロンプトを含む電子メール (e1) を標的ユーザーのクライアント (c2) に送信して、ワームを仕掛けます。

  2. 受信側のクライアント (c2) は、RAG からコンテキスト (k 個の最も関連性の高い対応相手) を取得します。

  3. c2 は、電子メールに自動返信を生成するために GenAI サービスにクエリを行い、コンテキストを提供して GenAI サービスからの出力を受信します。

  4. c2 は、GenAI サービスから受信した出力を用いて c1 に返信します。

  5. c2 は、新しい対応相手 (c1 とのやり取りで e1 を含むもの) を RAG のデータベースに保存します。これにより、RAG は今後、e1 を含む対応関係を考慮するようになります。

その結果、c2 のデータベースは、敵対的自己複製プロンプトを含むメッセージである e1 で汚染され、感染フェーズが完了して c2 が新しいホストになります。

6. c3 が c2 に電子メール (e2) を送信します。

7. c2 は、受信した電子メール (e3) に対して、RAG を使ってデータベースからコンテキスト (関連する対応相手) を取得します。e1 は、c3 から受信した電子メール (e2) と関連性があると判断され、RAG によって取得されます (残りの k-1 個の対応相手と一緒に)。

8. c2 は、電子メールへの自動返信を生成するために GenAI サービスにクエリを行い、必要なコンテキストを提供します。敵対的自己複製プロンプトは、GenAI サービスが悪意のある活動 (例えば、コンテキストから抽出した機密ユーザー情報を含むレスポンスを生成すること) を実行するように仕向けます。敵対的自己複製プロンプトを含む GenAI サービスからの出力が c2 に返されます。

9. c2 は、GenAI サービスから受信した出力を用いて c3 に返信します。 10. これにより、c3 の RAG データベースが汚染され、c3 が新しいホストになります。

このシナリオでは、感染と伝播のステップを別々のイベントとして扱います。
c2 の感染は、感染した電子メール e を送信するクライアント c1 によって開始されます。一方、c2 からの伝播は、クライアント c3 から受信した電子メールによってトリガーされ、c2 が感染した電子メールを取得して伝播プロセスを継続します。

引用:公式論文

公式git hub :https://github.com/StavC/ComPromptMized

関連記事

TOPへ