生成AIのセキュリティ
約5分
生成AIを製品やサービスに組み込む際、従来のソフトウェアとは根本的に異なるセキュリティリスクが存在します。OWASP LLM Top 10 2025やNIST AI 600-1は、プロンプトインジェクション、データ漏えい、エージェント固有のリスクなどを生成AIアプリケーションの主要リスクとして整理しています。[1][2] このセクションでは、攻撃手法の理解から防御フレームワーク・実装まで体系的に学べます。
生成AIセキュリティが従来と異なる理由
Section titled “生成AIセキュリティが従来と異なる理由”従来のソフトウェアセキュリティと生成AIのセキュリティは、攻撃面(アタックサーフェス)が根本的に異なります。NIST AI 600-1は、生成AIでは入力、出力、訓練データ、モデル、外部ツール連携がリスク管理対象になることを示しています。[2]
| 比較項目 | 従来のソフトウェア | 生成AI |
|---|---|---|
| 入力の性質 | 構造化されたデータ(数値・コード) | 自由形式の自然言語 |
| 攻撃面 | SQL・XSS・バッファオーバーフロー | プロンプト・コンテキスト・訓練データ |
| 命令とデータの関係 | 分離されている | システムプロンプトとユーザー入力が混在 |
| 非決定性 | 同じ入力→同じ出力 | 同じ入力→異なる出力の可能性 |
| テストの難しさ | 網羅的テストが比較的容易 | 無限の入力パターンを網羅できない |
生成AIでは「自然言語の入力がそのまま命令として解釈される」ことが最大の特徴であり、最大の脆弱性でもあります。OWASP LLM Top 10 2025は、プロンプトインジェクションを最上位リスクとして位置づけ、外部コンテンツ経由の間接インジェクションも含めて扱っています。[1]
このセクションで学べること
Section titled “このセクションで学べること”このセクションは5つのページで構成されています。
プロンプトインジェクション・脱獄(Jailbreak)・データポイズニング・モデル逆転攻撃・ハルシネーション悪用の5種類の攻撃手法を具体例とともに解説します。
- 直接インジェクション・間接インジェクションの違い
- ロールプレイ・仮説的シナリオ・トークン操作による脱獄手法
- 訓練データ汚染・RAG汚染・バックドア攻撃の仕組み
- 攻撃手法の比較表(ターゲット・影響・検出難易度)
OWASP LLM Top 10・NIST AI 600-1・MITRE ATLAS・ISO/IEC 42001など、生成AIセキュリティの主要フレームワークを比較・解説します。[1][2][3][4]
- OWASP LLM Top 10(2023年版・2025年更新版)全10項目
- NIST AI 600-1の12のリスク領域とAI RMFとの関係
- MITRE ATLASの主要戦術カテゴリ
- フレームワーク比較表(目的・対象・発行元)
OWASP が2025年に公開した、AIエージェント専用のセキュリティフレームワーク「Agentic AI Threats and Mitigations」を解説します。[5]
- OWASP LLM Top 10 との違いとエージェント固有リスクの位置づけ
- 10の脅威カテゴリ(AT01〜AT10): メモリポイズニング・ツール乱用・エージェントなりすまし等
- 緩和策の5原則(最小権限・記憶整合性・エージェント間認証・タスクスコープ・可観測性)
- OWASP LLM Top 10 2025 との対応関係
AIエージェント固有のセキュリティリスクと、マルチエージェントシステムの防御設計を解説します。MCPの仕様はツール、リソース、認可、ユーザー同意、データプライバシー、ツール安全性を明示的なセキュリティ対象として扱っています。[6][7]
- ツール悪用・コンテキスト汚染・信頼連鎖攻撃
- MCPセキュリティ(Tool poisoning・サーバー認証)
- OWASP LLM Top 10 2025のエージェント関連リスク
- エージェント設計のセキュリティチェックリスト
ガードレールの概念から実装まで解説します。入力バリデーション・システムプロンプト設計・出力フィルタリング・Grounding・Human-in-the-loopの具体的なコード例を紹介します。主要な実装例として、NVIDIA NeMo Guardrails、Guardrails AI、Azure AI Content Safety、OpenAIのModeration APIを参照します。[8][9][10][11]
- 入力ガード・出力ガード・実行ガードの概念モデル
- NeMo Guardrails・Guardrails AI・Azure Content Safety・Constitutional AIの比較
- 多層防御の設計パターン
学習の進め方
Section titled “学習の進め方”初めて学ぶ場合は、上記の順番(攻撃手法→フレームワーク→OWASP Agentic AI→エージェントセキュリティ→ガードレール)で読み進めることを推奨します。特定のトピックに関心がある場合は、各ページを独立して読んでも理解できます。
よくある質問
Section titled “よくある質問”Q: 従来のソフトウェアセキュリティの知識があれば生成AIセキュリティも分かりますか?
A: 部分的には役立ちます。ネットワーク・認証・暗号化などの基本概念は共通です。ただし「自然言語が命令として解釈される」という生成AI固有の特性から生まれる攻撃手法(プロンプトインジェクション・脱獄など)は、OWASP LLM Top 10 2025やNIST AI 600-1が別枠で整理するリスクです。[1][2] このセクションでは生成AIに固有の部分を中心に解説しています。
Q: AIシステムを開発していないエンジニアでも学ぶ価値がありますか?
A: あります。AIアシスタント・コパイロットを業務で利用する場合、または既存のシステムにAI機能を組み込む場合にも、攻撃手法とリスクを理解しておくことが重要です。特に間接プロンプトインジェクション(信頼できないWebページやドキュメントを参照するAIへの攻撃)は、OWASP LLM Top 10 2025でもプロンプトインジェクションの重要な形態として扱われています。[1]
- OWASP, OWASP Top 10 for LLM Applications 2025, 2024年11月17日
- NIST, Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile (NIST AI 600-1), 2024年7月
- MITRE, MITRE ATLAS
- ISO, ISO/IEC 42001 - Artificial intelligence management system
- OWASP, Agentic AI - Threats and Mitigations, 2025年2月17日
- Model Context Protocol, Specification 2025-06-18
- Model Context Protocol, Security Best Practices
- NVIDIA, NeMo Guardrails Documentation
- Guardrails AI, Guardrails AI Documentation
- Microsoft, Azure AI Content Safety overview
- OpenAI, Moderation