生成AIのセキュリティ

約5分

生成AIをプロダクトに組み込むエンジニア・セキュリティリスクを把握したい開発者

特になし

生成AIを製品やサービスに組み込む際、従来のソフトウェアとは根本的に異なるセキュリティリスクが存在します。OWASP LLM Top 10 2025やNIST AI 600-1は、プロンプトインジェクション、データ漏えい、エージェント固有のリスクなどを生成AIアプリケーションの主要リスクとして整理しています。[1][2] このセクションでは、攻撃手法の理解から防御フレームワーク・実装まで体系的に学べます。

生成AIセキュリティが従来と異なる理由

従来のソフトウェアセキュリティと生成AIのセキュリティは、攻撃面（アタックサーフェス）が根本的に異なります。NIST AI 600-1は、生成AIでは入力、出力、訓練データ、モデル、外部ツール連携がリスク管理対象になることを示しています。[2]

比較項目	従来のソフトウェア	生成AI
入力の性質	構造化されたデータ（数値・コード）	自由形式の自然言語
攻撃面	SQL・XSS・バッファオーバーフロー	プロンプト・コンテキスト・訓練データ
命令とデータの関係	分離されている	システムプロンプトとユーザー入力が混在
非決定性	同じ入力→同じ出力	同じ入力→異なる出力の可能性
テストの難しさ	網羅的テストが比較的容易	無限の入力パターンを網羅できない

生成AIでは「自然言語の入力がそのまま命令として解釈される」ことが最大の特徴であり、最大の脆弱性でもあります。OWASP LLM Top 10 2025は、プロンプトインジェクションを最上位リスクとして位置づけ、外部コンテンツ経由の間接インジェクションも含めて扱っています。[1]

このセクションで学べること

このセクションは5つのページで構成されています。

主要な攻撃手法

プロンプトインジェクション・脱獄（Jailbreak）・データポイズニング・モデル逆転攻撃・ハルシネーション悪用の5種類の攻撃手法を具体例とともに解説します。

直接インジェクション・間接インジェクションの違い
ロールプレイ・仮説的シナリオ・トークン操作による脱獄手法
訓練データ汚染・RAG汚染・バックドア攻撃の仕組み
攻撃手法の比較表（ターゲット・影響・検出難易度）

セキュリティフレームワーク

OWASP LLM Top 10・NIST AI 600-1・MITRE ATLAS・ISO/IEC 42001など、生成AIセキュリティの主要フレームワークを比較・解説します。[1][2][3][4]

OWASP LLM Top 10（2023年版・2025年更新版）全10項目
NIST AI 600-1の12のリスク領域とAI RMFとの関係
MITRE ATLASの主要戦術カテゴリ
フレームワーク比較表（目的・対象・発行元）

OWASP Agentic AI フレームワーク

OWASP が2025年に公開した、AIエージェント専用のセキュリティフレームワーク「Agentic AI Threats and Mitigations」を解説します。[5]

OWASP LLM Top 10 との違いとエージェント固有リスクの位置づけ
10の脅威カテゴリ（AT01〜AT10）: メモリポイズニング・ツール乱用・エージェントなりすまし等
緩和策の5原則（最小権限・記憶整合性・エージェント間認証・タスクスコープ・可観測性）
OWASP LLM Top 10 2025 との対応関係

エージェントセキュリティ

AIエージェント固有のセキュリティリスクと、マルチエージェントシステムの防御設計を解説します。MCPの仕様はツール、リソース、認可、ユーザー同意、データプライバシー、ツール安全性を明示的なセキュリティ対象として扱っています。[6][7]

ツール悪用・コンテキスト汚染・信頼連鎖攻撃
MCPセキュリティ（Tool poisoning・サーバー認証）
OWASP LLM Top 10 2025のエージェント関連リスク
エージェント設計のセキュリティチェックリスト

ガードレールの仕組みと実装

ガードレールの概念から実装まで解説します。入力バリデーション・システムプロンプト設計・出力フィルタリング・Grounding・Human-in-the-loopの具体的なコード例を紹介します。主要な実装例として、NVIDIA NeMo Guardrails、Guardrails AI、Azure AI Content Safety、OpenAIのModeration APIを参照します。[8][9][10][11]

入力ガード・出力ガード・実行ガードの概念モデル
NeMo Guardrails・Guardrails AI・Azure Content Safety・Constitutional AIの比較
多層防御の設計パターン

学習の進め方

初めて学ぶ場合は、上記の順番（攻撃手法→フレームワーク→OWASP Agentic AI→エージェントセキュリティ→ガードレール）で読み進めることを推奨します。特定のトピックに関心がある場合は、各ページを独立して読んでも理解できます。

よくある質問

Q: 従来のソフトウェアセキュリティの知識があれば生成AIセキュリティも分かりますか？

A: 部分的には役立ちます。ネットワーク・認証・暗号化などの基本概念は共通です。ただし「自然言語が命令として解釈される」という生成AI固有の特性から生まれる攻撃手法（プロンプトインジェクション・脱獄など）は、OWASP LLM Top 10 2025やNIST AI 600-1が別枠で整理するリスクです。[1][2] このセクションでは生成AIに固有の部分を中心に解説しています。

Q: AIシステムを開発していないエンジニアでも学ぶ価値がありますか？

A: あります。AIアシスタント・コパイロットを業務で利用する場合、または既存のシステムにAI機能を組み込む場合にも、攻撃手法とリスクを理解しておくことが重要です。特に間接プロンプトインジェクション（信頼できないWebページやドキュメントを参照するAIへの攻撃）は、OWASP LLM Top 10 2025でもプロンプトインジェクションの重要な形態として扱われています。[1]

参考文献

OWASP, OWASP Top 10 for LLM Applications 2025, 2024年11月17日
NIST, Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile (NIST AI 600-1), 2024年7月
MITRE, MITRE ATLAS
ISO, ISO/IEC 42001 - Artificial intelligence management system
OWASP, Agentic AI - Threats and Mitigations, 2025年2月17日
Model Context Protocol, Specification 2025-06-18
Model Context Protocol, Security Best Practices
NVIDIA, NeMo Guardrails Documentation
Guardrails AI, Guardrails AI Documentation
Microsoft, Azure AI Content Safety overview
OpenAI, Moderation

クイズ

主要な攻撃手法

責任あるAIとは