生成AIシステムを安全に設計・運用するには、業界標準のフレームワークを活用してリスクを体系的に評価する必要があります。このページでは、生成AIセキュリティに関連する主要フレームワークを解説します。[1][3][5][6][7]
フレームワーク概要
Section titled “フレームワーク概要”生成AIセキュリティに関連する主要フレームワークは、目的と対象によって以下のように分類できます。[1][3][5][6][7]
| フレームワーク | 発行元 | 主な目的 | 対象 |
|---|---|---|---|
| OWASP LLM Top 10 | OWASP | LLMアプリの主要リスク特定 | 開発者・セキュリティエンジニア |
| NIST AI 600-1 | NIST(米国) | 生成AIリスク管理 | 組織・開発者 |
| MITRE ATLAS | MITRE | AI攻撃戦術の知識ベース | セキュリティ研究者・レッドチーム |
| ISO/IEC 42001 | ISO/IEC | AI管理システムの規格 | 組織全体 |
| NIST プライバシーフレームワーク | NIST(米国) | プライバシーリスク管理 | 組織全体 |
OWASP LLM Top 10
Section titled “OWASP LLM Top 10”OWASP LLM Top 10(OWASP Large Language Model Top 10)とは、LLMアプリケーションの主要なセキュリティリスクをまとめたガイドラインです。OWASP(Open Web Application Security Project)が2023年に初版を公開し、2025年版を2024年11月に発表しています。[1][2]
2023年版(全10項目)
Section titled “2023年版(全10項目)”| 順位 | リスク | 概要 |
|---|---|---|
| LLM01 | プロンプトインジェクション | 悪意あるプロンプトによるシステム制御の奪取 |
| LLM02 | 安全でない出力の処理 | LLMの出力を検証せずに使用することによる脆弱性 |
| LLM03 | 訓練データポイズニング | 訓練データの改ざんによるモデルの挙動操作 |
| LLM04 | モデルのサービス拒否 | 大量リクエストによるモデルの機能停止 |
| LLM05 | サプライチェーン脆弱性 | サードパーティモデル・ライブラリへの依存リスク |
| LLM06 | 機密情報の漏洩 | 訓練データ・システムプロンプトの意図しない公開 |
| LLM07 | 安全でないプラグイン | プラグイン・ツール経由の攻撃 |
| LLM08 | 過度な自律性 | エージェントへの過剰な権限付与 |
| LLM09 | 過信 | LLMの出力を無批判に信頼することによるリスク |
| LLM10 | モデルの窃取 | モデルの内部情報・訓練データの不正取得 |
この表はOWASPの2023/2024年版プロジェクトページに基づく整理です。[2]
2025年版での主な変更点
Section titled “2025年版での主な変更点”2025年版では、エージェント関連リスク、外部依存、RAG/ベクターDB、出力の信頼性に関わる項目が更新されています。[1]
- LLM06(過度な自律性): エージェントへの権限付与に関するガイダンスが詳細化
- LLM07(システムプロンプト漏洩): プラグイン設計の安全でなさからシステムプロンプト漏洩に変更
- LLM08(ベクターと埋め込みの弱点): RAGシステムのベクターデータベースや埋め込みの弱点を扱う項目として更新
- LLM09(誤情報): 生成AI出力の誤情報や過信に関わるリスクとして整理
NIST AI 600-1(生成AIプロファイル)
Section titled “NIST AI 600-1(生成AIプロファイル)”NIST AI 600-1とは、NIST(米国国立標準技術研究所)が2024年7月に公開した、NIST AI RMF(AIリスク管理フレームワーク)を生成AIに特化して展開したドキュメントです。生成AIに固有、または生成AIによって増幅される12のリスクを定義し、組織が管理すべき優先課題を整理しています。[3]
12のリスク領域
Section titled “12のリスク領域”| リスク領域 | 概要 |
|---|---|
| CBRN情報・能力 | 化学・生物・放射線・核関連の危険情報や設計能力へのアクセス容易化 |
| Confabulation(作話・ハルシネーション) | 事実と異なる情報を自信を持って出力するリスク |
| 危険・暴力的・憎悪的コンテンツ | 暴力、違法行為、自傷、憎悪表現などの生成・拡散 |
| データプライバシー | 個人情報・機微情報の漏洩、推測、非匿名化 |
| 環境影響 | 学習・推論に伴う計算資源、エネルギー、環境負荷 |
| 有害なバイアス・同質化 | 社会的偏見の増幅、性能格差、出力の同質化 |
| Human-AI Configuration | 擬人化、過信、自動化バイアス、感情的依存などの人間-AI関係のリスク |
| 情報完全性 | 誤情報・偽情報・不確実性を区別しない情報生成や拡散 |
| 情報セキュリティ | サイバー攻撃支援、機密情報、訓練データ、コード、モデル重みへのリスク |
| 知的財産 | 著作物、商標、ライセンス対象コンテンツ、営業秘密の無断生成・再現 |
| わいせつ・侮辱的・虐待的コンテンツ | CSAMや非同意の性的画像などを含む有害コンテンツ生成 |
| バリューチェーン・コンポーネント統合 | データ、モデル、部品、サプライヤーの透明性・説明責任の低下 |
NIST AI RMFとの関係
Section titled “NIST AI RMFとの関係”NIST AI 600-1はNIST AI RMFの4つの機能(GOVERN/MAP/MEASURE/MANAGE)に沿って、生成AIリスクへの推奨アクションを整理しています。[3][4]
| 機能 | 役割 |
|---|---|
| GOVERN(統治) | AIリスク管理のポリシー・プロセス・責任体制を確立する |
| MAP(特定) | AIシステムのコンテキストとリスクを特定・分類する |
| MEASURE(評価) | 特定したリスクを定量・定性的に評価する |
| MANAGE(管理) | リスクを軽減・受容・移転・回避する措置を実施する |
MITRE ATLAS
Section titled “MITRE ATLAS”MITRE ATLAS(Adversarial Threat Landscape for AI Systems)とは、AIシステムへの敵対的攻撃の戦術・技術・手順(TTP: Tactics, Techniques, and Procedures)を体系的に整理した知識ベースです。MITREが開発・維持管理しています。[5]
MITRE ATT&CKとの違い
Section titled “MITRE ATT&CKとの違い”| 項目 | MITRE ATT&CK | MITRE ATLAS |
|---|---|---|
| 対象 | 一般的なサイバー攻撃 | AIシステムへの攻撃 |
| 焦点 | ネットワーク・エンドポイント | ML/AIモデル・パイプライン |
| 主な攻撃者 | APTグループ・マルウェア作成者 | AIリサーチャー・悪意ある攻撃者 |
主要戦術カテゴリ
Section titled “主要戦術カテゴリ”- Reconnaissance(偵察): AIシステムの構成・使用モデルの情報収集
- ML Model Access(モデルアクセス): APIアクセス・ブラックボックス/ホワイトボックスアクセスの確立
- ML Attack Staging(攻撃準備): 敵対的サンプルの作成・バックドアデータの準備
- Impact(影響): モデルの誤動作誘発・サービス妨害・機密情報の抽出
ISO/IEC 42001(AI管理システム)
Section titled “ISO/IEC 42001(AI管理システム)”ISO/IEC 42001とは、AIシステムの責任ある開発・運用・管理のための国際標準規格です。組織がAIシステムを管理するためのマネジメントシステム要件を定義しています。[6]
ISO 27001との違い
Section titled “ISO 27001との違い”| 項目 | ISO 27001 | ISO/IEC 42001 |
|---|---|---|
| 対象 | 情報セキュリティ全般 | AIシステムの管理 |
| 焦点 | 機密性・完全性・可用性 | AIシステムの責任ある利用 |
| 主な内容 | ISMSの要件 | AI管理システム(AIMS)の要件 |
| 適用組織 | IT・情報を扱う組織全般 | AIを開発・利用する組織 |
NIST プライバシーフレームワークと生成AI
Section titled “NIST プライバシーフレームワークと生成AI”NIST プライバシーフレームワークは、組織がプライバシーリスクを管理するための自発的なツールです。生成AI文脈では特に以下が重要です。[7]
プライバシーリスク管理の5機能
Section titled “プライバシーリスク管理の5機能”- Identify-P(特定): 生成AIがどの個人データを扱うか、プライバシーリスクを特定する
- Govern-P(統治): プライバシーポリシーの策定・組織的な責任体制の確立
- Control-P(制御): データの収集・処理・共有に対するユーザーの制御手段を実装する
- Communicate-P(伝達): プライバシー慣行をユーザーに透明性をもって説明する
- Protect-P(保護): プライバシーリスクを軽減するためのデータ保護措置を実装する
生成AI特有のプライバシー課題
Section titled “生成AI特有のプライバシー課題”- 訓練データからの個人情報復元: モデルが学習したテキスト中の個人情報(氏名・住所・電話番号)を再現できる場合がある。[8]
- メンバーシップ推論攻撃: 特定のデータが訓練データに含まれていたかどうかを推測する攻撃
- 差分プライバシー(Differential Privacy): プライバシーリスクへの技術的対策の一つ。統計的なノイズを用いて、個人データの影響を推測しにくくする手法。[9]
- OWASP LLM Top 10は設計・開発段階でのリスク評価に最も使いやすい実践的ガイドライン
- NIST AI 600-1は組織レベルのリスク管理体制を構築する際の包括的フレームワーク
- MITRE ATLASはレッドチーミング・脅威インテリジェンスに特化した知識ベース
- ISO/IEC 42001はAI管理の国際認証を取得したい組織向けの体系的な規格
- 実務では複数のフレームワークを組み合わせて活用することが効果的
よくある質問
Section titled “よくある質問”Q: どのフレームワークから始めるべきですか?
A: 開発者・セキュリティエンジニアにはOWASP LLM Top 10が最初の入門として適しています。具体的なリスクが10項目でまとめられており、設計・テスト段階のチェックリストとして活用できます。組織全体のガバナンス体制を整備したい場合はNIST AI 600-1、国際認証を検討している場合はISO/IEC 42001が適しています。[1][3][6]
Q: OWASP LLM Top 10とNIST AI 600-1の使い分けは?
A: OWASP LLM Top 10は「何を防ぐか」(具体的リスクの特定)に焦点を当て、技術的な対策の指針として機能します。NIST AI 600-1は「どのように組織として管理するか」(リスク管理プロセスの確立)に焦点を当て、ガバナンスの体制構築に役立ちます。開発チームはOWASP、経営・ガバナンス部門はNISTを主に参照するという使い分けが実務的です。[1][3]
- OWASP, OWASP Top 10 for LLM Applications 2025, 2024年11月17日
- OWASP, OWASP Top 10 for Large Language Model Applications
- NIST, Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile (NIST AI 600-1), 2024年7月
- NIST, AI Risk Management Framework
- MITRE, MITRE ATLAS
- ISO, ISO/IEC 42001 - Artificial intelligence management system
- NIST, Privacy Framework
- Nicholas Carlini et al., Extracting Training Data from Large Language Models, USENIX Security 2021
- Cynthia Dwork, Differential Privacy: A Survey of Results, 2008