データ保護とプライバシー

約10分

バックエンド開発やデータエンジニアリングの基礎を理解している方

データ保護（Data Protection）とは、個人情報や機密情報を不正アクセス・漏洩・改ざんから守るための技術的・組織的な対策の総称です。AIシステムはデータを大量に処理する特性上、従来のシステムと異なる固有のリスクを持ちます。

データ分類

データ保護の出発点は、扱うデータを重要度に応じて分類することです。

レベル	分類名	例	対応策
1	パブリック	プレスリリース・公開FAQ	特別な保護不要
2	社内限定（Internal）	社内メール・会議資料	アクセス制限・認証
3	機密（Confidential）	顧客情報・契約書・財務データ	暗号化・アクセスログ
4	極秘（Restricted）	APIキー・パスワード・個人情報	最高レベルの保護・監査

PII（個人識別情報）とは

PII（Personally Identifiable Information）とは、特定の個人を識別できる情報、またはそれらを組み合わせることで個人を特定できる情報です。

PIIに該当する代表例:

氏名・住所・電話番号・メールアドレス
マイナンバー・パスポート番号・運転免許番号
IPアドレス・クッキーID（GDPR上はPIIとして扱う）
生体情報（指紋・顔画像）

PIIは規制対象データであり、GDPR・個人情報保護法などに基づく厳格な管理が必要です。

AIシステム固有のリスク

AIシステムはデータ保護の観点で従来のシステムにはない特有のリスクを持ちます。

学習データの記憶（Training Data Memorization）

大規模言語モデルは学習データを統計的に記憶する場合があり、プロンプトへの応答として学習時のPIIを出力する可能性があります。ファインチューニング時は学習データのPII除去が必須です。

RAGによる情報の不適切な露出

RAG（Retrieval-Augmented Generation）システムでは、検索インデックスに含まれる機密ドキュメントが適切な権限管理なしに一般ユーザーに返却される可能性があります。

プロンプトログによるPII蓄積

ユーザーのプロンプトをそのままログに記録すると、プロンプトに含まれる顧客名・契約情報・個人情報が蓄積されます。

サードパーティLLM APIへのデータ送信

外部のLLM APIに機密データを含むリクエストを送信すると、データがシステム外部に出ます。処理委託契約（DPA: Data Processing Agreement）の締結が必要です。

暗号化

保存時の暗号化（Encryption at Rest）

データベース・ファイルシステムに保存されているデータを暗号化します。

クラウドDB（AWS RDS・Cloud SQLなど）は有効化するだけで利用可能
AES-256が標準的な暗号化アルゴリズム
暗号化キーの管理にはKMS（Key Management Service）を使用

転送時の暗号化（Encryption in Transit）

ネットワーク上を流れるデータを暗号化します。

すべての通信にHTTPS（TLS 1.2以上）を強制
内部サービス間通信でもTLSを適用（ゼロトラスト原則）

エンドツーエンド暗号化（End-to-End Encryption）

送信者から受信者まで、途中のサーバーでも復号できない暗号化。メッセージアプリ（Signal・WhatsApp）で採用。特に機密性の高い医療・法律データに適用を検討します。

データマスキングと匿名化

個人情報を直接使わずに処理・分析するための技術です。

flowchart LR
    A[ユーザーデータ入力] --> B[PII検出エンジン]
    B --> C{PII検出？}
    C -->|Yes| D[マスキング / 仮名化処理]
    C -->|No| E[そのまま通過]
    D --> F[RAG / LLMパイプライン]
    E --> F
    F --> G[レスポンス生成]

各手法の比較

手法	説明	可逆性	用途
マスキング	フィールドを `****` に置換	不可逆	ログ表示・画面マスク
仮名化（Pseudonymization）	一貫した偽IDに置換（元データと対応表を保持）	可逆	分析・テスト用データ
匿名化（Anonymization）	個人を特定できないよう不可逆変換	不可逆	統計分析・モデル学習
トークナイゼーション	機密値をランダムトークンに置換（保管は外部）	可逆（外部参照）	決済情報のPCI DSS対応

プロンプトへのマスキング適用例

import re

def mask_pii(text: str) -> str:
    # メールアドレスのマスキング
    text = re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}',
                  '[EMAIL]', text)
    # 電話番号のマスキング（日本形式）
    text = re.sub(r'\d{2,4}-\d{2,4}-\d{4}', '[PHONE]', text)
    return text

# 使用例
raw_prompt = "田中太郎（taro@example.com）から03-1234-5678へ連絡して"
safe_prompt = mask_pii(raw_prompt)
# → "田中太郎（[EMAIL]）から[PHONE]へ連絡して"

GDPR主要義務

GDPR（General Data Protection Regulation）は、EU市民のデータを処理する組織すべてに適用されるEUのデータ保護規則です。日本企業も欧州ユーザーを持つ場合は対象となります。

義務	内容	AIシステムへの影響
目的制限（Purpose Limitation）	収集時の目的以外に使用禁止	顧客サポート用データをモデル学習に使うには明示的同意が必要
データ最小化（Data Minimization）	必要以上のデータを収集しない	プロンプトに不要なPIIを含めない設計
消去権（Right to Erasure）	要請に応じてデータを削除	ベクトルDBからの削除機能の実装が必要
データ処理委託契約（DPA）	外部プロセッサとの契約義務	外部LLM APIベンダーとのDPA締結

プライバシーバイデザイン

プライバシーバイデザイン（Privacy by Design）とは、システム設計の初期段階からプライバシー保護を組み込む考え方です。

AIシステム向け実践チェックリスト:

顧客PIIを外部LLM APIに送信しない（事前にマスキング）
RAGのコンテキストに送る前にPIIを検出・除去する
ユーザーのプロンプトログにはPIIハッシュまたはマスク版のみ保存
ベクトルDBのドキュメントにアクセス制御メタデータを付与
データ保持期間と削除フローを設計・実装する
外部LLMプロバイダーとDPAを締結する

よくある質問

Q: 顧客データを使ってモデルをファインチューニングできますか？

顧客の明示的な同意と適切なDPAなしには推奨されません。GDPR・個人情報保護法の観点から、収集時の目的（例: カスタマーサポート）以外での利用（モデル学習）には新たな同意が必要です。匿名化・集約化されたデータであれば利用可能な場合がありますが、法務担当者への確認を推奨します。

Q: LLMがPIIを含むレスポンスを返してしまった場合はどうすればよいですか？

インシデント対応フローを起動します。漏洩の経路（学習データ・RAGドキュメント・プロンプトへの混入）を特定し、原因を修正します。GDPRでは72時間以内の監督機関への報告が義務付けられています。プロンプト・レスポンスの監視を実装し、PIIパターンの検出アラートを設定することで早期発見が可能です。

Q: 暗号化さえしていれば個人情報は安全ですか？

暗号化は必要条件ですが十分条件ではありません。暗号化されたデータでも、正規ユーザーの認証情報が漏洩すれば不正アクセスが可能です。暗号化に加えて、適切なアクセス制御（RBAC）・監査ログ・最小権限の原則・定期的なセキュリティレビューを組み合わせた多層防御が必要です。

参考文献

GitHub, GitHub Docs
NIST, AI Risk Management Framework

クイズ

クラウドアーキテクチャ入門

監査ログと証跡管理