9.4 安全性とセキュリティ(敵対的攻撃、モデル窃取)

G検定

AIは社会に広く浸透しつつありますが、その安全性とセキュリティは依然として大きな課題です。
特に 敵対的攻撃(Adversarial Attack)モデル窃取(Model Stealing) は、AI特有の脆弱性として注目されています。


敵対的攻撃(Adversarial Attack)

定義

  • 入力データにわずかなノイズや改変を加えることで、AIモデルを誤認させる攻撃手法。

事例

  • 数ピクセルを操作した画像を入力すると、画像認識AIが誤分類する。
  • 停止標識にステッカーを貼ると、自動運転車の認識AIが誤って「速度制限標識」と判定。

危険性

  • 自動運転、医療診断、顔認識など、安全性が重要な分野で致命的なリスク。

対策

  • 敵対的サンプルを学習データに加える(Adversarial Training)。
  • モデルのロバスト性を高める正則化手法。
  • 外部入力の異常検知。

モデル窃取(Model Stealing)

定義

  • 公開されているAPIやクラウドサービスを利用して、学習済みモデルの中身を推測・コピーする行為。

方法

  • 攻撃者が多数の入力を与え、出力結果を分析することで、元のモデルを模倣する。

危険性

  • 知的財産(学習済みモデル)が流出。
  • 学習に利用したデータの統計的特徴が漏れる可能性。

対策

  • API呼び出し回数制限。
  • 出力情報を制限(確率値ではなくラベルのみ返すなど)。
  • モデルの監査ログを取る。

その他のセキュリティリスク

  • データポイズニング(Data Poisoning)
    • 学習データに悪意あるサンプルを混入し、AIの挙動を意図的に歪める攻撃。
  • バックドア攻撃(Backdoor Attack)
    • 特定のトリガー入力で誤動作するように仕込む。

まとめ

  • 敵対的攻撃:微小な入力改変でAIを誤認させる。
  • モデル窃取:学習済みモデルをAPI経由で模倣する攻撃。
  • 対策:ロバスト性向上、利用制限、監査体制。

出題チェック

  • 「敵対的攻撃の特徴は?」=小さな改変で誤分類を誘発。
  • 「モデル窃取のリスクは?」=知財やデータ特徴の漏洩。
  • 「データポイズニングとは?」=悪意あるデータを学習に混入させる攻撃。

練習問題(例題)

問題:自動運転車の認識AIが、停止標識に貼られたステッカーの影響で「速度制限標識」と誤認した。この現象を引き起こした攻撃はどれか?

  1. モデル窃取
  2. 敵対的攻撃
  3. データポイズニング
  4. フィルターバブル

👉 正解:2

タイトルとURLをコピーしました