AIは社会に広く浸透しつつありますが、その安全性とセキュリティは依然として大きな課題です。
特に 敵対的攻撃(Adversarial Attack) や モデル窃取(Model Stealing) は、AI特有の脆弱性として注目されています。
敵対的攻撃(Adversarial Attack)
定義
- 入力データにわずかなノイズや改変を加えることで、AIモデルを誤認させる攻撃手法。
事例
- 数ピクセルを操作した画像を入力すると、画像認識AIが誤分類する。
- 停止標識にステッカーを貼ると、自動運転車の認識AIが誤って「速度制限標識」と判定。
危険性
- 自動運転、医療診断、顔認識など、安全性が重要な分野で致命的なリスク。
対策
- 敵対的サンプルを学習データに加える(Adversarial Training)。
- モデルのロバスト性を高める正則化手法。
- 外部入力の異常検知。
モデル窃取(Model Stealing)
定義
- 公開されているAPIやクラウドサービスを利用して、学習済みモデルの中身を推測・コピーする行為。
方法
- 攻撃者が多数の入力を与え、出力結果を分析することで、元のモデルを模倣する。
危険性
- 知的財産(学習済みモデル)が流出。
- 学習に利用したデータの統計的特徴が漏れる可能性。
対策
- API呼び出し回数制限。
- 出力情報を制限(確率値ではなくラベルのみ返すなど)。
- モデルの監査ログを取る。
その他のセキュリティリスク
- データポイズニング(Data Poisoning)
- 学習データに悪意あるサンプルを混入し、AIの挙動を意図的に歪める攻撃。
- バックドア攻撃(Backdoor Attack)
- 特定のトリガー入力で誤動作するように仕込む。
まとめ
- 敵対的攻撃:微小な入力改変でAIを誤認させる。
- モデル窃取:学習済みモデルをAPI経由で模倣する攻撃。
- 対策:ロバスト性向上、利用制限、監査体制。
出題チェック
- 「敵対的攻撃の特徴は?」=小さな改変で誤分類を誘発。
- 「モデル窃取のリスクは?」=知財やデータ特徴の漏洩。
- 「データポイズニングとは?」=悪意あるデータを学習に混入させる攻撃。
練習問題(例題)
問題:自動運転車の認識AIが、停止標識に貼られたステッカーの影響で「速度制限標識」と誤認した。この現象を引き起こした攻撃はどれか?
- モデル窃取
- 敵対的攻撃
- データポイズニング
- フィルターバブル
👉 正解:2