5.4 深層強化学習(DQN、A3C、AlphaStar、RLHFなど)

G検定

強化学習は「環境と相互作用しながら報酬を最大化する学習方法」です。
そこにディープラーニングを組み合わせたものを 深層強化学習(Deep Reinforcement Learning, DRL) と呼び、ゲームAIや自動運転、ロボティクスなどで大きな成果を挙げています。


DQN(Deep Q-Network)

特徴

  • Q学習(行動価値関数を学習する強化学習手法)にCNNを組み合わせたモデル。
  • 状態を画像入力(Atariゲーム画面など)として処理可能に。

成果

  • 2015年、DeepMindがAtari 2600ゲームで人間を超えるスコアを達成。

技術的工夫

  • Experience Replay(経験再生):過去の経験をランダムに再利用し学習を安定化。
  • Target Network:安定したQ値更新のために別のネットワークを利用。

👉 試験ポイント:「DQNはQ学習+ディープラーニングでAtariゲームを攻略」。


A3C(Asynchronous Advantage Actor-Critic)

特徴

  • 複数のエージェントを並列に動かし、それぞれが独立して環境と学習。
  • 勾配を非同期に統合することで効率的な学習が可能に。

メリット

  • サンプル効率が高い。
  • 大規模分散環境での学習に適する。

👉 試験で狙われる:「A3Cは非同期に複数エージェントを動かす強化学習」。


AlphaStar(StarCraft II AI)

特徴

  • DeepMindが開発したリアルタイム戦略ゲーム(RTS)用AI。
  • 部分観測環境・長期戦略が必要な複雑な環境で成功。

技術

  • 深層強化学習(Actor-Criticベース)
  • 大規模模倣学習(人間プレイヤーのデータを利用)
  • マルチエージェント学習

成果

  • 2019年にプロゲーマーを打ち破り、eスポーツ分野で初めてトップレベルに到達。

👉 試験頻出:「AlphaStarは深層強化学習+模倣学習を組み合わせたRTSゲームAI」。


RLHF(Reinforcement Learning with Human Feedback)

背景

  • 大規模言語モデル(LLM)は強力だが、望ましくない出力や無関係な回答をする課題があった。

特徴

  • 人間のフィードバックを報酬モデルとして利用。
  • LLMの出力を人間が評価 → 報酬モデルを学習 → 強化学習でモデルを改善。

応用

  • ChatGPTを含む対話型AIで利用。
  • 出力の安全性・有用性を高める。

👉 試験ポイント:「ChatGPTに導入された学習法=RLHF」。


まとめ

  • DQN:Q学習+CNN、Atariゲームで成果。
  • A3C:非同期並列のActor-Critic。
  • AlphaStar:RTSゲームに深層強化学習+模倣学習を応用。
  • RLHF:人間のフィードバックを取り入れた強化学習。

出題傾向

  • 「DQNの工夫は?」=Experience Replay、Target Network
  • 「A3Cの特徴は?」=非同期並列学習
  • 「AlphaStarが対象としたゲームは?」=StarCraft II
  • 「ChatGPTで導入された学習法は?」=RLHF

練習問題(例題)

問題:人間のフィードバックを報酬モデルとして利用し、大規模言語モデルを改善する学習方法を何と呼ぶか?

  1. DQN
  2. A3C
  3. RLHF
  4. Contrastive Loss

👉 正解:3

タイトルとURLをコピーしました