強化学習は「環境と相互作用しながら報酬を最大化する学習方法」です。
そこにディープラーニングを組み合わせたものを 深層強化学習(Deep Reinforcement Learning, DRL) と呼び、ゲームAIや自動運転、ロボティクスなどで大きな成果を挙げています。
DQN(Deep Q-Network)
特徴
- Q学習(行動価値関数を学習する強化学習手法)にCNNを組み合わせたモデル。
- 状態を画像入力(Atariゲーム画面など)として処理可能に。
成果
- 2015年、DeepMindがAtari 2600ゲームで人間を超えるスコアを達成。
技術的工夫
- Experience Replay(経験再生):過去の経験をランダムに再利用し学習を安定化。
- Target Network:安定したQ値更新のために別のネットワークを利用。
👉 試験ポイント:「DQNはQ学習+ディープラーニングでAtariゲームを攻略」。
A3C(Asynchronous Advantage Actor-Critic)
特徴
- 複数のエージェントを並列に動かし、それぞれが独立して環境と学習。
- 勾配を非同期に統合することで効率的な学習が可能に。
メリット
- サンプル効率が高い。
- 大規模分散環境での学習に適する。
👉 試験で狙われる:「A3Cは非同期に複数エージェントを動かす強化学習」。
AlphaStar(StarCraft II AI)
特徴
- DeepMindが開発したリアルタイム戦略ゲーム(RTS)用AI。
- 部分観測環境・長期戦略が必要な複雑な環境で成功。
技術
- 深層強化学習(Actor-Criticベース)
- 大規模模倣学習(人間プレイヤーのデータを利用)
- マルチエージェント学習
成果
- 2019年にプロゲーマーを打ち破り、eスポーツ分野で初めてトップレベルに到達。
👉 試験頻出:「AlphaStarは深層強化学習+模倣学習を組み合わせたRTSゲームAI」。
RLHF(Reinforcement Learning with Human Feedback)
背景
- 大規模言語モデル(LLM)は強力だが、望ましくない出力や無関係な回答をする課題があった。
特徴
- 人間のフィードバックを報酬モデルとして利用。
- LLMの出力を人間が評価 → 報酬モデルを学習 → 強化学習でモデルを改善。
応用
- ChatGPTを含む対話型AIで利用。
- 出力の安全性・有用性を高める。
👉 試験ポイント:「ChatGPTに導入された学習法=RLHF」。
まとめ
- DQN:Q学習+CNN、Atariゲームで成果。
- A3C:非同期並列のActor-Critic。
- AlphaStar:RTSゲームに深層強化学習+模倣学習を応用。
- RLHF:人間のフィードバックを取り入れた強化学習。
出題傾向
- 「DQNの工夫は?」=Experience Replay、Target Network
- 「A3Cの特徴は?」=非同期並列学習
- 「AlphaStarが対象としたゲームは?」=StarCraft II
- 「ChatGPTで導入された学習法は?」=RLHF
練習問題(例題)
問題:人間のフィードバックを報酬モデルとして利用し、大規模言語モデルを改善する学習方法を何と呼ぶか?
- DQN
- A3C
- RLHF
- Contrastive Loss
👉 正解:3