3.3 強化学習

G検定

強化学習(Reinforcement Learning, RL) は、教師あり学習や教師なし学習とは異なるアプローチで注目されている手法です。
エージェント(学習主体)が環境と相互作用しながら試行錯誤を繰り返し、「報酬(Reward)」を最大化する行動戦略を学習します。
近年はゲームAIや自動運転、ロボット制御などで成果を挙げ、G検定でも頻出テーマです。


強化学習の仕組み

基本構造

強化学習は 「エージェントと環境の相互作用」 として表現されます。

  • エージェント(Agent):学習する主体(AI)。
  • 環境(Environment):エージェントが行動する場。
  • 状態(State, S):環境の現状を表す。
  • 行動(Action, A):エージェントが選択できる行動。
  • 報酬(Reward, R):行動の良し悪しを数値で返す指標。

📌 流れイメージ(テキスト図解)

状態S → エージェントが行動Aを選択 → 環境から報酬Rと新しい状態S'を得る

👉 ポイント:正解ラベルは存在せず、エージェントは「試行錯誤を通じて最適な行動方針」を学習する。


強化学習の種類

1. 価値ベースの手法

  • 行動の「価値(期待される報酬)」を学習。
  • 代表例:Q学習(Q-learning)、SARSA。

2. 方策ベースの手法

  • 直接「行動方針(ポリシー)」を学習。
  • 確率的に行動を選択することが可能。

3. アクター・クリティック(Actor-Critic)

  • 価値ベースと方策ベースを組み合わせた手法。
  • 学習の安定性と効率を両立。

強化学習の代表例

ゲームAI

  • Atariゲーム:Deep Q-Network(DQN)が人間を超えるスコアを達成。
  • AlphaGo(2016年):ディープラーニング+強化学習+モンテカルロ木探索で囲碁世界チャンピオンに勝利。

ロボット制御

  • ロボットが「転ばずに歩く」動作を試行錯誤で学習。
  • シミュレーション環境で学習 → 実機へ転移。

自動運転

  • 強化学習で最適な運転方針(加速・減速・ハンドル操作)を学習。

強化学習の課題

  • 探索と活用のジレンマ(Exploration vs Exploitation)
    • 新しい行動を試す(探索)か、既に良いと分かっている行動を繰り返す(活用)かのバランスが重要。
  • 学習の効率性
    • 報酬が sparse(希薄)な環境では学習が進みにくい。
    • 多くの試行錯誤が必要。
  • 安全性の問題
    • 実世界での試行錯誤はリスク(例:自動運転の失敗)。

まとめ

  • 強化学習は「環境と相互作用しながら報酬を最大化する学習」。
  • 構成要素は 状態・行動・報酬
  • 手法には 価値ベース(Q学習)、方策ベース、アクタークリティック がある。
  • 成功例:AlphaGo、Atariゲーム、自動運転、ロボット制御
  • 課題は 探索と活用のバランス、効率、安全性

出題傾向

  • 「強化学習の基本構成要素は?」(状態・行動・報酬)
  • 「探索と活用のジレンマとは何か?」
  • 「AlphaGoで利用された要素技術は?」

練習問題(例題)

問題:次のうち、強化学習の特徴を最も適切に説明しているものはどれか?

  1. 教師ありデータを用いて正解ラベルを予測する学習
  2. 正解ラベルのないデータからクラスタを見つける学習
  3. 環境と相互作用し、報酬を最大化するように行動を学習する方法
  4. データの次元を圧縮して特徴を抽出する方法

👉 正解:3

タイトルとURLをコピーしました