5.1 画像認識(CNN系、YOLO、ResNet、Vision Transformerなど)

G検定

画像認識は、ディープラーニングが最も大きな成果を上げた分野の一つです。
特に2012年の ImageNetコンテスト(ILSVRC) で登場した AlexNet を契機に、畳み込みニューラルネットワーク(CNN)が爆発的に発展しました。
ここでは代表的なモデルの進化と、近年のVision Transformerまでの流れを整理します。


CNN(Convolutional Neural Network)

特徴

  • 畳み込み層で画像の局所的な特徴(エッジ、模様など)を抽出。
  • プーリング層で特徴を圧縮し、位置やスケールの変化に強くなる。
  • 全結合層で最終的な分類を実施。

代表的なCNNモデル

  • LeNet(1998年):手書き数字認識に成功。
  • AlexNet(2012年):ReLUとGPU活用で大規模画像分類に成功。
  • VGGNet(2014年):小さな3×3フィルタを積み重ねるシンプルな設計。
  • GoogLeNet(2014年):Inceptionモジュールを導入、計算効率化。

👉 試験頻出:「CNNの特徴は局所特徴を抽出する畳み込み層にある」。


ResNet(Residual Network)

課題

  • ネットワークを深くすると精度が下がる「勾配消失問題」。

解決策

  • スキップ結合(Residual Connection) を導入。
  • 入力をそのまま次の層に足し合わせることで、非常に深いネットワークの学習が可能に。

成果

  • ResNet(2015年) はImageNetで圧勝。
  • 数百層のネットワークでも学習可能に。

👉 試験ポイント:「ResNetはスキップ結合で勾配消失を解決した」。


物体検出(YOLO, Faster R-CNNなど)

物体検出とは?

  • 画像内の「何が」「どこにあるか」を認識するタスク。
  • 画像分類よりも難易度が高い。

代表的手法

  • Faster R-CNN:領域候補を抽出して分類。高精度だが計算コスト大。
  • YOLO(You Only Look Once):画像全体を一度に処理してリアルタイム検出可能。

応用

  • 自動運転(歩行者・信号検出)
  • 防犯カメラ(人物・不審物検出)
  • 医療(病変領域の検出)

👉 試験で狙われる:「YOLOはリアルタイム物体検出に強い」。


Vision Transformer(ViT)

背景

  • 画像認識は長らくCNNが主流だったが、自然言語処理で大成功した Transformer を画像に応用したのが ViT

特徴

  • 画像を小さなパッチに分割し、系列データとして処理。
  • 自己注意機構(Self-Attention)により画像全体の関係を学習。
  • CNNのように局所的な畳み込みに依存しない。

成果

  • 大規模データセットでCNNを上回る精度を達成。
  • Googleが2020年に発表。

👉 試験頻出:「ViTは画像をパッチに分割し、Transformerで処理する」。


まとめ

  • CNN:画像分類に革命(AlexNet, VGG, GoogLeNet)。
  • ResNet:スキップ結合で深層ネットワークを可能に。
  • 物体検出:YOLOはリアルタイム検出に強い。
  • Vision Transformer:パッチ分割+Attentionで画像認識を刷新。

出題傾向

  • 「CNNの特徴は?」=畳み込み層による局所特徴抽出
  • 「ResNetの技術的工夫は?」=スキップ結合
  • 「YOLOの利点は?」=リアルタイム物体検出
  • 「Vision Transformerの特徴は?」=パッチ分割+Attention

練習問題(例題)

問題:次のうち、画像を小さなパッチに分割し、自己注意機構で処理する画像認識モデルはどれか?

  1. CNN
  2. ResNet
  3. YOLO
  4. Vision Transformer

👉 正解:4

タイトルとURLをコピーしました