画像認識は、ディープラーニングが最も大きな成果を上げた分野の一つです。
特に2012年の ImageNetコンテスト(ILSVRC) で登場した AlexNet を契機に、畳み込みニューラルネットワーク(CNN)が爆発的に発展しました。
ここでは代表的なモデルの進化と、近年のVision Transformerまでの流れを整理します。
CNN(Convolutional Neural Network)
特徴
- 畳み込み層で画像の局所的な特徴(エッジ、模様など)を抽出。
- プーリング層で特徴を圧縮し、位置やスケールの変化に強くなる。
- 全結合層で最終的な分類を実施。
代表的なCNNモデル
- LeNet(1998年):手書き数字認識に成功。
- AlexNet(2012年):ReLUとGPU活用で大規模画像分類に成功。
- VGGNet(2014年):小さな3×3フィルタを積み重ねるシンプルな設計。
- GoogLeNet(2014年):Inceptionモジュールを導入、計算効率化。
👉 試験頻出:「CNNの特徴は局所特徴を抽出する畳み込み層にある」。
ResNet(Residual Network)
課題
- ネットワークを深くすると精度が下がる「勾配消失問題」。
解決策
- スキップ結合(Residual Connection) を導入。
- 入力をそのまま次の層に足し合わせることで、非常に深いネットワークの学習が可能に。
成果
- ResNet(2015年) はImageNetで圧勝。
- 数百層のネットワークでも学習可能に。
👉 試験ポイント:「ResNetはスキップ結合で勾配消失を解決した」。
物体検出(YOLO, Faster R-CNNなど)
物体検出とは?
- 画像内の「何が」「どこにあるか」を認識するタスク。
- 画像分類よりも難易度が高い。
代表的手法
- Faster R-CNN:領域候補を抽出して分類。高精度だが計算コスト大。
- YOLO(You Only Look Once):画像全体を一度に処理してリアルタイム検出可能。
応用
- 自動運転(歩行者・信号検出)
- 防犯カメラ(人物・不審物検出)
- 医療(病変領域の検出)
👉 試験で狙われる:「YOLOはリアルタイム物体検出に強い」。
Vision Transformer(ViT)
背景
- 画像認識は長らくCNNが主流だったが、自然言語処理で大成功した Transformer を画像に応用したのが ViT。
特徴
- 画像を小さなパッチに分割し、系列データとして処理。
- 自己注意機構(Self-Attention)により画像全体の関係を学習。
- CNNのように局所的な畳み込みに依存しない。
成果
- 大規模データセットでCNNを上回る精度を達成。
- Googleが2020年に発表。
👉 試験頻出:「ViTは画像をパッチに分割し、Transformerで処理する」。
まとめ
- CNN:画像分類に革命(AlexNet, VGG, GoogLeNet)。
- ResNet:スキップ結合で深層ネットワークを可能に。
- 物体検出:YOLOはリアルタイム検出に強い。
- Vision Transformer:パッチ分割+Attentionで画像認識を刷新。
出題傾向
- 「CNNの特徴は?」=畳み込み層による局所特徴抽出
- 「ResNetの技術的工夫は?」=スキップ結合
- 「YOLOの利点は?」=リアルタイム物体検出
- 「Vision Transformerの特徴は?」=パッチ分割+Attention
練習問題(例題)
問題:次のうち、画像を小さなパッチに分割し、自己注意機構で処理する画像認識モデルはどれか?
- CNN
- ResNet
- YOLO
- Vision Transformer
👉 正解:4