5.1 画像認識（CNN系、YOLO、ResNet、Vision Transformerなど）

画像認識は、ディープラーニングが最も大きな成果を上げた分野の一つです。
特に2012年の ImageNetコンテスト（ILSVRC） で登場した AlexNet を契機に、畳み込みニューラルネットワーク（CNN）が爆発的に発展しました。
ここでは代表的なモデルの進化と、近年のVision Transformerまでの流れを整理します。

CNN（Convolutional Neural Network）
1. 特徴
2. 代表的なCNNモデル
ResNet（Residual Network）
物体検出（YOLO, Faster R-CNNなど）
Vision Transformer（ViT）
まとめ
出題傾向
練習問題（例題）

CNN（Convolutional Neural Network）

特徴

畳み込み層で画像の局所的な特徴（エッジ、模様など）を抽出。
プーリング層で特徴を圧縮し、位置やスケールの変化に強くなる。
全結合層で最終的な分類を実施。

代表的なCNNモデル

LeNet（1998年）：手書き数字認識に成功。
AlexNet（2012年）：ReLUとGPU活用で大規模画像分類に成功。
VGGNet（2014年）：小さな3×3フィルタを積み重ねるシンプルな設計。
GoogLeNet（2014年）：Inceptionモジュールを導入、計算効率化。

👉 試験頻出：「CNNの特徴は局所特徴を抽出する畳み込み層にある」。

ResNet（Residual Network）

課題

ネットワークを深くすると精度が下がる「勾配消失問題」。

解決策

スキップ結合（Residual Connection） を導入。
入力をそのまま次の層に足し合わせることで、非常に深いネットワークの学習が可能に。

成果

ResNet（2015年） はImageNetで圧勝。
数百層のネットワークでも学習可能に。

👉 試験ポイント：「ResNetはスキップ結合で勾配消失を解決した」。

物体検出（YOLO, Faster R-CNNなど）

物体検出とは？

画像内の「何が」「どこにあるか」を認識するタスク。
画像分類よりも難易度が高い。

代表的手法

Faster R-CNN：領域候補を抽出して分類。高精度だが計算コスト大。
YOLO（You Only Look Once）：画像全体を一度に処理してリアルタイム検出可能。

応用

自動運転（歩行者・信号検出）
防犯カメラ（人物・不審物検出）
医療（病変領域の検出）

👉 試験で狙われる：「YOLOはリアルタイム物体検出に強い」。

Vision Transformer（ViT）

背景

画像認識は長らくCNNが主流だったが、自然言語処理で大成功した Transformer を画像に応用したのが ViT。

特徴

画像を小さなパッチに分割し、系列データとして処理。
自己注意機構（Self-Attention）により画像全体の関係を学習。
CNNのように局所的な畳み込みに依存しない。

成果

大規模データセットでCNNを上回る精度を達成。
Googleが2020年に発表。

👉 試験頻出：「ViTは画像をパッチに分割し、Transformerで処理する」。

まとめ

CNN：画像分類に革命（AlexNet, VGG, GoogLeNet）。
ResNet：スキップ結合で深層ネットワークを可能に。
物体検出：YOLOはリアルタイム検出に強い。
Vision Transformer：パッチ分割＋Attentionで画像認識を刷新。

出題傾向

「CNNの特徴は？」＝畳み込み層による局所特徴抽出
「ResNetの技術的工夫は？」＝スキップ結合
「YOLOの利点は？」＝リアルタイム物体検出
「Vision Transformerの特徴は？」＝パッチ分割＋Attention

練習問題（例題）

問題：次のうち、画像を小さなパッチに分割し、自己注意機構で処理する画像認識モデルはどれか？

CNN
ResNet
YOLO
Vision Transformer

👉 正解：4