ディープラーニングの性能は データの質と量 に大きく依存します。
そのため、データの収集・加工・分析はAIプロジェクトにおいて最も重要な工程のひとつです。
ここでは、教師データの整備から公開データセットの活用、そして実務で注意すべき データリーケージ について整理します。
アノテーション(Annotation)
定義
- 教師データ作成のためにラベル付けを行う作業。
- 画像認識では「猫/犬」の分類や物体の位置指定、NLPでは感情ラベル付けなど。
方法
- 専門家によるラベリング(医療診断データなど)
- クラウドソーシング(Amazon Mechanical Turk、Lancersなど)
- 自動アノテーション(弱教師学習、自己学習などの補助手法)
課題
- コストが高い。
- ラベル付けのばらつき(人間の主観)。
- データの偏りによるバイアス。
👉 試験ポイント:「アノテーションは教師データ作成のために必要」。
オープンデータセット(Open Datasets)
定義
- 公開されている大規模データセット。研究や実装に広く活用される。
代表例
- 画像:MNIST(手書き数字)、ImageNet(画像分類)、COCO(物体検出)
- 音声:LibriSpeech(音声認識)、VCTK(音声合成)
- テキスト:Wikipediaコーパス、GLUE(自然言語処理ベンチマーク)
メリット
- 学習データ不足の解消。
- 再現性・比較可能性の確保(研究ベンチマーク)。
デメリット
- 実務データとの乖離(現場データはノイズや偏りが多い)。
- 著作権や個人情報への配慮が必要。
👉 試験頻出:「ImageNetは画像分類用の大規模データセット」。
データリーケージ(Data Leakage)
定義
- 学習時には利用できないはずの情報が誤って学習データに含まれてしまい、異常に高い精度が出る問題。
例
- 未来の情報が学習データに含まれている(株価予測で未来の日付を含める)。
- 重複データが訓練・テスト両方に含まれている。
- 特徴量に目的変数と強く相関する不正データが混入。
影響
- 実運用時に精度が急落。
- 過学習よりも深刻で気づきにくい。
対策
- データ分割時に「時系列」「ユニークID」などを考慮。
- 特徴量生成時に未来情報を混ぜない。
- データ検証プロセスの強化。
👉 試験ポイント:「データリーケージは実運用時に精度が出ない大きな要因」。
まとめ
- アノテーション:教師データ作成の要。クラウドソーシングや自動化も活用される。
- オープンデータセット:研究用に広く利用されるが、実務データとは性質が異なる場合が多い。
- データリーケージ:学習時に利用できない情報を誤って含めてしまう問題。実務では特に注意が必要。
出題傾向
- 「アノテーションの目的は?」=教師データ作成
- 「代表的なオープンデータセットは?」=ImageNet, COCO, MNIST
- 「データリーケージとは?」=学習に含めてはいけない情報を誤って利用すること
練習問題(例題)
問題:次のうち「データリーケージ」の例として最も適切なものはどれか?
- 訓練データとテストデータを正しく分割する
- 株価予測モデルに未来の日付の情報を含めてしまう
- 音声認識にLibriSpeechを使う
- アノテーションをクラウドソーシングで行う
👉 正解:2