6.2 データの収集・加工・分析(アノテーション、オープンデータセット、データリーケージ)

G検定

ディープラーニングの性能は データの質と量 に大きく依存します。
そのため、データの収集・加工・分析はAIプロジェクトにおいて最も重要な工程のひとつです。
ここでは、教師データの整備から公開データセットの活用、そして実務で注意すべき データリーケージ について整理します。


アノテーション(Annotation)

定義

  • 教師データ作成のためにラベル付けを行う作業
  • 画像認識では「猫/犬」の分類や物体の位置指定、NLPでは感情ラベル付けなど。

方法

  • 専門家によるラベリング(医療診断データなど)
  • クラウドソーシング(Amazon Mechanical Turk、Lancersなど)
  • 自動アノテーション(弱教師学習、自己学習などの補助手法)

課題

  • コストが高い。
  • ラベル付けのばらつき(人間の主観)。
  • データの偏りによるバイアス。

👉 試験ポイント:「アノテーションは教師データ作成のために必要」。


オープンデータセット(Open Datasets)

定義

  • 公開されている大規模データセット。研究や実装に広く活用される。

代表例

  • 画像:MNIST(手書き数字)、ImageNet(画像分類)、COCO(物体検出)
  • 音声:LibriSpeech(音声認識)、VCTK(音声合成)
  • テキスト:Wikipediaコーパス、GLUE(自然言語処理ベンチマーク)

メリット

  • 学習データ不足の解消。
  • 再現性・比較可能性の確保(研究ベンチマーク)。

デメリット

  • 実務データとの乖離(現場データはノイズや偏りが多い)。
  • 著作権や個人情報への配慮が必要。

👉 試験頻出:「ImageNetは画像分類用の大規模データセット」。


データリーケージ(Data Leakage)

定義

  • 学習時には利用できないはずの情報が誤って学習データに含まれてしまい、異常に高い精度が出る問題

  • 未来の情報が学習データに含まれている(株価予測で未来の日付を含める)。
  • 重複データが訓練・テスト両方に含まれている。
  • 特徴量に目的変数と強く相関する不正データが混入。

影響

  • 実運用時に精度が急落。
  • 過学習よりも深刻で気づきにくい。

対策

  • データ分割時に「時系列」「ユニークID」などを考慮。
  • 特徴量生成時に未来情報を混ぜない。
  • データ検証プロセスの強化。

👉 試験ポイント:「データリーケージは実運用時に精度が出ない大きな要因」。


まとめ

  • アノテーション:教師データ作成の要。クラウドソーシングや自動化も活用される。
  • オープンデータセット:研究用に広く利用されるが、実務データとは性質が異なる場合が多い。
  • データリーケージ:学習時に利用できない情報を誤って含めてしまう問題。実務では特に注意が必要。

出題傾向

  • 「アノテーションの目的は?」=教師データ作成
  • 「代表的なオープンデータセットは?」=ImageNet, COCO, MNIST
  • 「データリーケージとは?」=学習に含めてはいけない情報を誤って利用すること

練習問題(例題)

問題:次のうち「データリーケージ」の例として最も適切なものはどれか?

  1. 訓練データとテストデータを正しく分割する
  2. 株価予測モデルに未来の日付の情報を含めてしまう
  3. 音声認識にLibriSpeechを使う
  4. アノテーションをクラウドソーシングで行う

👉 正解:2

タイトルとURLをコピーしました