5.2 自然言語処理(word2vec、BERT、GPT、LLM、ChatGPT)

G検定

自然言語処理(NLP: Natural Language Processing)は、人間の言語をコンピュータに理解・生成させる技術です。
ディープラーニングの進展により、機械翻訳、要約、質問応答、対話システムなどの性能が飛躍的に向上しました。
本節では、代表的な技術とモデルの進化を整理します。


word2vec(単語分散表現)

背景

  • 従来の「Bag of Words」は単語の順序や意味を捉えられなかった。
  • Googleが2013年に提案した word2vec により、単語の意味をベクトル空間に写像できるようになった。

特徴

  • 単語を連続値ベクトル(分散表現)に変換。
  • 「王 − 男 + 女 ≒ 女王」のような意味的関係を捉えられる。

👉 試験頻出:「word2vecは単語をベクトル表現に変換する技術」。


BERT(Bidirectional Encoder Representations from Transformers)

特徴

  • Googleが2018年に発表。
  • Transformerの Encoder を利用し、文脈を双方向から理解。
  • 事前学習+ファインチューニングで多様なNLPタスクに対応。

技術的工夫

  • Masked Language Model(MLM):文中の単語を隠して予測。
  • Next Sentence Prediction(NSP):文と文の関係を学習。

応用

  • 検索エンジン(Google検索のクエリ理解)
  • 質問応答システム
  • 文書分類

👉 試験ポイント:「BERTは双方向の文脈理解を可能にした」。


GPT(Generative Pre-trained Transformer)

特徴

  • OpenAIが提案した 自己回帰型言語モデル
  • Transformerの Decoder を利用し、次の単語を予測することで文章生成。

系譜

  • GPT-1(2018年):117Mパラメータ
  • GPT-2(2019年):1.5Bパラメータ、大規模事前学習で強力に
  • GPT-3(2020年):175Bパラメータ、Few-shot学習を可能に

👉 試験頻出:「GPTは自己回帰型のTransformerモデル」。


LLM(大規模言語モデル, Large Language Models)

特徴

  • 数十億〜数千億のパラメータを持つ巨大モデル。
  • 大規模データで事前学習し、多様なタスクを汎用的に処理可能。

強み

  • 翻訳、要約、コード生成、質問応答などを一つのモデルで対応可能。
  • Few-shot/Zero-shot学習を実現。

👉 試験ポイント:「LLMは多様なNLPタスクに汎用的に対応できる」。


ChatGPT

特徴

  • OpenAIが公開した対話型の大規模言語モデル。
  • GPT-3.5/GPT-4をベースにしたチャット形式の応答システム。

技術的工夫

  • RLHF(Reinforcement Learning with Human Feedback) により人間に近い応答を実現。
  • 安全性・有用性の向上。

応用

  • 対話アシスタント
  • プログラミング支援
  • 教育、翻訳、文章生成

👉 試験頻出:「ChatGPTはRLHFを用いた対話型大規模言語モデル」。


まとめ

  • word2vec:単語をベクトル表現に変換、意味的関係を捉える。
  • BERT:双方向文脈理解、事前学習+ファインチューニングで多用途。
  • GPT:自己回帰型モデル、次の単語を予測して文章生成。
  • LLM:汎用的に多様なNLPタスクに対応。
  • ChatGPT:RLHFにより自然で安全な対話を実現。

出題傾向

  • 「word2vecの役割は?」=単語を分散表現に変換
  • 「BERTの特徴は?」=双方向文脈理解、Masked LM
  • 「GPTの特徴は?」=自己回帰型モデル
  • 「ChatGPTに導入された手法は?」=RLHF

練習問題(例題)

問題:次のうち、文中の単語を隠して予測する「Masked Language Model」を採用したモデルはどれか?

  1. word2vec
  2. BERT
  3. GPT
  4. ChatGPT

👉 正解:2

タイトルとURLをコピーしました