自然言語処理(NLP: Natural Language Processing)は、人間の言語をコンピュータに理解・生成させる技術です。
ディープラーニングの進展により、機械翻訳、要約、質問応答、対話システムなどの性能が飛躍的に向上しました。
本節では、代表的な技術とモデルの進化を整理します。
word2vec(単語分散表現)
背景
- 従来の「Bag of Words」は単語の順序や意味を捉えられなかった。
- Googleが2013年に提案した word2vec により、単語の意味をベクトル空間に写像できるようになった。
特徴
- 単語を連続値ベクトル(分散表現)に変換。
- 「王 − 男 + 女 ≒ 女王」のような意味的関係を捉えられる。
👉 試験頻出:「word2vecは単語をベクトル表現に変換する技術」。
BERT(Bidirectional Encoder Representations from Transformers)
特徴
- Googleが2018年に発表。
- Transformerの Encoder を利用し、文脈を双方向から理解。
- 事前学習+ファインチューニングで多様なNLPタスクに対応。
技術的工夫
- Masked Language Model(MLM):文中の単語を隠して予測。
- Next Sentence Prediction(NSP):文と文の関係を学習。
応用
- 検索エンジン(Google検索のクエリ理解)
- 質問応答システム
- 文書分類
👉 試験ポイント:「BERTは双方向の文脈理解を可能にした」。
GPT(Generative Pre-trained Transformer)
特徴
- OpenAIが提案した 自己回帰型言語モデル。
- Transformerの Decoder を利用し、次の単語を予測することで文章生成。
系譜
- GPT-1(2018年):117Mパラメータ
- GPT-2(2019年):1.5Bパラメータ、大規模事前学習で強力に
- GPT-3(2020年):175Bパラメータ、Few-shot学習を可能に
👉 試験頻出:「GPTは自己回帰型のTransformerモデル」。
LLM(大規模言語モデル, Large Language Models)
特徴
- 数十億〜数千億のパラメータを持つ巨大モデル。
- 大規模データで事前学習し、多様なタスクを汎用的に処理可能。
強み
- 翻訳、要約、コード生成、質問応答などを一つのモデルで対応可能。
- Few-shot/Zero-shot学習を実現。
👉 試験ポイント:「LLMは多様なNLPタスクに汎用的に対応できる」。
ChatGPT
特徴
- OpenAIが公開した対話型の大規模言語モデル。
- GPT-3.5/GPT-4をベースにしたチャット形式の応答システム。
技術的工夫
- RLHF(Reinforcement Learning with Human Feedback) により人間に近い応答を実現。
- 安全性・有用性の向上。
応用
- 対話アシスタント
- プログラミング支援
- 教育、翻訳、文章生成
👉 試験頻出:「ChatGPTはRLHFを用いた対話型大規模言語モデル」。
まとめ
- word2vec:単語をベクトル表現に変換、意味的関係を捉える。
- BERT:双方向文脈理解、事前学習+ファインチューニングで多用途。
- GPT:自己回帰型モデル、次の単語を予測して文章生成。
- LLM:汎用的に多様なNLPタスクに対応。
- ChatGPT:RLHFにより自然で安全な対話を実現。
出題傾向
- 「word2vecの役割は?」=単語を分散表現に変換
- 「BERTの特徴は?」=双方向文脈理解、Masked LM
- 「GPTの特徴は?」=自己回帰型モデル
- 「ChatGPTに導入された手法は?」=RLHF
練習問題(例題)
問題:次のうち、文中の単語を隠して予測する「Masked Language Model」を採用したモデルはどれか?
- word2vec
- BERT
- GPT
- ChatGPT
👉 正解:2