5.7 マルチモーダル（CLIP、DALL·E、基盤モデル）

人間は「視覚・聴覚・言語」など複数の感覚を統合して世界を理解しています。
ディープラーニングにおいても、画像やテキスト、音声といった複数の情報源を統合して処理する マルチモーダルAI が急速に発展しています。
さらに、それを支える 基盤モデル（Foundation Models） が登場し、AI研究の方向性を大きく変えました。

マルチモーダルAIとは？
1. 定義
2. 意義
CLIP（Contrastive Language-Image Pretraining）
1. 特徴
2. 応用
DALL·E（テキストからの画像生成）
基盤モデル（Foundation Models）
まとめ
出題傾向
練習問題（例題）

マルチモーダルAIとは？

定義

異なる種類のデータ（モーダリティ）を統合して処理するAI。
例：画像＋テキスト、音声＋映像など。

意義

単一モーダリティよりも豊かな情報表現が可能。
画像検索、字幕生成、テキストからの画像生成などが実現。

👉 試験ポイント：「マルチモーダルは複数の情報モーダリティを統合して処理する技術」。

CLIP（Contrastive Language-Image Pretraining）

特徴

OpenAIが2021年に発表。
画像とテキストを同一のベクトル空間にマッピング。
大規模なインターネットデータで事前学習。

応用

画像検索（テキストで検索 → 画像を取得）
テキストによる画像分類
生成AIの基盤（DALL·E, Stable Diffusionで活用）

👉 試験頻出：「CLIPは画像とテキストを結び付けるマルチモーダルモデル」。

DALL·E（テキストからの画像生成）

特徴

OpenAIが開発した「Text-to-Image」モデル。
入力したテキストに応じて画像を生成可能。

技術

Transformerベース
事前学習済みのテキスト・画像対応付け（CLIPなど）を利用

応用

デザイン支援（イラスト・広告画像生成）
教育（教材用ビジュアル生成）
クリエイティブ分野（アート制作）

👉 試験で狙われる：「DALL·Eはテキストから画像を生成する」。

基盤モデル（Foundation Models）

定義

大規模データで事前学習され、多様なタスクに転用可能な汎用モデル。
NLP（GPT, BERT）、画像（CLIP, ViT）、マルチモーダル（DALL·E, Flamingo）など。

特徴

汎用性が高く、ファインチューニングやプロンプト設計で多様なタスクに対応可能。
LLMや生成AIの根幹を支える。

社会的意義

産業・研究の広範囲に影響（検索、創作、教育、医療）。
倫理・安全性（偏見、著作権問題）への議論も重要。

👉 試験ポイント：「基盤モデルは多様な下流タスクに利用できる汎用的な事前学習モデル」。

まとめ

マルチモーダルAI：複数モーダリティ（画像・テキスト・音声など）の統合。
CLIP：画像とテキストを同じベクトル空間で学習。
DALL·E：テキストから画像生成を実現。
基盤モデル：多様なタスクに転用可能な大規模事前学習モデル。

出題傾向

「CLIPの役割は？」＝画像とテキストの対応付け
「DALL·Eの特徴は？」＝テキストから画像生成
「基盤モデルとは？」＝汎用性の高い大規模事前学習モデル

練習問題（例題）

問題：テキストを入力すると対応する画像を生成できるモデルはどれか？

CLIP
ResNet
DALL·E
Transformer

👉 正解：3