← 一覧に戻る AI · Visual Glossary
09 · A. AIの基本概念
Multimodal

マルチモーダル

Animation
📝 TEXT
🖼️ IMAGE
🎙️ AUDIO
🧠
統合された回答

「画像の猫は白くてふくよか、録音の鳴き声から甘えている様子。質問の通り、満腹そうですね。」

「再生」で複数入力が1つのAIに統合される様子を見る

3つの違う形式の情報が、1つのAIに統合される。

「モーダル」=入力の形式

モーダル(modal)とは「データの形式」のこと。テキスト、画像、音声、動画…それぞれが別のモーダルです。 昔のAIは1つのモーダルしか扱えませんでした(テキストならテキストだけ)。 最新のAIは複数モーダルを統合的に理解できるようになり、 「画像を見せて感想を聞く」「音声で質問してテキストで答える」といった使い方が可能になりました。

身近な例えで理解する

例① 五感で理解する人間

人間は「目で見て」「耳で聞いて」「手で触って」情報を統合しています。 これまでのAIは「耳しかない」ような状態でしたが、マルチモーダルAIは目も耳も持った存在に進化しました。

例② 通訳+翻訳+解説が1人でできる

写真を見せながら質問すると、画像内容を理解して回答。 競合LPのスクショを見せて「この訴求の弱点は?」と聞ける。 実務での応用範囲が一気に広がるのがマルチモーダルの価値です。

📝
まとめ

マルチモーダルは、「AIの五感化」とも言える進化。 最新のGPT-4o・Gemini・Claudeなどは全てマルチモーダル対応。 テキスト以外の入力(画像・音声・動画)を積極的に使うと、AI活用の幅が一気に広がります

More · Next Step

AI活用の実例・失敗談を、シェアしているオープンチャットがあります。単語を覚えたあと、実際の使い方に触れたい方へ。