Text To Imageの仕組み – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

Text-to-Image（テキスト → 画像生成）の仕組みは、とても複雑な数学とAI技術で動いていますが、本質的には3つのステップで理解できます。

⭐ Text-to-Image 生成モデルの基礎（やさしく解説）
① テキストを「意味ベクトル」に変換する
まずモデルは、あなたが入力した文章（例：「夕焼けの海辺に立つ猫」）を読み取り、
猫
海辺
夕焼け
光の方向
雰囲気（明るい/暗い、リアル/アニメなど）

といった概念を理解して、
**「テキストを数値ベクトルに変換（=エンコード）」**します。
これは主に Transformer（BERT / GPT 系）の技術です。

② 画像を作るための「ノイズ」を操る
最近の Text-to-Image モデル（Stable Diffusion / DALL·E など）は、
最初は“砂嵐のようなノイズ画像”から始めます。

そこから、
“猫の形に近いノイズ”
“夕焼けの色に近いノイズ”
“海辺の構造に近いノイズ”
などを少しずつ調整し、
ノイズ → 形 → ディテール → 高解像度画像
という順番で整えていきます。

これを Diffusion（拡散）モデルと呼びます。

③ テキストの意味に合わせてノイズを「目的の画像」に収束させる
テキストの意味ベクトルをガイドに使って、
どんな色にするか
どんな構図にするか
どんな質感にするか
どんなスタイルにするか

を決めながら、ノイズをだんだん画像に変換します。

ここで主に使われる技術が：
U-Net（画像の特徴抽出）
Cross-Attention（文章と画像の対応付け）

最終的に「猫」や「海辺」などの要素が一致した画像が生成されます。

🔍 まとめ（いちばん重要な3ポイント）
ステップやってること技術
① テキスト理解文章 → 数値 Transformer
② ノイズ生成ノイズから画像へ Diffusion
③ 条件付け生成テキストに合う画像へ誘導 Cross-Attention, U-Net

これらが組み合わさって、
あなたが入力した文章を「絵」に変えてくれる仕組みです。