VAE Autoencoder – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

VAE（Variational Autoencoder）や Autoencoder も、Text-to-Image / Text-to-Video における“補助的な技術”として重要な役割を担っています。
ただし、**役割は GAN とは異なり、画像を「圧縮・展開するための土台」**として使われることが多いです。

⭐ VAE / Autoencoder は「画像を扱いやすくするための変換装置」
最新の Text-to-Image（Stable Diffusion など）では、

**画像をいきなりピクセルで扱わず、
一度「潜在空間（latent space）」に圧縮してから処理します。**
ここで使われるのが VAE や Autoencoder。

⭐ 1. Stable Diffusion を例にすると、VAE は「圧縮と復元」を担当
Stable Diffusion の大まかな流れ：

1️⃣ VAE Encoder：
画像 → 低次元の潜在表現（latent）

2️⃣ Diffusion (U-Net)：
潜在空間でノイズ除去 / 生成処理
（ここが Text-to-Image のメイン）

3️⃣ VAE Decoder：
潜在 → 最終画像（512×512 など高解像度）
つまり VAE は、
Diffusion が扱う“潜在空間”を作るための重要モジュール。

⭐ 2. なぜ Autoencoder が必要なのか？

理由は3つ。

✔ 理由①：計算量を激減させる（高速化）
画像を直接生成すると 512×512×3 = 786,432 ピクセル
これは非常に重い。
潜在空間は 1/8〜1/16のサイズなので
Diffusion の計算が一気に軽くなる。

✔ 理由②：高解像度の構造を少ない次元で表現できる
Autoencoder は
色
形
質感

などの情報を「圧縮しても失われにくい形」に変換できる。
GAN や Diffusion だけではこの圧縮が難しいので Autoencoder が必要。

✔ 理由③：潜在空間はノイズ処理と相性が良い
Diffusion の“ノイズ除去プロセス”は、
潜在空間の方がやりやすい。

⭐ 3. Text-to-Video でも Autoencoder が使われる
動画の場合は、
“空間だけでなく時間方向にも圧縮”が必要。

そこで登場するのが：
Video Autoencoder
Temporal VAE
3D VAE（空間＋時間）

これらは
動画 → 潜在動画
に変換してから Diffusion で生成します。

Sora など最新モデルでは
専用の Video Autoencoder が重要な基盤技術として使われています。

⭐ 4. まとめ：VAE / Autoencoder は「補助」だけど“めちゃ重要な基盤”
技術主な役割
Diffusion 画像・動画そのものを生成する“エンジン”
GAN 仕上げの高解像化・質感改善・時間的一貫性補正
Autoencoder / VAE 画像や動画を扱いやすい潜在空間に変換

要するに、

🔹 Diffusion（生成の本体）
＋
🔹 Autoencoder（圧縮／展開の基盤）
＋
🔹 GAN（質感や解像度を補強）

という構成が最新モデルの一般形です。