Artificial Intelligence – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

Open AI apiの TextToImage

import os
from openai import OpenAI
from dotenv import load_dotenv
load_dotenv()

# クライアント作成
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# 2. 画像生成のリクエスト
response = client.images.generate(
    model="dall-e-3",
    prompt="サイバーパンクな都市を歩く柴犬",
    n=1,
    size="1024x1024"
)

# 3. 生成された画像のURLを表示
print(response.data[0].url)

geminiも同じようなことができる

import os
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

# 1. クライアントの初期化（APIキーを入力）
# client = genai.configure(api_key=os.getenv("GEMINI_API_KEY"))
client = genai.Client(api_key=os.getenv("GEMINI_API_KEY"))

# 2. 画像生成のリクエスト（Imagen 3モデルを使用）
response = client.models.generate_images(
    model='imagen-4.0-generate-001', 
    prompt='サイバーパンクな都市を歩く柴犬',
    config=types.GenerateImagesConfig(
        number_of_images=1,
    )
)

# 3. 生成された画像を表示・保存
for generated_image in response.generated_images:
    # バイトデータから画像を開く
    image = Image.open(BytesIO(generated_image.image.image_bytes))
    image.show() # 標準のフォトビューアーで開く
    # image.save("result.png") # ファイルとして保存する場合

[App] Rorkでアプリを作成する

### プロンプト
シンプルな「日英翻訳アプリ」を作成してください。
このアプリは、外部の翻訳APIは使用せず、内部に持たせた簡単な辞書データで翻訳処理を代替します。

### 1. 辞書データ（必須）
以下のデータを持ったオブジェクトまたは配列をコンポーネント内に定義してください。

* **日本語:** ‘こんにちは’ → **英語:** ‘Hello’
* **日本語:** ‘ありがとう’ → **英語:** ‘Thank you’
* **日本語:** ‘さようなら’ → **英語:** ‘Goodbye’
* **日本語:** ‘はい’ → **英語:** ‘Yes’
* **日本語:** ‘いいえ’ → **英語:** ‘No’

### 2. UI/機能要件（必須）
1つの画面（App.jsのみで完結）に以下の要素を配置してください。

* **入力エリア:** ユーザーが日本語の単語を入力できる `` コンポーネント。
* **翻訳ボタン:** 「翻訳する」というテキストのボタン。
* **結果表示:** 翻訳結果（英語）を表示する `` コンポーネント。初期値は「翻訳結果がここに表示されます」としてください。

### 3. 処理ロジック
1. ユーザーが入力エリアに日本語を入力し、「翻訳する」ボタンを押します。
2. 入力された日本語が、辞書データ内に存在するかチェックします。
3. 存在する場合、対応する英語を結果表示エリアに表示します。
4. 辞書データに存在しない単語が入力された場合、「辞書に単語がありません」というメッセージを表示してください。

ここまで来たか… oh my goodness

Text To Imageの仕組み

Text-to-Image（テキスト → 画像生成）の仕組みは、とても複雑な数学とAI技術で動いていますが、本質的には3つのステップで理解できます。

⭐ Text-to-Image 生成モデルの基礎（やさしく解説）
① テキストを「意味ベクトル」に変換する
まずモデルは、あなたが入力した文章（例：「夕焼けの海辺に立つ猫」）を読み取り、
猫
海辺
夕焼け
光の方向
雰囲気（明るい/暗い、リアル/アニメなど）

といった概念を理解して、
**「テキストを数値ベクトルに変換（=エンコード）」**します。
これは主に Transformer（BERT / GPT 系）の技術です。

② 画像を作るための「ノイズ」を操る
最近の Text-to-Image モデル（Stable Diffusion / DALL·E など）は、
最初は“砂嵐のようなノイズ画像”から始めます。

そこから、
“猫の形に近いノイズ”
“夕焼けの色に近いノイズ”
“海辺の構造に近いノイズ”
などを少しずつ調整し、
ノイズ → 形 → ディテール → 高解像度画像
という順番で整えていきます。

これを Diffusion（拡散）モデルと呼びます。

③ テキストの意味に合わせてノイズを「目的の画像」に収束させる
テキストの意味ベクトルをガイドに使って、
どんな色にするか
どんな構図にするか
どんな質感にするか
どんなスタイルにするか

を決めながら、ノイズをだんだん画像に変換します。

ここで主に使われる技術が：
U-Net（画像の特徴抽出）
Cross-Attention（文章と画像の対応付け）

最終的に「猫」や「海辺」などの要素が一致した画像が生成されます。

🔍 まとめ（いちばん重要な3ポイント）
ステップやってること技術
① テキスト理解文章 → 数値 Transformer
② ノイズ生成ノイズから画像へ Diffusion
③ 条件付け生成テキストに合う画像へ誘導 Cross-Attention, U-Net

これらが組み合わさって、
あなたが入力した文章を「絵」に変えてくれる仕組みです。

CNN / RNN / Transformer　の違い

以下では CNN / RNN / Transformer の違いを、
「何が得意で、どう動くのか」を中心に分かりやすくまとめます。

📌 3つのモデルの根本的な違い
モデル仕組みの特徴得意分野苦手分野
CNN (Convolutional Neural Network) 画像の局所パターンを畳み込みで抽出画像認識・特徴抽出長距離関係（文脈の長期依存）
RNN (Recurrent Neural Network) 時系列を「1ステップずつ」処理音声・時系列・短い文の生成並列化が苦手、長距離依存が苦手（勾配消失）
Transformer Attentionで全要素を同時に見て関係を学ぶ文章理解・生成・翻訳、画像生成計算量がデカい（特に長い入力）
🔍 1. CNN：画像を理解するのが得意
▪ 特徴
畳み込み（Convolution）によって「周辺の局所的なパターン」を抽出する。
階層が深くなるほど「輪郭 → パーツ → 物体 → 構造」と抽象度が上がる。

▪ 得意なもの
画像分類
物体検出
セグメンテーション
画像の特徴抽出（Encoder）

▪ 弱点
長距離の関係が苦手
→ 画像の遠い部分の関係性を理解するのが難しい。

🔍 2. RNN：時系列を「順番に読む」
▪ 特徴
データを「前 → 次へ」連続的に処理する。
内部に“状態（メモリ）”を持ち、それを次のステップに渡しながら学習。
LSTM / GRU など改良版もある。

▪ 得意なもの
音声やセンサーなど“時間で並んだデータ”
短い文章の生成
時系列予測
▪ 弱点
並列化できない → 遅い
長距離依存の学習が苦手（勾配消失問題）
大規模言語モデルにはスケールしにくい

🔍 3. Transformer：Attentionで全体を見る
▪ 特徴
「入力の全部の位置が、全部の位置を注視できる」
→ Self-Attention（自己注意）で長距離依存を捉えるのが得意。
並列計算できるので大規模化しやすい。
▪ 得意なもの
大規模言語モデル（GPT, BERT）
文章生成・翻訳
画像生成（拡散モデルの中や Vision Transformer）
音声生成

マルチモーダル（テキスト＋画像など）
▪ 弱点
入力長に対して計算量が O(n²) と重くなりやすい
（最近は対策モデルも多い：Longformer、FlashAttention など）

🧠 たとえで説明すると…
■ CNN
近くのピクセルを見て「これは目だ」「これは毛だ」と特徴を抜き取るカメラのフィルター。

■ RNN
文章を一文字ずつ読み進める人。
前の単語を覚えているけど、長い文になると忘れがち。

■ Transformer

文章のすべての単語を並べて、一瞬で「どことどこが関係しているか」を分析できる人。

✔ まとめ
CNN → 画像の「局所パターン」を得意
RNN → 時系列を「順番に」処理
Transformer → Attentionで「全体の依存関係」を捉える
必要なら「数学的な違い」や「Attention の図解」、「各モデルのコード例（PyTorch）」も作れます！

[TextToImage/Vide]学習プラン

Text-to-Image ＆ Text-to-Video

📘 Text-to-Image ＆ Text-to-Video 学習プラン

（基礎〜実装〜応用〜研究の4段階）

🌱 Stage 1：基礎理解（1〜2週間）
■ 1. 基礎知識
🔹 必須領域
Python（Numpy, PyTorch）
Deep Learning の基礎
CNN / RNN / Transformer
損失関数、最適化、正規化
生成モデルの基礎
GAN
VAE
Autoencoder

🔹 Text-to-Image/Text-to-Video に必要な基礎トピック
Diffusion Models（ノイズ→サンプルの生成）
画像特徴量（CLIP embedding）

🚀 Stage 2：Text-to-Image（T2I）基礎実装（2〜4週間）
■ 1. 代表モデルの理解
DDPM
Latent Diffusion（LDM）
Stable Diffusion（SD1.5 / SDXL）

■ 2. 実装ステップ
🔹 手順
ノイズ添加 → 除去のプロセスを理解
U-Net アーキテクチャの理解
CLIPTextEncoder で文章 → 潜在ベクトル化
逆拡散で画像生成

🔹 実装課題（おすすめ）
MNIST 画像で「拡散モデルの最小実装」
テキスト条件なし → ありの拡張
LoRA の学習（簡易ファインチューニング）
自作データセットで DreamBooth を実行

🎞 Stage 3：Text-to-Video（T2V）基礎実装（3〜6週間）
■ 1. 代表モデルの理解
ModelScope T2V
Video Diffusion Models（VDM）
AnimateDiff（T2I モデルを動画化）
Stable Video Diffusion (SVD)

■ 2. 動画モデル特有のポイント
時間方向の Attention
3D U-Net（時間軸の畳み込み）
時間的一貫性（Temporal Consistency）
Motion dynamics（動き生成）

■ 3. 実装ステップ
画像生成モデルをベースに時系列次元を追加
連続フレームでノイズ除去
モーション学習（Optical Flow などの活用）

■ 4. 実践課題
画像→動画の簡易版（SVD を使った生成）
AnimateDiff で静止画アニメーション生成
ModelScope T2V を動かして文章→短い動画の生成
自作 LoRA でスタイル変換

🔧 Stage 4：高度な応用（1〜3ヶ月）
■ 1. 高度機能の実装
高解像度生成（Tile, ControlNet, Refiner）
モーション制御
Depth
Pose
Optical Flow
長尺動画生成（Temporal Chaining）

■ 2. 研究論文の理解
Imagen Video
Phenaki（単語→長尺動画）
Sora（OpenAI）
VideoPoet（Google）
理論（拡散）＋工学（高速化）＋データ設計など、総合力が必要です。

🧪 Stage 5：実践プロジェクト（ポートフォリオ）
以下から3つほど実行するとポートフォリオになります：

🔹 Text-to-Image
固有キャラクターの T2I モデル作成（LoRA + DreamBooth）
ControlNet を使ったポーズ制御アプリ
Web UI（Gradio）で T2I 生成アプリ構築

🔹 Text-to-Video
Text → 5秒動画生成ツール
T2I → T2V 変換パイプライン
AnimateDiff を使ったアニメキャラ動画生成
Video Dynamics（動きだけ変更するモデル）

📚 推奨教材・環境
■ 書籍
Deep Learning with Diffusion Models（Draft）
Hands-On Image Generation with Diffusion Models

■ コース
HuggingFace Diffusion Course（無料）
FastAI（基礎強化）

■ 環境
PyTorch
Diffusers（HuggingFace）
A100 or 4090（動画学習は VRAM 20GB 以上推奨）

Dify Mem0の使い方

ADD MEMORYとRETREIVE MEMORYで長期メモリをupdate, getする

Google ColaboでQdrant用のベクトルデータを生成してQdrantを試す

# 前準備
### jsonデータ生成
ライブドアニュースコーパスをDL

ダウンロード

ダウンロード（通常テキスト）：ldcc-20140209.tar.gz

### コーパスの取り込み

import json
import datetime
from typing import List, Dict
from pathlib import Path
import random

CORPUS_DIR = './livedoor-corpus'  # ライブドアコーパスをここにおく
QDRANT_JSON = 'livedoor.json'
SAMPLE_TEXT_LEN: int = 500  # ドキュメントを500文字でトランケート


def read_document(path: Path) -> Dict[str, str]:
    """1ドキュメントの処理"""
    with open(path, 'r') as f:
        lines: List[any] = f.readlines(SAMPLE_TEXT_LEN)
        lines = list(map(lambda x: x.rstrip(), lines))

        d = datetime.datetime.strptime(lines[1], "%Y-%m-%dT%H:%M:%S%z")
        created_at = int(round(d.timestamp()))  # 数値(UNIXエポックタイプ)に変換

        return {
            "url": lines[0],
            "publisher": path.parts[1],  # ['livedoor-corpus', 'it-life-hack', 'it-life-hack-12345.txt']
            "created_at": created_at,
            "body": ' '.join(lines[2:])  # 初めの２行をスキップし、各行をスペースで連結し、１行にする。
        }


def load_dataset_from_livedoor_files() -> (List[List[float]], List[str]):
    # NB. exclude LICENSE.txt, README.txt, CHANGES.txt
    corpus: List[Path] = list(Path(CORPUS_DIR).rglob('*-*.txt'))
    random.shuffle(corpus)  # 記事をシャッフルします

    with open(QDRANT_JSON, 'w') as fp:
        for x in corpus:
            doc: Dict[str, str] = read_document(x)
            json.dump(doc, fp)  # 1行分
            fp.write('\n')


if __name__ == '__main__':
    load_dataset_from_livedoor_files()

$ python3 corpus.py
$ ls
corpus.py livedoor-corpus livedoor.json

このlivedoor.jsonをGoogle collaboで使います。

### Google colabo
!pip install -U ginza spacy
!pip install -U numpy pandas ja_ginza

colaboで文章をベクトル化 … 約10分

import numpy as np
import pandas as pd
import spacy
# from multiprocessing import Pool, cpu_count  <- マルチプロセス関連は不要

# GiNZAモデルのロード (インストールが完了している前提)
try:
    nlp: spacy.Language = spacy.load('ja_ginza', exclude=["tagger", "parser", "ner", "lemmatizer", "textcat", "custom"])
    print("✅ GiNZAモデルのロードに成功しました。")
except OSError:
    print("❌ GiNZAモデルが見つかりません。再度インストール手順を確認してください。")
    # ここでエラーになる場合は、!pip install -U ginza を実行してください。

QDRANT_NPY = 'vectors-livedoor-ginza.npy'  # 出力ファイル名

def f(x):
    # NaNやNone値のチェック (エラー回避のため)
    if pd.isna(x):
        # 空のベクトルを返す、または処理をスキップ
        return np.zeros(nlp.vocab.vectors_length)
        
    doc: spacy.tokens.doc.Doc = nlp(x)  # GiNZAでベクトル化
    return doc.vector

def main():
    try:
        df = pd.read_json('livedoor.json', lines=True)
    except FileNotFoundError:
        print("❌ livedoor.json が見つかりません。ファイルが /content/ にアップロードされているか確認してください。")
        return

    print("\nデータフレームの先頭5行:")
    print(df.head())
    print(f"\n合計 {len(df)} 件の文書をベクトル化中... (シングルプロセス)")
    
    # 修正箇所: df.body.apply(f) を使用してシングルプロセスでベクトル化
    vectors_list = df.body.apply(f).tolist()

    print("ベクトル化完了。NumPyファイルに保存中...")

    # リストをNumPy配列に変換して保存
    vectors_array = np.array(vectors_list)
    np.save(QDRANT_NPY, vectors_array, allow_pickle=False)
    
    print(f"\n========================================================")
    print(f"✅ 保存完了: {QDRANT_NPY}")
    print(f"配列の形状 (Shape): {vectors_array.shape}")
    print(f"========================================================")

# 処理の実行
main()

vectors-livedoor-ginza.npy　ができます。

### Qdrantの使い方
### docker pull
$ sudo docker pull qdrant/qdrant
$ sudo docker run -p 6333:6333 \
-v $(pwd)/qdrant_storage:/qdrant/storage \
qdrant/qdrant
_ _
__ _ __| |_ __ __ _ _ __ | |_
/ _` |/ _` | ‘__/ _` | ‘_ \| __|
| (_| | (_| | | | (_| | | | | |_
\__, |\__,_|_| \__,_|_| |_|\__|
|_|

Version: 1.15.4, build: 20db14f8
Access web UI at http://localhost:6333/dashboard

2025-09-27T03:10:37.414937Z INFO storage::content_manager::consensus::persistent: Initializing new raft state at ./storage/raft_state.json
2025-09-27T03:10:37.427278Z INFO qdrant: Distributed mode disabled
2025-09-27T03:10:37.428004Z INFO qdrant: Telemetry reporting enabled, id: 4ab6c13b-1d33-4b1f-ac4a-baff31ff55ad
2025-09-27T03:10:37.460847Z INFO qdrant::actix: TLS disabled for REST API
2025-09-27T03:10:37.463591Z INFO qdrant::actix: Qdrant HTTP listening on 6333
2025-09-27T03:10:37.465943Z INFO actix_server::builder: starting 1 workers
2025-09-27T03:10:37.466167Z INFO actix_server::server: Actix runtime found; starting in Actix runtime
2025-09-27T03:10:37.466216Z INFO actix_server::server: starting service: “actix-web-service-0.0.0.0:6333”, workers: 1, listening on: 0.0.0.0:6333
2025-09-27T03:10:37.467991Z INFO qdrant::tonic: Qdrant gRPC listening on 6334
2025-09-27T03:10:37.468111Z INFO qdrant::tonic: TLS disabled for gRPC API

### SDKインストール
$ pip3 install qdrant-client

### Qdrantの説明
– コレクション: RDBテーブル
– ポイント: RDBレコード　ポイントには、ペイロード(Payload)と呼ばれるメタ情報も一緒に登録できる。メタ情報はフィルター検索に使用する。

### コレクションの作成

from qdrant_client import QdrantClient
from qdrant_client.http.models import VectorParams, Distance 
collection_name = 'livedoor'
qdrant_client = QdrantClient(host='localhost', port=6333)

qdrant_client.recreate_collection(
        collection_name=collection_name,
        vectors_config=VectorParams(size=300, distance=Distance.COSINE) # GiNZAは300次元
    )

### コレクションの確認

from qdrant_client import QdrantClient

# Qdrantクライアントを起動中のDockerコンテナに接続
qdrant_client = QdrantClient(host='localhost', port=6333)

# 存在する全てのコレクション名を取得
collections = qdrant_client.get_collections()
collection_names = [c.name for c in collections.collections]

print("====================================")
print("✅ Qdrantに存在するコレクション:")

if 'livedoor' in collection_names:
    print(f"   [O] 'livedoor' コレクションが見つかりました。")
    
    # 詳細情報の取得でエラーが出るため、シンプルな情報に修正
    collection_info = qdrant_client.get_collection(collection_name='livedoor')
    print(f"   - ステータス: {collection_info.status.value}")
    print(f"   - ポイント数: {collection_info.points_count} (現在は0のはずです)")
else:
    print("   [X] 'livedoor' コレクションは見つかりませんでした。")
    print(f"   現在存在するコレクション: {collection_names}")
print("====================================")

$ python3 check_collection.py
====================================
✅ Qdrantに存在するコレクション:
[O] ‘livedoor’ コレクションが見つかりました。
– ステータス: green
– ポイント数: 0 (現在は0のはずです)
====================================

### upload

import json
import numpy as np
import pandas as pd
from qdrant_client import QdrantClient

# =========================================================================
# 1. 補助関数の定義 (JSONファイルの読み込み用)
# livedoor.jsonには不要なキーが含まれている可能性があるため、
# 必要なキーだけを抽出する目的の関数です。
# =========================================================================
def hook(obj):
    """
    JSONオブジェクトから必要なペイロードデータのみを抽出するフック関数。
    """
    if 'body' in obj:
        # 必要なキー（本文、タイトル、カテゴリ）を抽出して返す
        return {
            "title": obj.get("title", ""),
            "body": obj.get("body", ""),
            "category": obj.get("category", "")
        }
    return obj

# =========================================================================
# 2. メイン処理
# =========================================================================
def main():
    # 接続情報
    collection_name = 'livedoor'
    qdrant_client = QdrantClient(host='localhost', port=6333)

    # データの読み込み
    try:
        # ベクトルデータの読み込み
        vectors = np.load('./vectors-livedoor-ginza.npy')
        
        # JSONファイルの読み込みとペイロードの準備
        print("JSONファイルを読み込んでペイロードを準備中...")
        docs = []
        with open('./livedoor.json', 'r', encoding='utf-8') as fd:
            # 各行（一つのJSONオブジェクト）を読み込み、hook関数で必要なキーを抽出
            for line in fd:
                docs.append(json.loads(line, object_hook=hook))
        
        print(f"✅ 読み込み完了。ベクトル数: {vectors.shape[0]}、文書数: {len(docs)}")

    except FileNotFoundError as e:
        print(f"❌ ファイルが見つかりません: {e.filename}")
        print("ファイル（livedoor.json, vectors-livedoor-ginza.npy）が同じディレクトリにあるか確認してください。")
        return

    # コレクションへのアップロード
    print("Qdrantコレクションにデータをアップロード中...")
    qdrant_client.upload_collection(
        collection_name=collection_name, # コレクション名
        vectors=vectors, # ベクトルデータ (NumPy配列)
        payload=iter(docs), # ペイロードデータ (ジェネレータまたはイテレータ)
        ids=None,  # IDの自動発番
        batch_size=256  # バッチサイズ
    )
    print("✅ データアップロード完了。")
    
    # 最終確認
    collection_info = qdrant_client.get_collection(collection_name='livedoor')
    print(f"最終ポイント数: {collection_info.points_count}")
    
# スクリプトの実行
if __name__ == "__main__":
    main()

$ python3 upload_data.py
JSONファイルを読み込んでペイロードを準備中…
✅ 読み込み完了。ベクトル数: 7367、文書数: 7367
Qdrantコレクションにデータをアップロード中…
✅ データアップロード完了。
最終ポイント数: 7367

$ pip3 install spacy ginza

import numpy as np
import spacy
from qdrant_client import QdrantClient
from qdrant_client.http.models import ScoredPoint

# =========================================================================
# 1. 初期設定とモデルロード
# =========================================================================
# ベクトル化に使用したモデルと同じものをロード
# 以前のステップでインストールが完了していることを前提とします
try:
    nlp: spacy.Language = spacy.load('ja_ginza', exclude=["tagger", "parser", "ner", "lemmatizer", "textcat", "custom"])
    print("✅ GiNZAモデルのロードに成功しました。")
except OSError:
    print("❌ GiNZAモデルが見つかりません。")
    exit() # 処理を中断

# Qdrant接続情報
collection_name = 'livedoor'
qdrant_client = QdrantClient(host='localhost', port=6333)

# 検索クエリ
QUERY_TEXT = "男磨きの動画を見ています"

# =========================================================================
# 2. クエリテキストのベクトル化
# =========================================================================
def get_vector_from_text(text: str) -> np.ndarray:
    """
    GiNZAを使用してテキストをベクトルに変換します。
    """
    doc: spacy.tokens.doc.Doc = nlp(text)
    # GiNZAのdoc.vectorはNumPy配列を返します
    return doc.vector

# =========================================================================
# 3. Qdrantでの検索実行
# =========================================================================
def main():
    print(f"\n========================================================")
    print(f"🔍 検索クエリ: {QUERY_TEXT}")
    print(f"========================================================")

    # クエリテキストをベクトルに変換
    query_vector = get_vector_from_text(QUERY_TEXT)

    # Qdrantで検索を実行
    hits = qdrant_client.search(
        collection_name=collection_name,
        query_vector=query_vector, # ベクトル化したクエリー
        query_filter=None,
        with_payload=True, # レスポンスにペイロードを含める
        limit=5 # 上位5件を取得
    )
    
    # 検索結果の表示
    print("\n[検索結果 - 上位 5件]")
    if not hits:
        print("類似記事は見つかりませんでした。")
        return

    for i, hit in enumerate(hits):
        h: ScoredPoint = hit
        # ペイロードからタイトルと本文を取得
        title = h.payload.get('title', 'N/A')
        body_snippet = h.payload.get('body', 'N/A')[:100] + '...' # 本文は先頭100文字を抜粋
        
        print(f"--- 順位 {i+1} (スコア: {h.score:.4f}) ---")
        print(f"タイトル: {title}")
        print(f"本文抜粋: {body_snippet}")
        
# スクリプトの実行
if __name__ == "__main__":
    main()

import numpy as np
import spacy
from qdrant_client import QdrantClient
from qdrant_client.http.models import ScoredPoint

# =========================================================================
# 1. 初期設定とモデルロード
# =========================================================================
# ベクトル化に使用したモデルと同じものをロード
# 以前のステップでインストールが完了していることを前提とします
try:
    nlp: spacy.Language = spacy.load('ja_ginza', exclude=["tagger", "parser", "ner", "lemmatizer", "textcat", "custom"])
    print("✅ GiNZAモデルのロードに成功しました。")
except OSError:
    print("❌ GiNZAモデルが見つかりません。")
    exit() # 処理を中断

# Qdrant接続情報
collection_name = 'livedoor'
qdrant_client = QdrantClient(host='localhost', port=6333)

# 検索クエリ
QUERY_TEXT = "野球情報が知りたい"

# =========================================================================
# 2. クエリテキストのベクトル化
# =========================================================================
def get_vector_from_text(text: str) -> np.ndarray:
    """
    GiNZAを使用してテキストをベクトルに変換します。
    """
    doc: spacy.tokens.doc.Doc = nlp(text)
    # GiNZAのdoc.vectorはNumPy配列を返します
    return doc.vector

# =========================================================================
# 3. Qdrantでの検索実行
# =========================================================================
def main():
    print(f"\n========================================================")
    print(f"🔍 検索クエリ: {QUERY_TEXT}")
    print(f"========================================================")

    # クエリテキストをベクトルに変換
    query_vector = get_vector_from_text(QUERY_TEXT)

    # Qdrantで検索を実行
    hits = qdrant_client.search(
        collection_name=collection_name,
        query_vector=query_vector, # ベクトル化したクエリー
        query_filter=None,
        with_payload=True, # レスポンスにペイロードを含める
        limit=5 # 上位5件を取得
    )
    
    # 検索結果の表示
    print("\n[検索結果 - 上位 5件]")
    if not hits:
        print("類似記事は見つかりませんでした。")
        return

    for i, hit in enumerate(hits):
        h: ScoredPoint = hit
        # ペイロードからタイトルと本文を取得
        title = h.payload.get('title', 'N/A')
        body_snippet = h.payload.get('body', 'N/A')[:100] + '...' # 本文は先頭100文字を抜粋
        
        print(f"--- 順位 {i+1} (スコア: {h.score:.4f}) ---")
        print(f"タイトル: {title}")
        print(f"本文抜粋: {body_snippet}")
        
# スクリプトの実行
if __name__ == "__main__":
    main()

Qdrantとは何か？

Qdrant公式サイト: https://qdrant.tech/

## Qdrantとは
オープンソースのベクトルデータベース
Rust製
クライアントはPython SDK, REST API, gRPCで接続できる
Qdrant自体は文章をベクトルにする機能はない、ベクトルを比較する機能だけになる

## ベクトル検索
セマンティック検索という方法があり、ドキュメント全体の意味を考慮する
ドキュメントをベクトルで表現することをembeddingという
ベクトルとベクトルを比較することで、ドキュメントの類似性を検証することができる(コサイン類似度, ベクトルとベクトルの類似度の尺度) …
bertなどの事前学習モデルでfine tuneもできるようになってきた
総当たりでベクトルを比較すると計算量が膨大になるため、精度を犠牲にして高速化している

### ベクトル検索の手順
– ベクトルデータの準備 (ニュースコーパス)
– コーパスをディクショナリ登録(json)
– コーパスのベクトル変換(GiNZA)

– Qdrantサーバ起動(docker)
– コレクションの作成
– ドキュメントを登録
– 類似ドキュメントの検索

ベクトルデータの準備とベクトル変換のところが肝になりそう

Pythonで話者分離して、片方の話者の発話を切り抜き

無料のブラウザツールだと、音楽などで、音声とインストラメントを分離することはできるようなのですが、二人が喋っていて、片方の音声に分離することができなかったので、Pythonで実行します。

前準備として、以下の手配が必要
1) ffmpeg, pyannote.audio のインストール
2) Hugging Faceでのaccess token発行(read)およびモデル利用のaccept
3) Hugging Faceでのaccess tokenをコードのHUGGINGFACE_TOKENに埋め込み
4) python3 speaker_separation.py の実行

import subprocess
from pyannote.audio import Pipeline
from pydub import AudioSegment
import os
from collections import defaultdict

# ===== 設定 =====
mp4_file = "video.mp4"
wav_file = "conversation.wav"
output_file = "main_speaker_only.wav"

HUGGINGFACE_TOKEN = "****"  # Hugging Face token

# ===== WAV変換 =====
if os.path.exists(wav_file):
    os.remove(wav_file)

subprocess.run([
    "ffmpeg", "-y", "-i", mp4_file,
    "-vn", "-acodec", "pcm_s16le", "-ar", "16000", "-ac", "1",
    wav_file
], check=True)

# ===== 話者分離 =====
pipeline = Pipeline.from_pretrained(
    "pyannote/speaker-diarization-3.1",
    use_auth_token=HUGGINGFACE_TOKEN
)

diarization = pipeline(wav_file)

# ===== 各話者の合計発話時間を計算 =====
speaker_durations = defaultdict(float)
for turn, _, speaker in diarization.itertracks(yield_label=True):
    speaker_durations[speaker] += turn.end - turn.start

# 発話時間が最も長い話者を自動選択
target_speaker = max(speaker_durations, key=speaker_durations.get)
print("選択された話者:", target_speaker)

# ===== その話者だけ抽出 =====
audio = AudioSegment.from_wav(wav_file)
speaker_segments = [
    audio[int(turn.start * 1000): int(turn.end * 1000)]
    for turn, _, speaker in diarization.itertracks(yield_label=True)
    if speaker == target_speaker
]

if speaker_segments:
    speaker_audio = sum(speaker_segments)
    speaker_audio.export(output_file, format="wav")
    print(f"✅ 保存しました: {output_file}")
else:
    print("⚠️ 対象話者の音声が見つかりませんでした")

Difyの短期メモリ

Difyのチャットフローでメモリをオフにした場合、プレビューで入力された「こんにちは」は常に新しい会話セッションとして扱われます。

具体的には
メモリON
過去のやり取り（今回のセッション内の履歴）を保持
LLMは前回の「こんにちは」を覚えているので、「再度のこんにちは、どうした」など、文脈を踏まえた応答になる

メモリOFF
そのノードは前のやり取りを無視
「こんにちは」と入力しても、毎回初対面の会話のように扱われ、文脈に依存しない応答になる
つまり、オフにすると「毎回初めて会話する状態」と考えればOK

なるほど