January 2026 – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

Blender 初心者〜キャラモデリング

—
## 1. 最初に覚えるべき「3大操作」

まずはツールをいじる前に、これだけは体に叩き込みましょう。

* **G (Grab):** 移動
* **S (Scale):** 拡大縮小
* **R (Rotate):** 回転
* **左クリック:** 決定 / **右クリック:** キャンセル

> **💡 ポイント:** モデリング中は「編集モード（Tabキー）」と「オブジェクトモード」を頻繁に行き来します。形を変えるのは**編集モード**です。

—

## 2. キャラクター制作のステップ

キャラクター制作は、大きく分けて以下のフローで進みます。

### ① 下絵（リファレンス）の配置

正面と横顔のイラストを背景に置きます。これがないと、立体にした時にバランスが崩壊します。

### ② ブロッキング（素体作り）

いきなり細部を作らず、立方体や円柱を並べて「だるま」を作るイメージで体型を決めます。

### ③ モデリング手法の選択

初心者が進みやすい道は2つあります。

* **ポリゴンモデリング:** 点・辺・面を動かして作る（カッチリした造形向き）。
* **スカルプト:** 粘土をこねるように作る（筋肉や有機的な造形向き）。
* *おすすめ:* 最初はポリゴンモデリングで、**「ミラー」モディファイア**（左右対称にする機能）を使いながら進めるのが効率的です。

### ④ モディファイアの活用

初心者の味方、**「サブディビジョンサーフェス」**を使いましょう。カクカクのモデルを滑らかにしてくれます。

—

## 3. 初心者がハマりやすい「3つの落とし穴」

1. **ポリゴンを増やしすぎる:**
最初から細かく分割すると、修正が地獄になります。まずは「これ以上この形は表現できない」という最小限のポリゴン数で進めましょう。
2. **トポロジー（面の流れ）を無視する:**
特に関節や顔は、動かした時に自然に曲がるような「面の流れ」が必要です。
3. **「マージ」忘れ:**
左右対称で作っているとき、真ん中の境目がパカッと割れてしまうことがあります。「マージ」にチェックを入れるのを忘れずに。

—

## 4. 学習に役立つキーワード

YouTubeなどで検索する際は、以下のワードを組み合わせると良質なチュートリアルが見つかります。

* **「Blender キャラクター講座」**（日本語なら「ワニでもわかる」シリーズなどが有名です）
* **「Blender Low Poly Character」**（ローポリゴンは構造がわかりやすく、挫折しにくいです）

UXデザインの教科書　要約

安藤昌也氏の著書『UXデザインの教科書』は、UX（ユーザーエクスペリエンス）デザインを単なる「画面の使い勝手」ではなく、「ユーザーの体験を組織的に設計するための学問・技術」として体系立てて解説した、まさにバイブル的な一冊です。

—

## 1. UXデザインの定義と「期間」の概念

本書の最大の特徴は、UXを時間軸で捉える「UXの期間モデル」を提示している点です。

* **予期的UX：** 利用する前の期待感。
* **一時的UX：** 利用している瞬間の体験。
* **エピソード的UX：** 利用した直後の振り返りや満足度。
* **累積的UX：** 長期間利用し続けた結果、生活の一部になるような愛着。

> **ポイント:** 優れたUXデザインとは、一瞬の「使いやすさ」だけでなく、使う前のワクワクから使い終わった後の思い出までを設計することです。

—

## 2. 人間中心設計（HCD）のプロセス

UXデザインを実践するための標準的な枠組みとして、**HCD（人間中心設計）**のサイクルを回すことの重要性を説いています。

1. **利用状況の把握：** ユーザーがどんな場面で、何に困っているかを調査する。
2. **ユーザーニーズの特定：** 調査結果から、ユーザーが本当に求めている価値を抽出する。
3. **設計案の作成：** ニーズを満たすための構造やインターフェースを作る。
4. **設計案の評価：** プロトタイプをユーザーに試してもらい、検証・改善する。

—

## 3. 構造化シナリオ法

本書で具体的に推奨されている手法が**「構造化シナリオ法」**です。いきなり画面を作るのではなく、以下の3つのレベルで段階的に設計を進めます。

* **バリューシナリオ：** ユーザーがその製品を使ってどんな価値（本質的欲求）を得るか。
* **アクティビティシナリオ：** 価値を実現するために、ユーザーがどのような行動をとるか。
* **インタラクションシナリオ：** 具体的にシステムとどうやり取りするか（ボタンを押す、通知が来るなど）。

—

## 4. 本質的ニーズを見抜く

安藤氏は、ユーザーが口にする「〇〇が欲しい」という要望をそのまま鵜呑みにすることを戒めています。

* **「やりたいこと（Do）」**の裏にある**「ありたい姿（Be）」**を探ることが重要。
* フォトエッセイやインタビューなどの**調査手法**を駆使して、ユーザー自身も気づいていない潜在的なインサイトを掘り起こす技術が詳しく解説されています。

—

## まとめ：UXデザインの本質

この本が伝えているのは、**「UXデザインとは、ユーザーの喜びを可視化し、それをビジネスの形に落とし込むための共通言語である」**ということです。
デザイナーだけでなく、エンジニアやマネージャーもこのプロセスを理解することで、チーム全体で一貫した価値を提供できるようになります。

Tacotron2モデルをHugging Faceで実行し音声生成

$ pip3 install torchaudio speechbrain

import torchaudio
from speechbrain.inference.TTS import Tacotron2
from speechbrain.inference.vocoders import HIFIGAN

# 1. モデルの読み込み (Hugging Faceから自動ダウンロード)
# Tacotron2: テキスト -> メルスペクトログラム
tacotron2 = Tacotron2.from_hparams(source="speechbrain/tts-tacotron2-ljspeech", savedir="tmpdir_tts")
# HiFi-GAN: メルスペクトログラム -> 音声波形
hifi_gan = HIFIGAN.from_hparams(source="speechbrain/tts-hifigan-ljspeech", savedir="tmpdir_vocoder")

# 2. テキストからスペクトログラムを生成
text = "Hello, this is a test of Tacotron 2 on Hugging Face."
mel_output, mel_len, alignment = tacotron2.encode_text(text)

# 3. スペクトログラムから音声を生成
waveforms = hifi_gan.decode_batch(mel_output)

# 4. 音声ファイルとして保存
torchaudio.save('output.wav', waveforms.squeeze(1), 22050)

ほう

Process Reward Models (PRMs): AIの推論プロセスを評価する新しいアプローチ

## はじめに

大規模言語モデル(LLM)の性能向上において、単に「正しい答え」を出すだけでなく、「正しい推論プロセス」を経て答えを導き出すことの重要性が高まっています。Process Reward Models (PRMs)は、この課題に対する革新的なアプローチとして注目を集めています。

本記事では、PRMsの基本概念から実用的な応用まで、分かりやすく解説します。

## Process Reward Models (PRMs) とは?

PRMsは、AIモデルが問題を解く**プロセスの各ステップ**を評価する報酬モデルです。最終的な答えの正誤だけでなく、そこに至るまでの推論の各段階が正しいかどうかを判定します。

### 具体例で理解する

数学の問題を例に考えてみましょう:

**問題**: 「りんごが12個あります。3人で等しく分けると、1人あたり何個になりますか?」

**AIの推論プロセス**:
1. ステップ1: 「12個のりんごを3人で分けるので、割り算を使う」 ✓
2. ステップ2: 「12 ÷ 3 = 4」 ✓
3. ステップ3: 「答えは4個」 ✓

PRMsは、**各ステップごとに**正しいかどうかをスコアリングします。

## ORM vs PRM: 何が違うのか?

従来のOutcome Reward Models (ORM)と比較すると、その違いが明確になります。

### ORM (Outcome Reward Model)
– **評価対象**: 最終的な答えのみ
– **スコア**: 答えが正しいか間違っているか
– **問題点**: 途中で間違った推論をしても、偶然正解にたどり着けば高評価

“`
問題: 2 + 3 × 4 = ?

間違った推論:
1. 2 + 3 = 5 ← 間違い(順序を無視)
2. 5 × 4 = 20 ← 間違い(順序を無視)
3. 答え: 14 ← 偶然正解

ORMの評価: 高スコア(答えが正しいため)
“`

### PRM (Process Reward Model)
– **評価対象**: 推論の各ステップ
– **スコア**: 各ステップの正しさを個別に評価
– **利点**: 正しい推論プロセスを学習できる

“`
正しい推論:
1. 掛け算を先に計算: 3 × 4 = 12 ← 正しい ✓
2. 足し算を実行: 2 + 12 = 14 ← 正しい ✓
3. 答え: 14 ← 正しい ✓

PRMの評価: 各ステップが高スコア
“`

## PRMsの主な利点

### 1. エラーの早期発見
推論の途中で誤りがあった場合、そのステップで低いスコアが付けられるため、問題箇所を特定しやすくなります。

### 2. 信頼性の向上
正しいプロセスを経た答えは、偶然の正解よりも信頼できます。

### 3. 説明可能性の向上
どのステップで高/低評価を受けたかが分かるため、AIの判断プロセスがより透明になります。

### 4. 複雑な問題への対応
多段階の推論が必要な問題(数学、プログラミング、論理的推論など)で特に効果的です。

## PRMsの応用分野

### 数学問題の解決
OpenAIの研究では、PRMsを使うことで数学問題の正答率が大幅に向上することが示されています。

“`python
# 疑似コード例: PRMsを使った推論
def solve_with_prm(problem):
steps = generate_reasoning_steps(problem)

for step in steps:
score = prm.evaluate_step(step, context)
if score < threshold: # スコアが低いステップを修正 step = regenerate_step(step, context) return final_answer ``` ### コード生成プログラミングコードの生成においても、各行や各関数が適切かどうかを評価できます。 ### 論理的推論複雑な論理問題や推論タスクにおいて、推論チェーンの各リンクを検証できます。 ## PRMsの訓練方法 PRMsの訓練には、主に以下のアプローチが使われます: ### 1. 人間によるアノテーション人間が推論の各ステップを評価し、そのデータで訓練します。 ``` ステップ: "2と3を先に足す" 人間の評価: ❌ (演算順序が間違っている) ステップ: "3と4を先に掛ける" 人間の評価: ✅ (正しい) ``` ### 2. 自動検証数学問題などでは、各ステップの計算結果を自動的に検証できます。 ### 3. Outcome Supervisionとの組み合わせ最終的な答えの正誤情報も活用しながら、プロセスを評価します。 ## 実装のポイント PRMsを実装する際の重要なポイント: ### ステップの粒度推論を適切な粒度でステップに分割することが重要です。 - 細かすぎる: 訓練データが大量に必要 - 粗すぎる: プロセスの評価が不十分 ### 評価の一貫性人間のアノテーターが異なる評価をしないよう、明確なガイドラインが必要です。 ### スケーラビリティ大規模なデータセットで訓練するため、効率的な実装が求められます。 ## 最新の研究動向 ### OpenAIの研究成果 OpenAIは「Let's Verify Step by Step」という論文で、PRMsがORMsよりも優れた性能を示すことを発表しました。特に数学問題において、PRMsは以下の結果を達成しています: - MATH datasetでの正答率向上 - より信頼性の高い推論プロセス - ベストオブN sampling での性能向上 ### 今後の展望 - **マルチモーダルPRMs**: テキストだけでなく、画像や図表を含む推論の評価 - **自己改善**: PRMsを使ってモデル自身が推論を改善 - **効率化**: より少ないアノテーションデータでの訓練方法 ## まとめ Process Reward Models (PRMs)は、AIの推論品質を根本的に向上させる技術です。主なポイントをまとめます: - **プロセス重視**: 答えだけでなく、推論の各ステップを評価 - **信頼性向上**: 正しいプロセスを経た答えはより信頼できる - **応用範囲**: 数学、コード生成、論理的推論など幅広い分野で有効 - **今後の発展**: さらなる性能向上と応用拡大が期待される PRMsは、より信頼できる、説明可能なAIシステムの構築に向けた重要な一歩と言えるでしょう。 ## 参考文献 - OpenAI: "Let's Verify Step by Step" - [Process Reward Modelsに関する最新の研究論文] - [RLHFとPRMsの関係に関する文献]

Geminiのコンテキストキャッシュ

Geminiコンテキストキャッシュは、繰り返し使用する入力トークンを保存して再利用できる機能 Google AIです。GoogleがGemini APIで提供している機能で、コストと遅延の削減を目的としています。

## 主な特徴
2つのタイプ
### 暗黙的キャッシュ（Implicit caching）: 自動的に有効化され、キャッシュヒットが発生すると自動的にコスト削減が提供される Google機能で、2025年5月から利用可能になりました
### 明示的キャッシュ（Explicit caching）: 開発者が手動でキャッシュを作成・管理する方法で、より細かい制御が可能

コスト削減効果
Gemini 2.5以降のモデルでは、キャッシュされたトークンに対して通常の入力トークンコストの10%のみを支払う Google Cloud仕組みです。

使用例
– 長い動画やドキュメントに対して複数の質問をする場合
– 大量のシステムプロンプトを繰り返し使用する場合
– チャットボットで製品情報や詳細なペルソナ設定を維持する場合
– 大規模なコードベースを分析する場合

制限事項
– デフォルトの有効期限（TTL）は1時間 Google AI
– モデルごとに最小トークン数の要件がある
– キャッシュされたコンテンツはプロンプトのプレフィックスとして機能

この機能により、同じ大量のコンテキスト情報を何度も送信する必要がなくなり、APIの使用がより効率的で経済的になります。

$ pip3 install google-generativeai

import google.generativeai as genai
import os
from dotenv import load_dotenv
load_dotenv()

# 設定
genai.configure(api_key=os.environ.get("GEMINI_API_KEY"))

# モデルを直接初期化（キャッシュなし）
model = genai.GenerativeModel('gemini-2.5-flash')

# 長い文書（毎回送信される）
long_document = """
製品名: スマートウォッチ Pro X

特徴:
- 心拍数モニタリング機能
- GPS内蔵
- 防水性能（50m）
- バッテリー持続時間: 最大7日間
"""

print("📝 通常の方法（キャッシュなし）でGeminiを使用\n")

# 質問1
print("❓ 質問1: バッテリー持続時間は？")
response1 = model.generate_content(
    f"{long_document}\n\nバッテリーは何日持ちますか？"
)
print(f"💬 回答: {response1.text}\n")

# 質問2（毎回long_documentを送信する必要がある）
print("❓ 質問2: 防水性能は？")
response2 = model.generate_content(
    f"{long_document}\n\nこの製品は防水ですか？"
)
print(f"💬 回答: {response2.text}\n")

print("="*60)
print("💡 キャッシュとの違い:")
print("  - キャッシュなし: 毎回long_documentを送信（コスト高）")
print("  - キャッシュあり: 1度だけ送信、以降は再利用（コスト削減）")
print("\n⚠️  無料枠ではキャッシュに厳しい制限があるため、")
print("    実用的にはこちらの方法を使う必要があるかもしれません。")

$ python3 gemini_without_cache.py
📝 通常の方法（キャッシュなし）でGeminiを使用

❓ 質問1: バッテリー持続時間は？
WARNING: All log messages before absl::InitializeLog() is called are written to STDERR
E0000 00:00:1769337671.150316 345042 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.
💬 回答: バッテリーは**最大7日間**持ちます。

❓ 質問2: 防水性能は？
💬 回答: はい、この製品は防水です。

特徴に「防水性能（50m）」と記載されています。

============================================================
💡 キャッシュとの違い:
– キャッシュなし: 毎回long_documentを送信（コスト高）
– キャッシュあり: 1度だけ送信、以降は再利用（コスト削減）

⚠️ 無料枠ではキャッシュに厳しい制限があるため、
実用的にはこちらの方法を使う必要があるかもしれません。

import os
import google.generativeai as genai
from google.generativeai import caching
import datetime
import os

from dotenv import load_dotenv
load_dotenv()

# 設定
genai.configure(api_key=os.environ.get("GEMINI_API_KEY"))

# 1. キャッシュ作成（長い文書を1回だけ保存）
cache = caching.CachedContent.create(
    model="gemini-1.5-flash",  # バージョン番号なし
    contents=["これは長い文書です。" * 1000],  # 繰り返し使うコンテンツ
    ttl=datetime.timedelta(minutes=30),
)

# 2. キャッシュを使ってモデル初期化
model = genai.GenerativeModel.from_cached_content(cache)

# 3. 質問（キャッシュが自動で使われる）
response = model.generate_content("この文書を要約してください")
print(response.text)

# 4. 別の質問（同じキャッシュを再利用 = コスト削減！）
response2 = model.generate_content("文書のキーワードを3つ教えてください")
print(response2.text)

# 5. 削除
cache.delete()

Gemini APIのコンテキストキャッシュ（Context Caching）は、原則として「有料（従量課金制）プラン」のみの機能となっています。

Figma AIを使ってみる

Figma Makeで使うと…

Lovableみたいに自然文でUI Designを作ってくれる

### 生成された後の便利な操作
生成されたデザインをベースに、以下のAI機能を組み合わせできる

– 指示を追加して微調整（Iterate）: 左下の「Ask for changes」という入力欄に、「背景をもっと暗くして」や「ロゴを左上に配置して」と入力すると、今のデザインを維持したまま修正

– プロトタイプを自動で貼る: 「新規登録」などのボタンが配置されているので、別の画面も生成した後にAIメニューから「Make prototype」を実行すれば、ボタンの遷移設定も自動で行える

– レイヤー名の整理: AIが生成した直後はレイヤー名が整っていますが、自分で編集を加えた後はAIメニューの「Rename layers」を使って、常に整理された状態を保つのがおすすめ

Figma Makeによるモックアップ

今のプロの現場では、「AIに80点のワイヤーフレームを30秒で出させ、残りの20点を人間が手書きや微調整で100点に磨き上げる」という使い方がされている

なるほど~

[Design] ニールセンの10のヒューリスティックステスト

チェック項目を作成して、WFの段階できんちんと1枚ずつ確認していく

システム状態の視認性
L システムが今何をしているか、ユーザーに常にフィードバックを返すこと（例：アップロード中のプログレスバー）。
システムと実世界の一致
L 専門用語ではなく、ユーザーが使い慣れた言葉や概念を使うこと（例：削除ボタンにゴミ箱のアイコンを使う）。
ユーザーの制御権と自由
L 間違えて操作したときに、すぐにやり直したりキャンセルしたりできる「非常口」を用意すること。
一貫性と標準
L 同じ製品内や業界の標準で、言葉や操作の一貫性を保つこと（例：リンクは青色にする、など）。
エラーの防止
L エラーメッセージを出す前に、そもそもエラーが起きないような設計にすること（例：削除前に確認ダイアログを出す）。
想起（記憶）よりも再認
L ユーザーに何かを覚えさせなくても、見れば操作がわかるようにすること。
柔軟性と効率性
L 初心者には分かりやすく、上級者にはショートカットなどの効率的な手段を提供すること。
美学的で最小限のデザイン
L 不要な情報は、本当に必要な情報の邪魔をしないように削ぎ落とすこと。
ユーザーによるエラーの認識・診断・回復のサポート
L エラーが起きた際、何が問題でどう解決すればいいかを平易な言葉で伝えること。
ヘルプとドキュメント

[TTS] Mel-spectrogram出力 → vocoder変換のサンプル

「波形への復元」には、数学的な近似アルゴリズムである Griffin-Lim法を使う

import librosa
import numpy as np
import soundfile as sf

# 1. アップロードされたファイルの読み込み
# path は実行環境に合わせて調整してください（通常はカレントディレクトリ）
file_path = 'speech.mp3' 
y, sr = librosa.load(file_path, sr=None) # sr=None で元のサンプリングレートを維持

# 2. Mel-spectrogram への変換
S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)
S_dB = librosa.power_to_db(S, ref=np.max)

# 3. 復元 (Griffin-Lim)
S_inv = librosa.db_to_power(S_dB)
y_inv = librosa.feature.inverse.mel_to_audio(S_inv, sr=sr)

# 4. 保存
sf.write('output_speech.wav', y_inv, sr)
print(f"'{file_path}' の処理が完了し、'output_speech.wav' として保存しました。")

元

output

Mel-spectrogramとは？: 音の強さを「時間」と「周波数」の2軸で表したものですが、周波数軸を人間の耳の特性に近いメル尺度に変換したものです。

Vocoder（ボコーダー）の役割: スペクトログラムから音声を復元する際、元の波形が持っていた「位相（Phase）」の情報が失われています。このサンプルで使った mel_to_audio（Griffin-Lim）は、その位相を推測して補完する簡易的なボコーダーの役割を果たしています。

より高品質にするには: 実用的なAI（TTSや声質変換）では、Griffin-Limの代わりに HiFi-GAN や BigVGAN といったディープラーニングベースのボコーダーを使って、より肉声に近い高品質な復元を行います。

位相推論に限界があるということですね。