Skip to content

ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

随机应变 ABCD: Always Be Coding and … : хороший

MDP and Costs

R(s) -> +100, -100, -3
E[∞Σt=0 γtRt] -> max

value iteration
V(a3, E) = 0.8×100 -3 = 77
V(s) <- [max aγΣs'P(s'(s,a)V(s'))]+ R(s) back-up theorem convercet

Author blogPosted on 2017年3月1日2017年3月1日Categories Artificial Intelligence

Post navigation

Previous Previous post: Planning under uncertainty

Next Next post: Reinforcement Learning

Search for:

Recent Posts 🐎

デザインガイドライン/デザインシステムの記入項目
[VideoGen] Runwayでビデオを生成する
[Figma] UI kit
[Jupyter Notebook] 「入力テキスト→波形生成」
[dify]mem0を使った開始ノード → LLM → 変数 → 出力の基本フロー

Author 🤩

hpscript
Rust, C++, C, Python Go PHP Javascript Java Swift Flutter

Contact form

スクラッチの受託開発を行なっております🖥 ヒヤリング->設計->デザイン ->実装->インフラ構築->運用まで！ブロックチェーン開発します！
・contact

Categories

初めてのSESフリーランス推奨エージェント😤

レバテックフリーランス

 ギークスジョブ

 ビッグツリーテクノロジー＆コンサルティング

Archives

Links

- CSDN专业开发者社区
- Google AI blog
- torvalds/linux
- Linux Kernel
- apache/httpd

Recommend Books

Popular Post [Top 10🔥]

Pythonで今月、前月、来月、昨年、毎月あたりを取得する
[Laravel8.16.0] 電話と郵便番号のカスタムバリデーション作成
phpで予約システムを作くろう2 予約画面
phpmailerで複数アドレス(配列)にBCCで送信
[Laravel8.16.0] class内でメンバ変数(共通の変数)を使いたい
Android Studioでのapkファイルの開き方
Laravel フォーム・確認画面の「戻る」ボタンの処理実装
Laravel5.7 403エラー forbiddenが出た時
bootstrap5でPC版ヘッダーメニューを右寄せにする
PROPFINDメソッド

ソフトウェアエンジニアの技術ブログ：Software engineer tech blog Proudly powered by WordPress

Posting....