Reinforcement Learning – ソフトウェアエンジニアの技術ブログ：Software engineer tech blog

supervised (x1, y1)(x2, y2) … y = f(x)
unsupervised x1, x2, … P(X = x)
Reinforcement s,a,s,a..

sur
speech recognition
star data
lever pressig

MDP Review – Markov Decision Processes
s E S
a E Actions(s)