機械学習のモデル構築の用語

識別や予測を行う対象の変数:目的変数
識別や予測を行うための変数:説明変数

予想売り上げ = a x 気温 + b x 湿度 + 定数

機械学習アルゴリズムを適用可能な形式にデータ加工する処理:前処理
モデルの確認:検証

行と列を持つ表形式のデータ:構造化データ
画像、テキスト、音声:非構造化データ

構造化データの「行」:事例
構造化データの「列」:特徴量
構造化データ:データフォーマット

データを前処理で加工して、データフォーマットに直して、モデルを構築。識別、予測結果を評価する。

画像データの場合は、ピクセルのRGBデータを全て処理して行く

画像認識のタスク分類
– 画像分類、物体検出、シーン理解 
→自動運転はシーン理解までやってる?

自然言語処理
→ 形態素分析

音声データ
→ フーリエ変換を用いて、周波数ごとの特徴に変換する
→ MFCC

機械学習は前処理の工数がもっともかかることが多い

機械学習の3つの手法

「教師なし学習」「教師あり学習」「強化学習」の3つに分けられる。「教師」とは正解のこと。

教師あり学習
正解のラベルや数値がわかっているデータを元に学習モデルを構築
ラベルや数値が未知のデータに対して予測や識別を行う
正解データがない場合は人がデータに正解をつける
→ 分類や数値予想など。分類だと、computer visonなどもそうか?

教師なし学習
正解のないデータから共通する特徴を持つグループを見つけたり、データを特徴づける情報を抽出する
→ クラスタリング。グルーピングなど。カテゴライズに使う。

強化学習
多数の繰り返しが必要になるタスクに対して、実際に行動しながら最適な戦略を学習する
→ ゲームのアルゴリズムなど。

強化学習ができれば最強だが。
ビジネス上では教師あり学習を当てはめて行くのがスタンダードっぽいですね。教師あり学習から進めて行くのが良さそうか。。

スーパーコンピュータ

Sequoia (supercomputer)
– IBMが開発
– 速度: 20.13 PFLOPS
– 目的:核兵器、天文学、エネルギー、ヒトゲノム、気候変動

神威・太湖之光(Sunway TaihuLight)
– 江蘇省無錫市の国立スーパーコンピューターセンターにあるスーパーコンピュータ
– 速度:93 PFLOPS ※理論性能:125.4359PFlops

Summit(OLCF-4)
– IBM, NVIDIA, Mellanox Technologies
– 処理速度:200 PFLOPS
– アーキテクチャ: ヘテロジニアス、4,608 ノード、9,216 CPU (POWER9)、27,648 GPU

ヤベーことになってるな。これ。
しかし、なんでこんなに差がついてるんだ。

GPUとTPU

GPU(Graphics Processing Unit)
– コンピュータ処理のうち、画像処理を得意とする処理装置
– NVIDIAが開発
– コアがCPUより多く、数千
– 大量の処理を同時実行が可能
– for文のような単純かつ繰り返し計算に適している
– 画像処理は単純な計算を大量に処理する必要がある為、GPUが適している

TPU(Tensor Processing Unite)
– Googleが自社開発したプロセッサ
– Search, Translate, photoなど
– GCPでCloud TPUを提供している
– TensorFlowを通じて利用
– 8/16ビットの演算器
– メモリへの読み書きを大幅に減らしている

つまり、機械学習ようにカスタマイズされたプロセッサーってことね

Appleが取り組む機械学習

Appleの機械学習

– Siri
– 音楽、アプリ、ニュースのレコメンデーション
– 電池消費の最適化
– 自動運転
– その他AIプロジェクト

非公開が多い。当然か。正しい戦略というか、独特の企業文化。

Facebookが取り組む機械学習

Facebookが取り組む機械学習
→ 運営するSNS上のコンテンツを全て理解することを目標
 L 投稿のレコメンデーション
 L 顔や物体の検知
 L 翻訳
 L フェイクニュースの検知

こうやってみると、Facebookは奇抜さはないが、堅実なイメージだ。

Amazonの機械学習

AWSばかり目が行きますが、amazonで使われている機械学習は?
 L 需要予測
 L 商品検索のランクづけ
 L 商品のレコメンデーションや配置
 L 不正取引の検知
 L 翻訳

その他には、自動飛行ドローンが商品を配達するPrime Air
小売店舗のAmazon Goなど

Prime Airとは?
 垂直離着陸と飛行能力を完備したドローン
 飛行体と人、動物、障害物などを把握するアルゴリズム、解析能力を備える

これ、開発するのに5年くらいかかってる?しかも、配達っていっても、洗濯機、テレビなど大型家電も運べるんだろうか?頭上から落ちてきたら敵わんからな。安全上、問題がありそう。

無人店舗 Amazon Go
ローソンやJRなどがやってる無人店舗、店の中でチャージするんだが、
amazon goは棚の上にカメラがあって、棚から人が商品を取ったらチャージされる仕組みのよう。お店から出て10分くらいたってからチャージ。

機械学習の中でも画像認識はコア技術だな〜
ロジスティック回帰、computer vision、アプリってところか。

hunting planet machine learning

Earth to exoplanet: Hunting for planets with machine learning
https://www.blog.google/technology/ai/hunting-planets-machine-learning/

太陽系外の恒星の周りに存在する惑星を発見する為に機械学習を用いている。
惑星が恒星の前を通る時に明るさが落ち込むパターンを学習して、太陽系外惑星の可能性のある候補を精査している

その他googleの機械学習
– 検索エンジン
– 迷惑メール仕分け
– メール返信の文案
– レコメンデーション
– 翻訳
– 画像認識

人間がやってることほぼ全てに応用できるってことか。

Assisting Pathologists in Detecting Cancer with Deep Learning

Googleが取り組む機械学習の中に、ガンの画像診断がある
https://ai.googleblog.com/2017/03/assisting-pathologists-in-detecting.html

マイクロファージではなく腫瘍を正しく検出する

これは腫瘍でやってるけど、人間の目で判断していることを
deep learningでソリューションを提示できればビジネスになるってことかな。