識別や予測を行う対象の変数:目的変数
識別や予測を行うための変数:説明変数
予想売り上げ = a x 気温 + b x 湿度 + 定数
機械学習アルゴリズムを適用可能な形式にデータ加工する処理:前処理
モデルの確認:検証
行と列を持つ表形式のデータ:構造化データ
画像、テキスト、音声:非構造化データ
構造化データの「行」:事例
構造化データの「列」:特徴量
構造化データ:データフォーマット
データを前処理で加工して、データフォーマットに直して、モデルを構築。識別、予測結果を評価する。
画像データの場合は、ピクセルのRGBデータを全て処理して行く
画像認識のタスク分類
– 画像分類、物体検出、シーン理解
→自動運転はシーン理解までやってる?
自然言語処理
→ 形態素分析
音声データ
→ フーリエ変換を用いて、周波数ごとの特徴に変換する
→ MFCC
機械学習は前処理の工数がもっともかかることが多い