機械学習の予想値と正解のずれを測る
学習データから一部のデータをテストデータとして取り分けておく
テストデータにモデルを適用した場合の精度を評価する
ハイパーパラメータの調整も視野に入れる
「学習用」「検証用」「テスト用」の3つに分割する
分類・・・どれくらいラベルが正しく識別できたか、Accuracy
回帰・・・正解の値と予想の値のズレがどれくらい少ないか、RMSE(Root Mean Squared Error) 予想値が実測値から平均してどれくらいズレているか、RMAE(Root Mean Absolute Error)
正解がわかっているデータ → テスト用データ、学習用データ → 学習済みモデルの適用 → 識別、予測精度
過学習
→ 過学習が起きた時は、ハイパーパラメータを調整する
精度が落ちてきた場合
→ データの追加(データ追加、説明変数変更など)、前処理の調整(異常値処理)、モデルの調整(単純なモデルより複雑なモデルの方が精度が向上する)