機械学習の基礎知識を5分で復習するノート

学習の種類

学習方法によって4種類ある

  • 教師あり学習
    • パターンと正解ラベルの組からなるデータセットから、入出力の対応関係(=関数)をつくる
  • 教師なし学習
    • ラベルデータのないデータセットから、内在する構造を捉えてモデル化をすること
  • 教師あり学習
    • 正解ラベルあり/なしが混在したデータセットから、入出力の対応関係を構成すること
  • 強化学習
    • ある環境下で、報酬がもっとも高くなる環境と行動との関係(=policy)を学習する
    • 学習時に明示的な入出力のペアが与えられない点で教師あり学習と異なる

分類と回帰

教師あり学習で)出力によって分類タスクと回帰タスクがある

x: 独立変数, y: 目的変数として、

  • 回帰 regression

    • yが連続である(実数値をとる)
    • xが1次元なら単回帰、2次元以上なら重回帰
    • 例) 国民の所得から経済全体の消費を推定
  • 分類 classification

    • yが有限個の離散カテゴリ
    • eg) 画像を入力して、画像に映っている動物の種類を推定

特徴抽出と特徴ベクトル

特徴ベクトルを使って情報を数値で表現する

  • 特徴抽出 feature extraction
    • 多くの情報を持ったパターンから、認識に本質的な情報を抽出すること
    • パターンを圧縮した効率のよい空間の点
  • 特徴ベクトル feature vector
    • それぞれの特徴を数値で表現し、それらを組としたベクトルのこと
    • eg) 文字認識の場合、特徴量として線の傾き、長さ、曲率など
  • 特徴空間 feature space
    • 特徴ベクトルによってよって貼られる空間のこと
    • つまり、1つのパターンはd次元の特徴空間の1点として表現される

決定境界と決定領域

(分類タスクで)特徴空間上に決定境界を引いて分類する

  • 決定境界 decision boundary
    • クラス間を分離する境界
  • 決定領域 decision region
    • クラスラベルの付与された分割された領域

汎化 generalization

(学習において)学習データに含まれないパターンのクラスを予測すること

  • 汎化性能
    • 学習データに含まれないパターンのクラスを予測する能力のこと
  • 過学習
    • 未学習の問いに対して正しく答えを出力できなくなる現象

識別器の例

最近傍法 nearest neighbor method

  • 入力パターンと学習パターンとの距離を計算し,最も近いパターンが属するカテゴリを入力パターンのカテゴリと判断

k近傍法 k-nearest neighbor method

アルゴリズム

  1. 入力パターンと全ての学習パターンとの距離を計算する
  2. 距離の昇順に学習パターンをソートする
  3. ソートした学習パターンの上位k個を取り上げ、最も出現回数の多いカテゴリを出力する

メリットとデメリット

  • メリット
    • 単純であり実装が容易
    • 学習パターンが少なくても安定して動作する
  • デメリット
    • 距離関数により結果が異なる
    • 学習データが増えると計算コストが増大する

教師あり学習の評価方法

Predicted/True Positive Negative
Positive TP FP
Negative FN TN
  • 正解率 accuracy

    • \frac{TP+TN}{TP+FP+FN+TN}
    • 予測結果が正答だった割合
      • ふつうに解答を丸付けしているのと同等
  • 再現率 recall

    • \frac{TP}{TP+FN}
    • Positiveな例を正答できた割合
      • すべての予測をPositiveにすれば再現率100%
  • 精度 precision

    • \frac{TP}{TP+FP}
    • Positiveと判定して本当にPositiveだった割合
  • F値 f-measure

    • \frac{2×precision×recall}{precision+recall}
    • 精度と再現率はトレードオフになるため、両方を統合した指標
      • 再現率と精度の調和平均

ROCとAUC

TPRとFPR

  • TPR = \frac{TP}{TP+FN}
    • Positiveな例に対する再現率
  • FPR = \frac{FP}{FP+TN}
    • Negativeな例に対する再現率

ROC CurveとAUC Curve

  • ROC (Receiver Operating Characteristic)
    • FPRを横軸、TPRを縦軸にとった曲線
  • AUC (Area Under Curve)
    • ROC曲線の下部の面積
      • 1.0に近いほど評価が高い

以下の記事がわかりやすいので参照のこと: https://takuti.me/note/auc/

ハイパーパラメータ

  • ハイパーパラメータ hyper parameter
    • 学習に先立って決定すべきパラメータ
    • eg) k近傍法のk, ニューラルネットの中間層の数, ユニット数など
  • モデル選択 model selection
    • 学習データへの適合度を最小化するのでなく、予測誤差を推定し、推定された予測誤差を最小化する方法をとる

交差検証法

  1. ハイパーパラメータλをある値に設定
  2. 学習データχをm個のグループに分割
  3. ひとつのグループを除いたパターンで学習し、そのグループで推定して誤識別率ei^λを計算
  4. 全ての分割で行い、誤識別率の平均e^λを計算
  5. 様々なλを用いてe^λを推定し、最小のe^λをとったλをハイパーパラメータとして決定