はじめてのパターン認識(はじパタ) 第2章 2.2.1 解説という名の妄想
はじパタの2章2.2.1で個人的にわかりにくかったところについてお気持ちを解説(妄想)していきます。
やはりはじパタの内容は数学弱者にとって重い。
ちなみに1章の超次元立方体の話は本文で語られているお気持ちだけ理解して、細かい理解はもちろん飛ばしました。
だいぶ妄想なので、合っているかはわかりません。
目次
いきなり出てくる以下の式の期待値が何なのかがすぐに理解できなかった。 本文の説明も理解が難しい。 「は多くの学習データセットを用いて設計し(以下略) 、
は一つの学習データセットを用いて設計し(以下略)」 いや、意味わからんけど(笑) まず、「設計」は、巷で言うところのモデルの訓練(または学習、トレーニング)ということにしておく。もしかしたらモデル選択まで含めているのかもしれないが、まあ訓練ということでいいでしょう。 次に、期待値が一体何なのかについて改めて考えてみたい。 では、はどのような意味なのか。 に関しては、同様に考えると、「一つのデータセット(と表記しないのはなぜだろう?)で識別器を設計し、この識別器を数多くのテストデータセットで測定した誤り率の期待値(≒平均)」ということになるだろうか。 これもまぁ意味が分からない。事前知識無しでこれだけ読んで理解できる人はいるのだろうか。 まず、下の脚注にある の展開がよくわからない。これは単純に数学の勉強不足。テイラー展開だとは思うが、、、。 が成り立つ。 (1)の証明:
x = -nとする。
次に、ブートストラップ法の気持ちを考えてみたい。 なので以下で気持ちを妄想していく。 バイアスの理論値(真の誤り率-再代入誤り率): バイアスの推定値: バイアスの推定値の平均: バイアスの理論値と推定値を比較してみると、をと同じものとみなしているお気持ちが見えてくる。もちろんはとは違うものなので、その差異を抑えるために、N回抽出する作業を何回も行って複数のを得て、その平均を取るのだろう。 もとのデータセットNが例えば無限大のデータ数だとするとこれは真の分布となり、Nから無限回データを復元抽出してその抽出データで算出する誤り率は真の誤り率と同じである(同じだよね?)。ブートストラップ法はNが大きいことを仮定しないといけなそうだ。 一方のだが、真のバイアスの方と比較すると、と を同一視しているように見えてくる。から抽出したものなのだからはと同じとみなすということなのだろうか。2.2.1 学習データとテストデータの作り方
(1)ホールドアウト法
わからないが、わからないなりに以下で妄想してみる。
個人的には、期待値は(標本)平均と似たものだと思っている。大数の法則から、(標本)平均は期待値E[X]に確率収束する。取ってきた標本(データ)の数が多いと、標本平均はE[X]にほぼ等しい。
とある一つのデータセットが得られたとする。このデータセットで識別器を設計し、同じデータセットでテストをし、誤り率を測定する。これをN回行う。つまり、N回新たなデータセットを得て、その度ごとにそのデータセットでテストをし、誤り率を測定する。このN回で得た誤り率の平均は、に確率収束する。この場合、の期待値の計算で使う確率密度関数はの確率密度関数である、ということでいいのだろうか。計量経済学をテキスト使いながら学んでいた時にも思ったことだが、期待値に関して曖昧な説明しかしないせいで、この期待値は一体何なんだとなることが多くてイライラする。この手のテキストはいちいち天才を想定しすぎなんだよな。
また、「は多くの学習データセットを用いて設計し」の「多くの」というのは、多くので期待値(平均)を取るということなのだろう。たぶん。
合ってるかは全くわからん(笑)。(4)ブートストラップ法
ブートストラップ法については他の本でちゃんと勉強しないといけないんだろうな。
以下でまた妄想を展開していく。数式の展開
代わりに、以下のように考えると同じ結果が得られるので、別解を紹介する。
(ここを参考にしました:
ネピア数eに関連したいろいろな数列の極限値を求めてみよう - 身勝手な主張
)
ブートストラップ法の気持ち
なにをやっているのかは本文を読めば分かるのだが、なぜそれをバイアスの推定値として使うのかが全く説明されておらず、ちんぷんかんぷんである。
まず、整理をしてみる。