PRML 1章後半
今日の輪講の担当はオレでした
信じられない読み間違いもあり(デルタをさんかk(ry))規定時間もオーバーしたりでダメでした
次元の呪い
実データは高次元において低い次元に限定されることが多いらしく、イメージとしては特定の次元に集まっているということなのだが、本当にそうなのかは結局のところ分からないので、カーネルを使う場合には最良のものを探すために色々試さなければいけないらしい
決定理論
「わかりやすいパターン認識」でもこの手の話はたくさんされていたのだが、何故これを考えなくてはならないのかという基本的なことを考えていなかった
サポートベクターとか単に識別を行うだけなら、事後確率とか損失とかそんな話は必要なく、単に空間にズバッと線(面)を引けばいい話
でも実際の世の中では、線(面)を引ければよいでは済まされない問題も数多くある
例えば「ここからは得をして、ここからは損失をする」という境界線が分かったとしても、そのためのリスクがどれくらい〜とか、いくら儲けるのはどのくらいの可能性が〜というとき
こういう場合には「確率」を考えなければならないので、こういう確率的推論の概念が必要になるのだという
推論のアプローチとしては主に3つ
- 入力と出力、療法の分布をモデル化して決定理論に向かう
- 出力の分布をモデル化して決定理論に向かう
- モデルを考慮せず識別関数を求める
最初の入力モデルを求めることに関して、事前に入力の確率分布が分かって(推定)できれば、ベイズの定理を使うことができる
一方でベイズの定理を用いると、積分の計算が非常に大変なので実用的ではなかった
しかし近年、安価で高性能な計算機を入手できるようになり、上記の問題点をクリアすることができるようになったので、ベイズのアプローチが再び注目され出してきた(*syouくんのコメントにより修正*)
最近ベイジアンネットワークやノンパラベイズが熱いのはそういう背景があるからのようです
ちなみにしましまさん曰く「ベイズ系の方法は,複雑なモデルで,比較的少数のデータから学習するような場合に威力を発揮します」だそうです
二乗すること
たとえば二乗誤差ではマイナスを消すために二乗しているが、絶対値とってはダメなの?という意見がある
これに関して、符号を消すこと以外に二乗することによって絶対値を大きくすることができるので、予測が大きく外れることを防ぐためにも便利であるらしい