PRML 1章後半 - NEXT LEVEL

今日の輪講の担当はオレでした
信じられない読み間違いもあり（デルタをさんかｋ(ry））規定時間もオーバーしたりでダメでした

次元の呪い

実データは高次元において低い次元に限定されることが多いらしく、イメージとしては特定の次元に集まっているということなのだが、本当にそうなのかは結局のところ分からないので、カーネルを使う場合には最良のものを探すために色々試さなければいけないらしい

決定理論

「わかりやすいパターン認識」でもこの手の話はたくさんされていたのだが、何故これを考えなくてはならないのかという基本的なことを考えていなかった
サポートベクターとか単に識別を行うだけなら、事後確率とか損失とかそんな話は必要なく、単に空間にズバッと線（面）を引けばいい話
でも実際の世の中では、線（面）を引ければよいでは済まされない問題も数多くある
例えば「ここからは得をして、ここからは損失をする」という境界線が分かったとしても、そのためのリスクがどれくらい〜とか、いくら儲けるのはどのくらいの可能性が〜というとき
こういう場合には「確率」を考えなければならないので、こういう確率的推論の概念が必要になるのだという

推論のアプローチとしては主に３つ

入力と出力、療法の分布をモデル化して決定理論に向かう
出力の分布をモデル化して決定理論に向かう
モデルを考慮せず識別関数を求める

最初の入力モデルを求めることに関して、事前に入力の確率分布が分かって（推定）できれば、ベイズの定理を使うことができる
一方でベイズの定理を用いると、積分の計算が非常に大変なので実用的ではなかった
しかし近年、安価で高性能な計算機を入手できるようになり、上記の問題点をクリアすることができるようになったので、ベイズのアプローチが再び注目され出してきた（*syouくんのコメントにより修正*）
最近ベイジアンネットワークやノンパラベイズが熱いのはそういう背景があるからのようです
ちなみにしましまさん曰く「ベイズ系の方法は，複雑なモデルで，比較的少数のデータから学習するような場合に威力を発揮します」だそうです

二乗すること

たとえば二乗誤差ではマイナスを消すために二乗しているが、絶対値とってはダメなの？という意見がある
これに関して、符号を消すこと以外に二乗することによって絶対値を大きくすることができるので、予測が大きく外れることを防ぐためにも便利であるらしい

情報理論

ぶっちゃけよく分からない分野なのだが、何となくイメージができる程度でいいからと言ってくれたので、それに甘えることにする
自分としてはエントロピーは「ある変数が持つ情報量の平均」と覚えておくことにする
そして、分布が非一様である場合よりも一様であるほうが、エントロピーは大きくなる
離散分布においては一様分布のエントロピーが大きい、これは理屈の上でも納得できる
しかし連続変数の場合に、ガウス分布のエントロピーが最大になることは意外である、平均に近いところが起こりやすいわけで、ガウス分布よりもエントロピーが大きい分布は他にもあるような気がするのだが…

ＫＬダイバージェンス

ＫＬダイバージェンスは、２つの分布の隔たりの尺度として解釈できるが、分布の距離を測る尺度としてもＫＬダイバージェンスは有効らしい
あとこれが左右非対称なのは、基準となる分布があって、それを別の分布と比較するために考えられ…た……？なんか言ってたことと違うような気もするが（汗

うちの教授は優しいし説明もわかりやすい上に色々気にかけてくれるので、こちらとしてはとても嬉しい
如何に専門的な知識をわかりやすく簡潔に説明できるか？ということを意識しておられるので、そういう意識を自分も持っていきたいなと思う