ベイズ理論
この記事に書かれている事
ベイズ理論について
ベイズ理論ってなに?
ベイズの定理を用いて、事後確率を尤度と事前確率によって表す事で、確率をより柔軟に扱うことが出来る確率論の1つです。
ざっくりと説明すると、事前に得られた情報に基づいてある事象が起こる確率を求めたりする事が出来ます。
よく、「健康状態のチェック表に基いて、その患者が病気であるかどうかの識別問題」や、「メールに記述された単語をチェックして、そのメールが迷惑メールかどうかの識別問題」等が実用例として上げられています。
ベイズの定理
ベイズの定理は次の式で定義されます。
この式にはやなど、見慣れない箇所が有りますね。
一つ一つ説明していきます。
まず、ですが、これは事象の事を指し、はそれぞれ事象A、Bが発生する確率です。
また、は条件付き確率と呼ばれるもので、この式はある事象Aが発生した時に、さらにある事象Bが発生する確率の事を指します。
条件付き確率と同時確率
条件付き確率の話をする時に、最初に疑問に点は「Aが発生した時に、Bが発生する確率」と「AとBが同時に発生する確率」だと思います。
先に述べたように「Aが発生した時にBが発生する確率」は条件付き確率と呼び、
「AとBがが同時に発生する確率」は同時確率と呼びます。
この2つの確率はとても大事な考え方なので、トランプを例に説明します。
スペード、クローバ、ハート、ダイヤの4種それぞれ13枚のトランプについて、
事象Aを「スペードを選択する事」
事象Bを「絵札を選択する事」とします。
この時はそれぞれ
となります。
この時、同時確率は次のようになります。
これは「カードを一枚引いた時に、スペードかつ絵札(J, Q, K)である確率」です。
同時確率は確率の積で求めることが出来ます。これを確率の乗法定理と呼びます。
対し、条件付き確率はは次のようになります。
これは「スペードを選択したと言う前提がある時に、絵札を選択する確率」です。
その為分母は全てのトランプの枚数(=52枚)ではなく、スペードの枚数(=13枚)となります。
ベイズの定理を見なおしてみる
ここでベイズの定理を見なおしてみましょう。
この式はという条件付き確率を、という条件付き確率から求めている事が分かります。
AやBと言う記号だけだとイメージしにくいと思うので迷惑メールフィルターを例に考えてみます。
Aをあるメールから得られるデータとし、(単語ベクトル等)
Bをそのメールが迷惑メールであるという事象とします。
はあるメールが届いた時、そのメールが迷惑メールである確率となります。
そしてその確率は、そのメールが届く確率全てのメールに関して、迷惑メールと識別される確率、迷惑メールと識別された時、そのメールがAである確率で求めることが出来ます。
識別問題においてはを事前確率、を尤度(ゆうど)と呼びます。
この様にベイズの定理を用いると事前に収集したメールのサンプルから、迷惑メールフィルターを作る事が出来ます。