頻度主義統計学 vs ベイズ統計学 どちらを使うべき?

統計を用いるにあたり、頻度主義統計学とベイズ統計学のどちらを選択するかについては、学術界における最も議論が収束していない問題の一つと言えます。

統計的推測は、それから抽出されたデータを用いて、母集団のパラメータについて判断を下すプロセスを意味しますが、頻度主義に基づいた推測は、事象が頻度に基づいていると仮定します。一方、ベイズ推測は「事前知識」に基づき推定を行います。

この違いにより、研究において頻度主義統計学とベイズ統計学のどちらが最適なのか、あるいは比較すること自体可能であるのかどうかについては特に議論が続けられてきました。

この記事では、頻度主義統計学とベイズ統計学のアプローチがそれぞれ何を意味するのか、どちらを分析に採用するべきかを判断する上で役立つよう、詳しく解説していきます。

この記事で解説する点:

  • 頻度主義統計学・ベイズ統計学とは何か
  • 研究データの分析における頻度主義統計学とベイズ統計学の長所と短所
  • p値を用いたアプローチが、仮説の支持や反証に十分なエビデンスを提供できない理由
  • データ分析において厳密に頻度主義またはベイズ主義を採用する理由があるか否か
  • 統計的方法論と結果に関して専門家の指導を得るには

頻度主義統計学とは何か?

歴史的な背景

研究においてp値や信頼区間を用いて結果に関する有意性検定を行っているのであれば、その研究は頻度主義統計学を使用しています。現在は多くの研究がこの頻度主義統計学のアプローチに依拠しています。

統計学は、数学者であり統計学者でもあるロナルド・フィッシャー、ジェジー・ネイマン、エゴン・ピアソンによって20世紀初頭に開発されました。統計学が登場する以前までは、研究者たちは確率という概念を用いていました。フィッシャーは、農業実験の結果をより良く分析するために1919年に分散分析(ANOVA)を開発したことで知られています。その後、1933年にネイマンとピアソンが統計的仮説検定を作り出しました。

これらの概念は頻度主義統計学の中心となり、今日ではほとんどの学問分野で標準的な分析手法となっています。そして頻度主義統計学は、統計学の入門として教えられるアプローチでもあります。

頻度主義の視点

頻度主義統計学は、ある事象(例えば関心のある仮説)が起きるかどうかを検証する統計的推測の一種です。頻度主義者は確率をある事象が何度起きるかという「頻度」として扱います。これらはパイチャートやヒストグラム、以下の図などの頻度グラフにより表現することができます。

Blog Photo

出典: Brigban, CC0, via Wikimedia Commons

頻度主義統計学は、確率は無限に繰り返される試行の結果に依存すると考えます。したがって、もしコインを無限回投げて半分の回数で表が出るなら、表(あるいは裏)が出る確率は50%となります。

ただし、実際には、これは停止基準 (stopping criterion)を持って行われます。つまり、コインを投げるのは例えば2,000回まで、または表が200回出るまでというように基準を設けることとなります。実務的には、研究分野において必要または適切な回数を基準として実験を繰り返すことになります。

頻度主義に基づいた推測においては、母集団から推定しようとするパラメータ(例えば、平均値)は固定されていると仮定されます。ここでは推定しようとする単一の真のパラメータが存在すると仮定し、パラメータは確率分布としてモデル化されないのです。

そして、実験によって得られるランダムなデータポイントは、母集団のパラメータを推定するのに使用されます。この推定を用いて、データに関する確率計算を行います。

例えば、ある母集団の身長をパラメータとして推定しようとし、平均身長は170cmであるという仮説を立てているとします。その際、この170cmは真の値として考えられます。その上で、データ(例えば、母集団内の75人の身長)を取得し、これらを用いて統計的検定を行います。

頻度主義の使用する主な検定

頻度主義統計学において行われる主要な計算の一つがp値の算出です。p値は、仮説を検証するために使用される統計的な測定値であり、帰無仮説が真であると仮定した場合に、実験によって得た結果と同等またはそれ以上に極端な結果を得る確率を表します。

Blog Photo

p値グラフ(出典:Repapetilto / CC-BY-SA-3.0)

p値の計算方法は、t検定やANOVA(分散分析)など研究で使用する検定によって異なります。各検定には基礎となる確率分布が存在し、p値はこれらの分布に基づいて計算されます。例えば、カイ二乗検定を行った場合、p値はカイ二乗分布に基づいて計算され、t分布から得られるp値とは異なるものになります。しかし、検定法が異なっていても仮説を検証する方法としてのp値の解釈は同じです。

実務的には、事前に有意水準が設定され、帰無仮説を棄却するためにp値がどの程度小さくなければならないかを示すことで仮説検定を行います。この有意水準は、学問分野やジャーナルによって異なります。p値の標準的な有意水準は、多くの研究領域でp<0.05(帰無仮説が正しい場合、その結果が5%未満の頻度で発生する)と設定されています。しかし、一部のジャーナルではより高い有意性を求め、p<0.01で設定された有意水準の研究のみを受け入れています。(p値の使用に関する実用的なアイデアについては、Sorkinらの記事で解説しています)

例えば、p=0.07を得た場合、その結果は帰無仮説のもとでは十分に起こり得るとして、帰無仮説を棄却しないことを意味します。

一方で、p=0.02を得た場合は、その結果は帰無仮説のもとではあまりにも起こり得ないことを意味します。その場合、帰無仮説を棄却し、対立仮説を採用します。この一連のプロセスは有意性検定と呼ばれます。

例えば、帰無仮説が「運動は記憶に影響を与えない」、対立仮説は「運動は記憶力を向上させる」であるとします。これらの仮説を検証するために、あるグループの参加者に単語のリストを学習させた後に運動させ、もう一つのグループに同じリストの単語を学習させた後に運動させないという実験を行います。両グループには、学習した単語に関する認識タスクを実施させ、その結果を比較します。その結果、p=0.07を得られたとしたら、ここでは運動が記憶力に統計学的に有意な影響を与えないと仮定する帰無仮説が採用されます。

一方で、ある研究では、若年成人における睡眠の欠如により連想記憶力を低下させることが発見されたとします。実験の参加者は一晩睡眠を取らず、その後に記憶に関するタスクを行いました。その結果、睡眠欠如後の記憶スコアに対して統計的に有意なp値0.004が算出されました。この結果は、帰無仮説が真である場合にこの結果が得られる確率が0.4%であることを意味します。したがって、帰無仮説(すなわち、睡眠が記憶に影響を与えない)は棄却され、睡眠欠如が何らかの形で記憶に影響を与えると考えることができます。

重要なのは、p値は帰無仮説のもとでのある結果の尤もらしさ(あるいは起こりやすさ)のみを測定するものであるということであり、対立仮説に関する情報は一切含まれていないということです。つまり、棄却された帰無仮説のもとではあまり起こり得ない結果が、採用した対立仮説のもとでもほぼ同じくらい起こり得ない可能性があるのです。そのため、研究において根拠のない結論を導いてしまう恐れがあります。pハッキングはそのようなp値の不適切な使用方法の一つと言えるでしょう。

有意性検定では、p値の周りの信頼区間も計算します。頻度主義の信頼区間は、もし実験を再度行った場合、結果がその範囲内にあるという確信をどれだけ持っているかを表すものです。信頼区間は、任意のパーセンテージを設定できますが、ほとんどの研究分野では通常95%に設定されています。95%信頼区間は、もし再度研究を行った場合、95%の確率で結果がその範囲内に入ることを意味します。

頻度主義統計学の長所と短所

頻度主義統計学の主な利点は、使用や解釈が「容易」であるため、多くの分野で標準となっているというユーザーフレンドリーさにあると言えます。しかし、頻度主義統計学は確率ではなく点推定に基づいており、実験の試行回数に依存している点が短所です。また、頻度主義に基づいて得られたp値は、帰無仮説に関する情報のみしか提供することができない点も短所と言えるでしょう。

頻度主義統計学の長所

  • データの種類ごとに特定の検定がある
  • データに関する予備知識が必要ない
  • ほとんどの医学・研究分野での標準となっている
  • 解釈が容易である
  • 計算が容易である

頻度主義統計学の短所

  • 厳格なフレームワークが必要である
  • 質問に対する「はい」か「いいえ」の答えと点推定しか得られない
  • 結果は試行回数に依存する
  • 実験計画を事前に指定しなければならない
  • p値は対立仮説の情報を提供することができず、帰無仮説の尤もらしさを計算するだけである

ベイズ統計学とは何か?

歴史的な背景

統計的推論におけるベイズアプローチは、頻出主義に対抗する統計学的アプローチです。事前確率と事後確率の概念や「それはあなたが確信しているものである(it is what you believe it is)」というフレーズがベイズアプローチの肝となります。

ベイズ統計学は、18世紀のイギリスの統計学者であり、哲学者であり、牧師でもあるトーマス・ベイズによって開発されました。ベイズは確率理論に興味を持ち、1700年代半ばにベイズ統計学の数学的基礎となるエッセイを執筆しました。

しかし、ベイズ統計学の多くは、1950年頃までほとんど注目されていませんでした。転機となったのは、コンピュータの登場です。高い計算能力を持つ機械を使用することで、複雑な計算を必要とするベイズ統計学の使用が容易になったのです。

ベイズ統計学の視点:ベイズの定理とは何か?

ベイズ統計学の世界は、ベイズの定理を基礎としています。以下は、ある事象が発生する確率を、その事象に関連する条件の事前知識に基づいて考える数式です。この公式は、新しい信念を得るために、現在の信念をどのようにデータで更新すべきかを教えてくれます。ベイズの定理は以下のように示されます:

Blog Photo

ここで、P(A)はAが発生する確率、P(B)はBが発生する確率、P(A|B)は事象Bが与えられたときにAが発生する確率、P(B|A)は事象Aが与えられたときにBが発生する確率です。

ベイズの定理における左辺Pr(A|B)は事後確率と呼ばれ、データが与えられたときのパラメータの確率です。また、P(A)は事前確率であり、実験前にパラメータに割り当てられた確率と言えます。P(B|A)は尤度(likelihood)を示し、パラメータが与えられたときのデータの確率を意味します。最後に、P(B)はエビデンス、つまりデータの確率であり、ベイズ的アプローチの計算を難しくするところでもあります。

頻度主義統計学とは異なり、ベイズ統計学は確率をある事象が起こる尤もらしさに対する信念の尺度として捉えます。また、パラメータは、頻出主義統計学のように固定の点ではなく、確率分布を有していると仮定します。

この信念は、新しい情報(データ)が利用可能になれば更新されることもあります。ベイズアプローチでは、新しいデータを入手した際、仮説に関する事前信念を更新することによって、仮説が真である確率を計算します。

なお、ここで言う事前信念は、研究が実施される前の事前確率として知られています。ベイズの定理は、この事前確率を事後確率へと変換します。ここで言う事後確率は、研究の結果が与えられたときのパラメータの確率を意味します。

例えば、コイン投げ実験を行う前に、コイン投げが公正である、つまり平均が0の正規ガウス分布に従うと信じているとします。これが事前分布に当たります。そしてコイン投げを実際に行い、10回中5回表が出たとします。この時、10回中5回が表という得られたというデータと事前分布に基づき、事後分布が計算されるのです。

このように信念を仮説に組み入れパラメータに対する確率分布を求めることができるのが、ベイズアプローチの中心的な考え方になります。これは頻度主義統計学には無い考え方であり、一部の研究者がベイズ統計学を強く支持する主な理由の一つとなっています。

ベイズ統計学で使われる主な検定

ベイズ統計学における結果は、ある仮説の他の仮説に対する尤度で記述されます。これは以下に示すベイズ因子(BF)によって計算されます。

Blog Photo

Kはベイズ因子、Pr(B|A1)は対立仮説が与えられたときのデータの確率を指し、Pr(B|A0)は帰無仮説が与えられたときのデータの確率を指します。

ベイズ因子は、研究者が適切だと考える任意の数値に設定することができます。通常、仮説のエビデンスを示すものとしてBF>20が使用され、エビデンスがないことを示すのにはBF<1が使用されます。例えば、BFが30であれば仮説に対する強いエビデンスがあり、10であれば仮説に対する弱いエビデンスがあるということになります。

なおベイズ因子は、帰無仮説と対立仮説の比率を示しています。これにより、研究者は一方の仮説のエビデンスの強さを他方の仮説と比較することができます。これもまた、頻度論的な点推定アプローチにはない点です。

ベイズ因子に加えて、ベイズ統計学はパラメータに対する信頼区間も作成します。これは頻度論的信頼区間と似ているものですが、ベイズ統計学における信頼区間は、結果の95%を確信できる範囲を意味します。

ベイズ因子を用いて分析を行ったうつ病と不安に対する様々な薬物の効果をベイズ的アプローチで検討した研究では、BFが20を超えるような強い有効性の支持を得た薬剤は、全体の半数に過ぎないことが発見されました。さらに、以前は有意なp値を用いて有効であるとグループ分けされていた薬剤の中には、BF値が1未満、つまり有効性がないことを支持するものもありました。

頻度主義統計学を用いた場合、ある薬剤がp=0.002の有意差検定をクリアして有効であると分類されたのなら、この抗うつ薬は統計的に有意であることが証明されたと考えるはずです。しかし、ベイズ統計学を用いた場合、BF=1なのであれば有効性のエビデンスは実際にはそれほど強くない可能性が考えられるのです。

このように、ベイズアプローチの最大の利点の1つは、p値の点推定では得ることができない結果に対するエビデンスの強さに関する情報を得ることができる点にあります。このような情報は臨床研究において非常に価値があるものなのです。

ベイズ統計学の長所と短所

ベイズ統計の主な利点は、仮説に関する確率分布を与えてくれることにあります。また、事後分布という形で仮説に新しい情報を加えることができる点も有益です。

一方で、事前に定義された事前分布のセットがないため、事前分布の作成が困難になる場合があります。このため、事前分布は恣意的なものになる恐れがあり、実際に存在しないデータについて何かを仮定することが妥当ではない場合もあります。

ベイズ統計学の利点

  • より直感的である
  • 点推定ではなく、仮説に対して確信が持てる範囲を与える
  • 観測されない頻度とは対照的に、すべての情報がデータ自体に含まれる
  • 仮説の確率分布を計算する

ベイズ統計学の欠点

  • 仮説の事前確率の設定は主観的であるため異なる値になる可能性があり、そのため恣意的に見える
  • ベイズ分析は複雑で、高度な統計パッケージやソフトウェアが必要になることがある
  • より高度な統計知識が必要である

頻度主義統計学とベイズ統計学のまとめ

アプローチ 頻度主義 ベイズ
前提 推定するパラメータは固定された一つの点である 推定するパラメータは確率分布を持つ
問い 仮説は正しいか、正しくないか? データを与えられた際の仮説の確率は?
必要なもの 停止基準
事前の実験設計
事前情報
データセット
結果 点推定(p値) 仮説が支持されるか支持されないかの確率
長所 シンプルで使いやすい
広く採用されている
事前情報が必要ない
エビデンスの強さを取得できる
新たな情報に応じて更新できる

頻度主義とベイズ、どちらが研究に向いているでしょうか?

頻度主義とベイズのどちらを使うか?両方使ってもいいのか?

さて、頻度主義とベイズの解説を経て、分析にどちらを適用するのが良いのか悩んでいる方もいるはずです。

この答えには、正解も不正解もありません。どちらの統計的アプローチを選ぶかは、持っている情報とデータの種類に基づいて吟味する必要があります。

選択の前に考慮すべき要素

例えば、研究領域に関する確かな確信や知識がある場合、実験前の信念に基づいて行うベイズアプローチの方が適していると考えられます。データに関する事前信念がない場合、または事前信念が妥当でないと考える場合は、頻度論的アプローチを採用するのが良いでしょう。

また、データセットが少ない場合はベイズアプローチの方が適しています。例えば、データセットが10点しかない場合、頻度主義アプローチでは検出力が低いため、統計的有意性を得ることが難しくなります。

一方で、BFは常に計算することができます。これは、ベイズ統計学で必要となる事前分布が極端な値をならすために役立つからです。

一方で、ある時点における実験から得られたデータが豊富にある場合は、頻度主義のアプローチを採用することが適しています。これは、使用した実験デザインに合った適切な統計検定を選択することができるためです。しかし、複数の時点でデータを取得した場合や新しいデータを取得する予定がある場合は、新しい情報に基づいて更新を行えるベイズアプローチの方が望ましいです。

また、不確実性をどのように扱うかによっても、どのアプローチを採用するかが分かれます。頻度主義統計学は、点推定値を提供することで不確実性を取り除こうとしますが、ベイズ統計は、新しい情報で事前分布を調整することによって不確実性を保持します。

例えば、p値0.03は限定された範囲で確実性を与えるものですが、BF=15は仮説に対するエビデンスの強さを与えるにすぎません。そのため、不確実性を伝えたいのであればベイズアプローチを使うことを推奨します。

また、使用できる計算能力と統計知識にもよってもどちらの方法を取るかは異なります。ベイズ統計はより高度な統計パッケージと計算能力を必要としますが、頻度主義統計はあらゆるコンピュータプログラムで簡単に利用することができます。

Blog Photo

頻度主義とベイズどちらを使うのがよいでしょうか?

ほとんどの研究では、データセットの大きさ、デザイン、使用するモデルによって、通常どちらか一方のアプローチを採択することが適切です。

例えば、モデルが複雑すぎる場合は、通常、頻度主義統計分析を使用する必要があります一方で、データセットが非常に小さい場合は、検出力の問題からベイズ統計分析を使用することになります。なお、これらのアプローチは通常、実験やデータ収集を開始する前にあらかじめ指定しておきます。

両方のアプローチが使えそうな場合は、事前分布を組み込むことができるかを考えてみてください。事前分布を組み込めそうであればベイズ、そうでない場合は、頻出主義を採択します。

頻度主義統計学とベイズ統計学は異なる基礎的仮定に基づいているため、通常、両者が組み合わされることはありません。しかし、ベイズアプローチを使って、頻度主義統計分析の結果を再分析することが有用な場合もあります。例えば、メタアナリシスをベイズアプローチで再分析し、BFを用いて特定の変数のエビデンスの強さを確認することには価値があります。

基本的には、十分な正当性がない限り両方のアプローチを使用するには注意が必要です。これにより、恣意的な有意性で騙そうとしていると考えられる恐れがあります。

頻度主義統計学とベイズ統計学は、どちらにも長所と短所があり、最終的な決定は研究で用いられるデータと仮定に基づいてなされるべきなのです。ちらかの手法が常に正しいということはありません。新たな手法を試してみることも研究の一助となるでしょう。