p値とAIC(赤池情報量基準)の関係について

現段階での理解をまとめる。

間違った記述があれば、読者諸氏からのご指摘を頂きたい。

(p値を使うNeyman-Pearsonの)検定によるモデル選択と、AICによるモデル選択を比較した図として、管見では以下が最も整理されていた。薄緑の付箋と黄色のハイライトは私が追加したものである。

f:id:koshka-j:20150630131000p:plain

(『データ解析のための統計モデリング入門』、久保拓弥、96ページ、2014年7月第10刷より引用)

前掲書の文脈において、この図の主張は以下である。

モデル推定の文脈では、モデルの説明変数の係数に対する検定は「係数=0としたモデル（＝説明変数が１つ少ないモデル）が真のモデルである」という帰無仮説を棄却するものである。そして、図では(見解が統計学者によって恐らく分かれるので恐らく意図的に)記載されていないが、「帰無仮説を棄却したときに対立仮説(=説明変数が1つ多いモデル)を採択する」という論証を踏むことになる。ただしこのときの対立仮説で主張される係数値は、後述するように、「0ではない係数」や「0より大きい係数」という非常に弱い主張でしかない。具体的な数値を指定してはいない。
AICは、「予測確度の高い」モデルを選ぶための数値指標である。AICが最小(=最良)だからといって、「現在の手持ちのデータに対して最も当てはまりがよい(最も尤もらしい)」とは限らない。むしろ「現在の手持ちのデータに対して最も当てはまりがよい」モデルは、尤度でいうと平均して（最尤推定を行った回数）ぶんだけ偏った未来予測になっている、という認識のもとに数値指標が作られている。久保本４章参照。

このような理解の上で、以下の問に答えてみる。

「重回帰分析を複数回行い、複数の異なる重回帰式 (以下では重回帰モデルと呼ぶ) を得た。この中から「いちばんよい」重回帰モデルを一つだけ選びたい（モデル選択の問題）。

モデル選択としては、RのstepAIC関数(引数不明)によって、AICが最良(最小)のモデルを選択した。

しかし、それぞれの説明変数の「係数」に対して行ったt検定について、p値がいくつか有意水準(0.05と仮定)を上回る変数群Xがあった。Xを全て除くべきだろうか？」

僕の主張としては、AIC「のみを」意思決定の基準としてモデル選択を行っているならば、除く必要は一切ない。ただし、そのような基準を採用しているケースは、実はそれほど多くない。

その選ばれたモデルの係数群の値を見て、以下が観測された場合には、その最良のモデルよりも多少AICが低かったとしても、解析者もしくは解析依頼者の解析目的に照らして納得の行くモデルを選ぶべきである。つまり単純にstepAICのアルゴリズムに頼るのではなく、自分の定性的な判断も含めて選択過程のアルゴリズムを実行するべきである。

不合理な符号(身長が上がると体重が減るとか。多重共線性を参照)
不適切に大きい/小さい値
人間の理解に沿っていない説明変数（論理的なつながりが見られない変数）
Rのcoefplotパッケージでlm()の結果を図で表示させてみたときの、おかしな点
というかつまり、何か腑に落ちなかったら、さりげなくみんなAICより自分の感覚を優先させている(その「自分の感覚」を、解析している問題分野固有の解釈や、データ分布の可視化結果ではなく、画面上に表示されたp値や決定係数R^2に頼りがちなのが問題なのだが、AIC以外の基準も複合的に含めてモデル選択を行っているのが実は常である)

除く必要がない理由は以下である。以下、「p値」とは、「AIC最小で選ばれたモデルの」「各説明変数の係数に対するt検定の」p値(複数)を指すものとする。すなわち、今回の議論では、重回帰モデル全体に大して適用されるF検定のp値は検討対象外とする。

それらのt検定から出したp値は、「各係数が0だった場合の回帰式」というモデル( = 帰無仮説)を棄却するかの判断材料に過ぎない。これらのp値が、事前に、ココロにこれと決めた「ゆーい水準」よりも低ければ、「こんなに珍しいことは起きない」と帰無仮説を棄却する。

実は、ここから対立仮説の採択に移らない立場もある(Fisherの立場。棄却されたことで判断が終わった、と考えるらしい。末尾の『統計学入門』12章も参照)。

For all the P value's apparent precision, Fisher intended it to be just one part of a fluid, non-numerical process that blended data and background knowledge to lead to scientific conclusions.But it soon got swept into a movement to make evidence-based decision-making as rigorous and objective as possible.

拙訳(かなり自信がないが)：　p値ははっきりとして正確だったために、フィッシャーは(それまでの)非定型で、数字に立脚せず、データが語ることと元々の背景知識が混ざった推論プロセスに取り込もうと意図していた。しかしむしろ、(当時の)可能な限り厳密で客観的な証拠に基づく意思決定の確立を目指すムーブメントに、p値はすぐに取り込まれることになった。
(引用元：Natureの記事)
フィッシャーがなぜその立場を取ったのか、理由は上のリンク先記事からするとそもそもp値による帰無仮説の棄却だけでカタを付けるような議論を想定していなかったからだということだろうが、それから考えてみると、実はさらに「帰無仮説を棄却する」と「対立仮説を採択する」の間には、非常に大きな論理の飛躍があるのだと思う。ここはあとで無理やり接合された議論だと言ってもいいのではないだろうか。少なくとも上の記事からは、フィッシャーは棄却のあとは対立仮説の採択ではなく、背景知識の援用などで議論を定性的に進めようとしていたように僕には読める。*1
そして更にもう一つの飛躍がその先の論証手順にある。

そもそも、「0である」が棄却されたこの流れで、「係数は0でない」とする対立仮説ぐらいなら採択しても自然だろうが、「係数は推定された値である」まで持っていくのは、あまりに不自然で恣意的な論法である*2。係数値の推定estimation (検定testではない)は、上掲の図にもあるように「最尤推定」に基いて行っており、検定testの枠組みには関係がない。たとえば係数=5と推定estimationされた後に、「係数=0」の検定testをやることが、意義を持つケースはどれぐらいあるだろうか？*3
よって僕の意見は、AICでモデル選択をしたあとのp値は、よほど「係数値が0に近くてリアルに係数=0の検定が重要」な上に「その説明変数が被説明変数と関連しているか定性的には不明」な場合を除いて、実はさほど統計学的には意義がないので、無視して構わない(この結論、かなり怪しいので、有識者の反論を待ちたい)。
だが、Rの出力で整然と横に並んでいるし、学会とかがみんな載せることを求めるために、なんとなく載っているというのが現状ではないだろうか。
多重比較の問題もある。説明変数が仮に10コあった場合、おなじ有意水準α = 0.05 (有意水準とはType I Errorを起こす確率)で10コの係数全てに対してt検定を行った場合、Type I Errorを一回以上起こす確率は1 - (1-0.05) ^ 10　> 40 %以上にもなる。この場合、検定を行う回数１０回で最終的に満たしたい有意水準を割った値0.05/10 = 0.005が、それぞれの検定で必要な有意水準となる(ボンフェローニの補正)。0.5%が目安ということだ。しかし10コの係数が全てそんなに厳しい有意水準を満たすなんてことは解析の現状としてありえるだろうか。Type I Errorを5％以下に抑えることはそれほどまで優先すべき目的だったのだろうか？

Type II Errorを抑える検定力は多重比較をするとどう変動しているのか、検定の基礎的な枠組みでしか学んでいない僕には、まだイメージすら理解できていない。他の目的を見失っていないだろうか？なお、久保氏も検定が本当に必要なのかという資料をネットに上げている。

まとめると、「将来のデータに対してもよいあてはまりを見せる」ことを設計思想においたAICを使っている時には、「Type I Errorを起こす確率をある一定以下に制御する」ことを主眼におく検定の枠組みは、大して補強(「このモデルはもっともらしい！」)にも反論(「AICで選ばれたこのモデルより、この説明変数を除いたモデルのほうが優れている！」)にもなっていないので、無視すればよいと思う。

統計学をある程度学んできて感じるのは、古典的な検定(Neyman-Pearsonの検定)の枠組みで（つまりは検定統計量のp値で）自説を補強して主張するのは、p-hackingがかなり蔓延しているしメタアナリシスでデータの恣意的な操作がバレる現代では、かなり厳しいということである。

ぶっちゃけ、学部生の卒論に使ったら、一刻も早く別の論証手順を採用したほうがいいのではないかと感じる（実際には学会の暗黙な指定とかがあるのだろうけど）。それぐらいに、検定だけで論証が出来ると思っていると、効果量とか、検定力とか、予測確度とか、損失関数(※損失関数は機械学習の用語か？)の形状とか、レバレッジとか、多くの論点を見逃しているはずだ。ベイズ的な論証を知ったあとは、今回使った最尤推定より、MAP推定のほうが解析の目的に沿う機会も見つけられるはずだ。

ただ、おそらく上記のような重回帰係数の推定/検定のあいだにおける飛躍が未だにRの出力として表示されつづけていることからすると、科学的に誤差を評価する上で(少なくとも係数一つレベルのミクロに注目すると)なかなか代替する枠組みがないということなのだろう。もしくは惰性だ。自分だって、「表示されているから」と使っている瞬間はある。その姿勢は、authorityを「誰も分からなくて反論できない指標」に求める最悪の態度まで、あと数歩だ。

そこに論理的な根拠は薄弱である*4。Fisherがp値を提案してから約90年。これは本当に「歴史ある伝統」として片付けて良い類のものか？

p値を大量に利用する方法は、「任意時点での打ち切りによる恣意的なp値の操作」や「多重比較によるType I Errorの可能性の飛躍的な増大」などを学ぶにつれ、現代における有効性が(他のAICや交差検証法などに頼って予測確度を評価する手法に比べて)低い手法であると結論するに至った。

（ただし、私は検定全てを否定したい訳ではない。農学試験などでは、適切な結論を導き出せる利用チャンスもあるはずだろうと思っている。一方で、重回帰係数の推定の補強として検定を使うという利用チャンスが、どれほどの妥当性があるのか疑念を抱きながら使い続けている、ということである）

AICも標本数無限で証明されているから小標本ではAICcの方がいいというし、世の中なにを自説のエビデンスとして提示するかは、査読者の統計リテラシーに依存するのではないでしょうか

参考にした文献

統計学入門 (基礎統計学)

作者: 東京大学教養学部統計学教室
出版社/メーカー: 東京大学出版会
発売日: 1991/07/09
メディア: 単行本
購入: 158人クリック: 3,604回
この商品を含むブログ (84件) を見る

『統計学入門』はすばらしくよくまとまった名著で、頻繁に参照しているが、書き方が非常に分かりにくい。これ一冊で理解するのは不可能に近いだろう。たとえば、１２章の冒頭。

推定の考え方は数学的には単純なものであるが、仮説検定も人間の論証感覚を定式化したもので、ごく自然で理解しやすい．

(同書、東京大学出版会、p.233)

これはミスリーディングすぎる表現である。なぜならば…次の本からの引用に任せる。

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

作者: 久保拓弥
出版社/メーカー: 岩波書店
発売日: 2012/05/19
メディア: 単行本
購入: 16人クリック: 163回
この商品を含むブログ (23件) を見る

もし仮にP>=αとなった場合には、どのように結論すればよいのでしょうか．その場合には，「帰無仮説は棄却できない(fail to reject)」と結論します．これは「帰無仮説が正しい」という意味ではありません．帰無仮説・対立仮説のどちらも正しいとも正しくないともいえない，つまり判断を保留するということです．

(上掲書, 久保, p.108)

こんな留保は日常感覚ではないからである。

以下追記

Wikipediaに、そのものズバリな説明があった。

The concept of a null hypothesis is used differently in two approaches to statistical inference. In the significance testing approach of Ronald Fisher, a null hypothesis is potentially rejected or disproved on the basis of data that is significant under its assumption, but the null hypothesis is never accepted or proved. In the hypothesis testing approach of Jerzy Neyman and Egon Pearson, a null hypothesis is contrasted with an alternative hypothesis, and the two hypotheses are distinguished on the basis of data, with certain error rates.
Proponents of each approach criticize the other approach. Nowadays, though, a hybrid approach is widely practiced and presented in textbooks. The hybrid is in turn criticized as incorrect and incoherent—for details, see Statistical hypothesis testing.
Statistical inference can be done without a null hypothesis, thus avoiding the criticisms under debate. An approach to statistical inference that does not involve a null hypothesis is the following: for each candidate hypothesis, specify a statistical model that corresponds to the hypothesis; then, use model selection techniques to choose the most appropriate model.[2] (The most common selection techniques are based on either Akaike information criterion or Bayes factor.)

(　https://en.wikipedia.org/wiki/Null_hypothesis　)

*1:WikipediaのNull hypothesisの項目に、やはりフィッシャーは対立仮説を考えていなかったとある。

*2:「それらの各係数が推定値である(と推論できる)モデル」を帰無仮説において(つまり各係数 = 推定値とおいて)、わざと棄却しなければ自然な論法で示せるんじゃないの？と考える人が居るかもしれない。だが残念ながら、「帰無仮説を棄却しなかった場合に帰無仮説を採択する」という論法はNeyman-Pearsonのわくぐみでは不可能らしい。この「検定の非対称性」については、久保本の５章を参照。　

*3:『「推定された係数値」の「標準誤差」』との関係の話なので、数理統計学の教科書などを漁れば出てきそうだが、今回は未調査である

*4:みんなが使っているから、というのはヤバいことが歴史的に示唆されている。SPSSの歴史からすると、因子分析の回転方法は、かつては当時のマシンでは計算時間がかかりすぎるからというだけで、最善でない方法が選ばれていたという噂を聞いたことがある。今だって計算時間の関係でその種の妥協はしょっちゅう行われている。

蛍光ペンの交差点

"科学と技術に支えられ、夢を語る人になる"

p値とAIC(赤池情報量基準)の関係について