数式が苦手な人など向けの情報源
いきなりですが、「この記事の中でいちばん価値があるであろう情報」を書いてしまいましょう。
三中信宏教授のこのページにある「統計高座中継」は、数式を読むのが苦手な人、またはパラメトリック統計学以外の所から(それでも正統に)統計学を学ぼうとする人にとっては恐らく一番よい情報源になります。
僕は、どうしてゴミみたいな適当なことを書いているカッコつきの「統計学入門書」が数万部も売れて、彼のように独自の教育的視点から統計学の考え方を普及させようとしている知識人の動画が1000再生程度しか伸びないのかが未だに分からない、というぐらいにこの動画で述べられていることは「考え方」を学ぶのに本質的だと思います。
一つだけ抜粋して例を挙げるならば、第一種過誤と第二種過誤に関する彼の説明(動画10:00〜付近)は絶妙です。「あれどっちが第一種でどっちが第二種だっけ」となるのをほぼ確実に防いでくれます。僕はこの問題を別の教授の授業で中間試験に出された覚えがあるのですが、そのときはまだこの「ないんだけれどもあるあるあると言ってしまうのが我々人間の持っている悲しい性だと考えて下さい(=第一種過誤のほうが第二種過誤より起こりやすい、動画10:55~11:12あたり)」という比重を付けた知識構成法を知らなかったので、案の定「あれどっちが第一種でどっちが第二種だっけ」となりました。
もちろん本当に第一種のほうが多いのかは追試の余地がありますが、少なくとも僕の素朴な直観には沿っています。我々は「ないのにある」と思ってしまう認知特性を持っている。プラシーボ効果などの存在でも分かるように。
三中教授は詳細な統計学ブックガイドを挙げて下さっていますし(僕もたまにこのリストから探して読んでいます)、ビジネス界隈でもこの方とかが僕より遥かに的確なリストを挙げてくれています。
ですが恐らく、本当に欲しいのはリストではなく学習途上の人間が各書にどんな感想を抱いたのかのほうだと思いますので以下に述べていきます。リストとしては遥かに類似リストの劣化版です。
一通り目を通したもの
ネットに上がっている情報源ではこちらがお勧めです。経済学部1年生の講義で使用されたスライドのようです。
- 作者: 西内啓
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2013/01/25
- メディア: 単行本(ソフトカバー)
- 購入: 11人 クリック: 209回
- この商品を含むブログ (113件) を見る
入門書としては、意外なことにこの本が良いのだと思います。その判断理由としては、
- 通常大学で勧められる統計学の入門書は仮説検定に集中しすぎており、論文を書くことに追われている人以外には実感が湧きにくい。
- 一般化線形モデルを中心とした教授法について言及がある。
の2点です。なんだか頼りない立論ですね。いや、でも本当にそう思ったのです。
ちなみに後述するYale大学PhDの教授が最後の授業で「統計学は最強の学問じゃない気がするんだけどな」と言ってたのも心に残ってます。
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (81件) を見る
僕はこの本を最初に読み、挫折しました。
ですが初期段階でも、第1・2章(統計学の基礎、1次元のデータ)は一部飛ばしながらも読めるはずですし、読むべきです。分散だけは理解しておかないと、どんなに数学が苦手な人でも絶対にダメです。
どうしてですか? > (´・ω・`)
(`・ω・) < 「全てのデータは分布している」(※もう少し正確に言うと、「そのデータが常に同じ値を取る退化分布に従うので無い限り、データの値はバラつく」)ということを信じることが統計学の根底にあるからです。分散抜きで話を進めると、「今手に入ったデータは常に真の値である」という何の役にも立たない間違った理解しか手に入らないのです。
それでもいいじゃない!シグマなんて嫌! > (´・ω・`)
わたしは株が上がるかだけ分かればいいの! > (´・ω・`)
(`・ω・) < そうするとあなたは過去101日の(日付,株価)を全て串刺しにする100次曲線を考えて、その複雑奇怪な曲線で明日の株価を予想することになりますがその世界観で宜しいですか?
ぞお〜っ (((´;ω;`)))
そ、それでいいもん!シグマのばか!もう知らない! > (´;ω;`)
(タッタッタッタ…)
(`・ω・) 。◯ ( … )
(`-ω-) 。◯ ( また1人、ビッグデータの闇に沈んでしまった… )
寸劇はこれぐらいにしてとにかく分散だけは死ぬ気で理解しないとダメです。分散が分かってないと、仮説検定も回帰も何やってるか間違いなく分からないはずです。
短期目標としては、
分散 = E( 確率変数 ^ 2 ) - ( E( 確率変数 ) ^ 2 )
(E()は期待値を取ることを表す)
この式を見て、「ああ、確率変数のバラつきが大きくなると、この式の値も確かに増えるし、確率変数のバラつきが全くないときは、この式の値も確かに0になるな」としみじみ実感できるようになることです。導出できるようになる必要は全くありませんし、証明が書けるようになる必要もないです。それは熟練後に回して下さい。
そのほかの短期目標としては、
- 2シグマ(にしぐま)区間、3シグマ(さんしぐま)区間の概念を理解し、実際にRなどで擬似乱数を発生させた場合にデータの何%がその範囲に落ち、それを図示したときにどう見えるのかを確かめる
- 医療系の文脈、ビジネスの文脈など、自分が普段接する情報源の中で分散についてどのように扱われているかを見る
など、個々人で設定していくことをオススメします。
第4〜7章(確率論的な諸性質)は、「目を閉じれば各統計知識の繋がりが思い浮かぶようになった」ぐらいの段階で必要になります。そのレベルに達すると今度は各値の証明がどうしても正当性担保のために必要になってくるのです。それまでは一切見る必要はありません。
8〜13章は全て読む必要があります(僕の受けた授業は色々ぶっ飛んでいて一切の説明抜きにこの8章から始まりました)が、全部をこれで理解するのは無理だと思います。特にカイ二乗分布とF分布についてこの本のこの記述だけで理解するのは無理でしょう。僕もFについて理解できたのはFについて講義を受けたり自習したりで4回目ぐらいの時だったと思います。
この本は(線形代数一切使わない配慮など)本当によくまとめていると思うのですが、その代わりに「これ一冊で理解できる」という性質がいくらか欠けている、というのが読んだ感触です。
分散が怖くなるもう一つの実例
分散自体の怖さ
私たちは2つのまったく同じホームページの比較テストしました。この2つの結果は同じになり、ほぼ同じコンバージョン率が得られると思われるでしょう。と ころが結果は驚くべきものでした。上のスクリーンショットからわかるように、最初のものと同じはずのホームページが、18.1%の改善を示したのです。さ らに悪いことに、この結果が正確である確率は100%と出ました。控え目に言っても、問題と言わざるを得ないでしょう。
(※コンバージョン率とは 購入人数 ÷ 閲覧人数 × 100 のこと)
商用ツール側の怖さ
たとえ短期バイアスによって有意性が出ることがよくあるとしても、大抵のA/Bテストツールは有意性が見えたらすぐに、テストを終了することを推奨しています。Optimizelyでは、小さな緑色の表示がポップアップすると、マーケターはテストを終了します。
こうして終わる大抵のテストは、もっと長い時間をかけて行われるべきですが、もし長い時間行われたら、多くの場合、期待ほどの結果が出なくなる可能性があ ります。つまりこれは、このようなプラットフォームにおいて、デフォルト設定でユーザの期待している結果が出やすくなっていることで、ユーザがもっとツー ルを使いたくなるということの好例です。
結果に注意を払えば、多くのA/Bテストの結果が、平均値へ回帰するか、有意性を失うか、何らかの形で徐々に悪化していくことに気づくでしょう。
(出典同一)
ビジネスマンならではの心理による怖さ
悲しい現実ですが、ほとんどのユーザはA/Bテストに厳しくありません。実際、彼らはA/Bテストをしているのではなく、自分の仮説を確かめているだけだと言えるでしょう。
ほとんどの組織では、Webサイトに変化を起こしたいと考えた場合、その変化を裏付けるデータを欲しがるでしょう。予期せぬ結果、悪い結果、意外な 結果を示している実験を詳細に調べる代わりに、変化を示したものがあればそれを熱烈に支持するでしょう。錯覚にすぎない結果でも次回の上司との会議のネタ になるならば、詳細は問題になりません。ほとんどの組織は最終結果に反して良い傾向を示しているA/Bテストの結果を深く追及しませんから、誰も気づかな いのです。
(出典は同一)
(なお上の記事に対して、とある実務での分析者は、別に最新知識じゃなくても10年前の教科書で十分です、と言っていたし僕もそう思う)
線形モデル➜一般化線形モデル➜一般化線形混合モデルと段階的に理解する場合には、後述する『統計モデリング入門』よりも分かりやすいと思います。とくに2.5章の不等分散の話は、実際のデータを扱う際にはすぐに直面する問題でしょう。
最初にはお勧めしないが、
それぞれの話題で必読となるもの
時系列分析
経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)
- 作者: 沖本竜義
- 出版社/メーカー: 朝倉書店
- 発売日: 2010/02/01
- メディア: 単行本
- 購入: 4人 クリック: 101回
- この商品を含むブログ (5件) を見る
某社でインターンしていた時に勧められた。時系列モデルについて知っておくべきことをめっちゃわかりやすく説明してる。時系列モデルだとHamiltonという学者の本が定番らしく数ページだけ読んだが、最初はこの本で勘所を掴むべき。特に、「iid系列」と「ホワイトノイズ」の違い、「AR過程ではOLS推定量が不偏推定量にならない」ことの指摘などは、初学者のうちは言われないと気づかない。
時系列だということで推測されるように、添字には間違いが多いですが、著者サイトの正誤表と照らしあわせたあと、誤植らしき添字については著者にメールすると誠実に対応してくれました。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (21件) を見る
世間一般に平積みされているのはこちらの本だが、個人的には上記の『一般化線形モデル』のほうを先に読むことを勧める。ただしこの本自体は何度も何度も通読する価値が存分にある。というか、この本でしか今まで書いてあるのを見たことがない情報が非常に多い(対数リンク関数を使った場合のデータ性質の変化など)。誤差構造のアニメーション化も、恐らくこの本をきっかけに一気に普及したのではないか?
データ可視化
Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集
- 作者: Winston Chang,石井弓美子,河内崇,瀬戸山雅人,古畠敦
- 出版社/メーカー: オライリージャパン
- 発売日: 2013/11/30
- メディア: 大型本
- この商品を含むブログ (2件) を見る
とにかく、統計学を今学ぶのにRを使わない手はありません。使い慣れた方は最初はExcelでも構わないですが、Excelでやるのと同じことをRでやるとどうなるのか、と言った感じで少しずつRに慣らしていった方が賢明かと思います。もうしばらくはデファクトスタンダード決定な言語ですので…
グラフィックは、習い始めは標準ライブラリで描画で事足りますが、Rの一つの強みはやはりggplot2ライブラリだと思います。Rグラフィックスクックブックは立ち読み程度で構わない気がします。なお、Rを使うならば現在ではIDEはRstudio一択です。
項目応答理論(Item Response Theory)
地理空間データ(Spatial Data)
3章の「ランダムな配置」との検定の話や、境界によって生じる問題など、地理空間データに関わる問題意識を知るのに良い。とある行政区の最寄り駅を分析したとき、区外の駅を分析する必要に気づけたのはこの本のおかげ。
状態空間モデル
予測にいかす統計モデリングの基本―ベイズ統計入門から応用まで (KS理工学専門書)
- 作者: 樋口知之
- 出版社/メーカー: 講談社
- 発売日: 2011/04/07
- メディア: 単行本(ソフトカバー)
- 購入: 9人 クリック: 180回
- この商品を含むブログ (11件) を見る
超良書。この本は機械学習ではなく、むしろ統計モデリングの方面から「解釈性を犠牲にしないでしかも精度の高い予測モデリングはどう作れるか?」という視点で状態空間モデルを導入している。状態空間モデルまで行かずとも、最初の心構えだけでも読むとよいかも。僕が感動したのは以下の一節。
「データへのイメージ」は、データが生成されるメカニズムに対する解析者の想像ともいえよう.このデータへのイメージを数式で表せる能力こそが「モデリング力」である.当然、数式の表現力が解析者の想像力を下回ってはならない.貧弱な想像力には表現力の限定された数式で十分かもしれないが、解析者のもつイメージは思いのほか柔軟で多様である.したがって、解析者の想像力を制約しない数式表現の枠組みも知っておかねばならない.
それでは、時系列を題材として、データへのイメージを数式に表す訓練をはじめよう.( 同書 p.4 )
僕は時系列をARIMAでしか表現する方法を知らなかったが、そのとき感じていた疑問にまさに答えてくれたのだった。
参考としてたまに読んだもの
- 作者: Michael J.Crawley,野間口謙太郎,菊池泰樹
- 出版社/メーカー: 共立出版
- 発売日: 2008/05/08
- メディア: 単行本
- 購入: 53人 クリック: 2,292回
- この商品を含むブログ (32件) を見る
同じものを2回測定したとしよう.そのとき,2つの異なった値が得られるに違いない.
…
すべてのものが変動するので、物事は変動を伴って出現するものだと納得するだけでは面白くない.科学的に興味のもてる変動と,ただたんに背後にある異質性を反映しているだけの変動とを区別する方法が欲しいのである.それが,統計学を必要とする理由であり,本書を通して扱いたいものである.
(本書 p.2 )
この文章に現れているように、この本も「統計学の考え方」が非常に伝わってくるので第1章を読むことをオススメします。
- 作者: David Freedman,Robert Pisani,Roger Purves
- 出版社/メーカー: W. W. Norton & Company
- 発売日: 2007/05/01
- メディア: ペーパーバック
- 購入: 25人 クリック: 781回
- この商品を含むブログ (2件) を見る
Yale大学統計学PhDの教授が入門書としてお勧めしていたので一章だけ読んだ。陥りやすい「間違った解釈」を実例で説明している点が印象に残ったが、それ以上深く読めていない。
更新履歴:
20141110 作成
20141116 追加「企業における統計学入門」
20141117 追加「【翻訳】Optimizelyを使ってクビになりかけたワケ ~統計学が苦手なマーケターへの薦め~ 」
20141125 追加『地理空間データ分析』(谷村)
20150506 追加『予測にいかす統計モデリングの基本』