読むべきタイミングも教えて欲しいな。
こんなお悩みを解決します。
どうも。こんにちは。
ケミカルエンジニアのこーしです。
本日は、緑本こと「データ解析のための統計モデリング入門」の書評を書いていきます。
評判は良いけれど、どんな内容が学べるのか、またどのタイミングで読んだら良いのかわからないという方も多いと思います。
そこで本記事では、対象読者や学べる内容、必要な事前知識、統計検定とのつながりについて解説しますので、ぜひ参考にしてみてください!
この記事を書いた人
こーし(@mimikousi)
目次
対象読者について
まず最初に、本書の対象読者を下記にまとめました。
対象読者
- 初学者向けの統計学の教科書(※)を読了し、実際のデータ解析に取り組みたいと考えている方。
- モデルを作って観測データにあてはめ、現象を理解する方法を学びたい方。
- ベイズ統計学がどのように使われているのか知りたい方。
- MCMCとは何?と感じている方。
- 統計学実践ワークブック(準1級対応)の「第31章ベイズ法」がよくわからなかった方。
※初学者向けの統計学の教科書とは、例えば下記3冊のような教科書を指しています。
「データ解析のための統計モデリング入門」の内容
本書では、モデルを作って観測データにあてはめて現象を理解する方法が学べます。
下記に本書の目次を示しました。
目次
第1章 データを理解するために統計モデルを作る
第2章 確率分布と統計モデルの最尤推定
第3章 一般化線形モデル(GLM)ーポアソン回帰ー
第4章 GLMのモデル選択ーAICとモデル予測の良さー
第5章 GLMの尤度比検定と検定の非対称性
第6章 GLMの応用範囲をひろげるーロジスティック回帰などー
第7章 一般化線形混合モデル(GLMM)ー個体差のモデリングー
第8章 マルコフ連鎖モンテカルロ(MCMC)法とベイズ統計モデル
第9章 GLMのベイズモデル化と事後分布の推定
第10章 階層ベイズモデルーGLMMのベイズモデル化ー
第11章 空間構造のある階層ベイズモデル
構成が洗練されており、わかった気にさせられるすごい教科書です!
文章も平易で、図も多く、とても理解しやすい構成になっています。
「データ解析のための統計モデリング入門」は、わかった気にさせるとんでもない名著。
MCMC法とベイズ統計学の関係なんて、「統計学実践ワークブック」では全く理解できなかった。
なぜわかりやすいのかを一般化し、ブログでマネしたい。
・読みやすい文章
・豊富な図解
・良質なまとめ
・参考文献— こーし⚡️ケミカルエンジニア (@mimikousi) November 20, 2021
それでは、本書の内容を3部にわけて簡単に解説します。
第1部(一般化線形モデル)※1~3,6,7章
1~7章までは、非ベイズ統計モデルの内容です。
「何でも正規分布」を仮定し、「とにかく散布図に直線を引けばいい」という発想で直線回帰をしてしまいがちな方に向けて、一般化線形モデル(GLM)の有用性を解説しています。
GLMでは、下記3つを導入することであらゆる統計モデルを作り出すことができます。
- 確率分布
- リンク関数
- 線形予測子
パラメータの推定は、最尤法で行っています。
最尤法とは、データのあてはまりの良さを表す「尤度」が最大になるようにパラメータをもとめる方法です。
また、現実のデータ解析では「観測できなかった要因」が"ばらつき"をもたらしますので、観測できなかった要因を「ランダム効果」として組み込んだ一般化線形混合モデル(GLMM)についても解説しています。
第2部(モデル選択と検定)※4~5章
4,5章はずばり「寄り道」です。
しかし、それだけ筆者が伝えたいことが書いてありますので、真剣に読みましょう。
ポイントは下記の通りです。
ポイント
- モデル選択には、情報量規準(AIC)を使おう。
手元にあるデータへの"あてはまり"の良さではなく、次に得られるデータを上手く予測できるかどうかでモデルの良さを評価すべき。
最尤法だと、モデルを複雑にすればするほど"あてはまり"が良くなってしまう。 - 検定は、推定された統計モデルを比較する方法のひとつに過ぎない。
- 尤度比検定はどのような統計モデルでも利用可能。
ただし、p<0.05(有意)であれば、何でも良いわけではない。
p値は効果の大きさを表すものではない。
第3部(ベイズ統計モデル)※8~11章
複数のランダム効果があるなど、モデルが複雑になってくるとパラメータの推定が計算困難となってきます。
そこで、8章以降ではMCMC法に関連づけたベイズ統計モデリングについて解説しています。
ポイント
- マルコフ連鎖モンテカルロ法(MCMC法)は、確率分布からの乱数発生方法(サンプリング)。
- MCMCサンプリングは、統計モデルを観測データにあてはめる方法のひとつ(パラメータ推定)。
- MCMCサンプリングには、「WinBUGS」を使用。
- MCMC法は、ベイズ統計モデルと相性が良い。
必要な事前知識
本書を読む際には、「古典的な統計学」と「ベイズ統計学」の知識が必要です。
1.古典的な統計学
4,5章の「寄り道」では、古典的な統計学の注意点について述べられています。
よって、下記3冊のうち1冊は読破しておくとより理解が深まると思います。
2.ベイズ統計学
ベイズ統計モデリングを解説しているので、ベイズの定理がわからないと話になりません。
ベイズ統計学に不安のある方は、下記2冊で補うことをおすすめします。
統計検定とのつながり
統計検定のレベルで考えると、本書は準1級〜1級レベルの教科書です。
統計検定2級レベルではやや難しいと思います。
しかし、統計検定準1級からは試験範囲に該当します。
本書の内容は、統計検定準1級の公式テキスト(統計学実践ワークブック)の下記の章に該当します。
統計学実践ワークブック
- 第12章 一般の分布に関する検定法
⇒尤度比検定 - 第18章 質的回帰
⇒一般化線形モデル(GLM) - 第30章 モデル選択
⇒赤池情報量規準(AIC) - 第31章 ベイズ法
⇒ベイズモデル
⇒MCMC法
Rは必要か?
本書はRを使って解説していますので、Rの知識が必要ではないかと心配になるかもしれません。
しかし、Rは"全く"使えなくても十分理解できます。
よって、Rは必須ではありません。
むしろRのコードは少なく、R使いの人には物足りない内容かもしれません。
ベイズ統計モデリングに関して、Rのコードをもっと知りたいという方は下記2冊がオススメです。
RとStanではじめるベイズ統計モデリングによるデータ分析入門
Pythonで学ぶベイズ統計モデリング
RではなくPythonで再現してみたいという方向けに、Pythonで学べる記事を紹介します。
データ解析のための統計モデリング入門(緑本)の読書メモ(PythonとStanで)
有料にはなりますが、Udemyの講座もおすすめです。
11時間もある講座なので内容が充実しています。
アルゴリズムからpython文法まで詳しく解説してくれます。
また、本講座ではBUGSではなく、Stanという言語を使ってMCMCサンプリングを行います。
最近は、BUGSよりもStanの方が主流のようです。
【PythonとStanで学ぶ】仕組みが分かるベイズ統計学入門
ちなみに、Stanではハミルトニアンモンテカルロ法(HMC法)というアルゴリズムを使っています。
HMC法については、こちらで詳しく学ぶことができます。
サポートページ(公式)
岩波書店のWebサイトに、本書の公式サポートページがあります。
例題のサンプルデータやRのコードをダウンロードすることができます。
講義資料(PDF)
著者の久保先生が、北海道大学の大学院生向けに授業した際の講義ノートです(2008年)。
本書は2012年に出版されており、こちらの講義ノートを元に執筆されています。
買うかどうか迷っている方は、こちらの講義ノートを見てみるとイメージがつかめると思います。
講義動画(YouTube)
統計数理研究所の講義動画です(2014年)。
本書を読んだあとに復習で見るとよいと思います。
質疑応答が特に参考になりました。
まとめ
まとめ
- モデルを作って観測データをあてはめ、現象を理解するための方法が学べる。
- 文章が平易で、図解が多く、良質な”まとめ”があって理解しやすい。
- ”統計モデリングの入門書”として一番オススメ。
- 古典的な統計学の教科書を読了したら、本書にチャレンジしよう。
- 統計検定準1級対策にもおすすめ。
- Rは使えなくても大丈夫。
- pythonでも学べる。
さらに、統計モデリングを深掘りして勉強するには、下記4冊がおすすめです。
①RとStanではじめるベイズ統計モデリングによるデータ分析入門
①②は、Rのコードが多めで実践力が身につきます。
③④は、時間構造のある階層ベイズモデルが学べます。
ただし、難易度がぐっと上がりますので、①②を読んでからにしましょう。