広告 書評 統計学

【書評】データ解析のための統計モデリング入門(緑本)

2022年1月15日

データ解析のための統計モデリング入門
久保先生の「緑本」って有名だけど何が学べるのだろう?
読むべきタイミングも教えて欲しいな。

こんなお悩みを解決します。

どうも。こんにちは。
ケミカルエンジニアのこーしです。

本日は、緑本こと「データ解析のための統計モデリング入門」の書評を書いていきます。

評判は良いけれど、どんな内容が学べるのか、またどのタイミングで読んだら良いのかわからないという方も多いと思います。

そこで本記事では、対象読者や学べる内容、必要な事前知識、統計検定とのつながりについて解説しますので、ぜひ参考にしてみてください!

この記事を書いた人

profile220221

こーし(@mimikousi)

対象読者について

まず最初に、本書の対象読者を下記にまとめました。

対象読者

  • 初学者向けの統計学の教科書(※)を読了し、実際のデータ解析に取り組みたいと考えている方。
  • モデルを作って観測データにあてはめ、現象を理解する方法を学びたい方。
  • ベイズ統計学がどのように使われているのか知りたい方。
  • MCMCとは何?と感じている方。
  • 統計学実践ワークブック(準1級対応)の「第31章ベイズ法」がよくわからなかった方。

※初学者向けの統計学の教科書とは、例えば下記3冊のような教科書を指しています。

入門統計解析

基本統計学(第4版)

統計学入門(東京大学出版会)

統計モデリングの入門書といえば、本書で間違いないでしょう!
こーし

 

「データ解析のための統計モデリング入門」の内容

本書では、モデルを作って観測データにあてはめて現象を理解する方法が学べます。

下記に本書の目次を示しました。

目次

第1章 データを理解するために統計モデルを作る
第2章 確率分布と統計モデルの最尤推定
第3章 一般化線形モデル(GLM)ーポアソン回帰ー
第4章 GLMのモデル選択ーAICとモデル予測の良さー
第5章 GLMの尤度比検定と検定の非対称性
第6章 GLMの応用範囲をひろげるーロジスティック回帰などー
第7章 一般化線形混合モデル(GLMM)ー個体差のモデリングー
第8章 マルコフ連鎖モンテカルロ(MCMC)法とベイズ統計モデル
第9章 GLMのベイズモデル化と事後分布の推定
第10章 階層ベイズモデルーGLMMのベイズモデル化ー
第11章 空間構造のある階層ベイズモデル

構成が洗練されており、わかった気にさせられるすごい教科書です!

文章も平易で、図も多く、とても理解しやすい構成になっています。

 

それでは、本書の内容を3部にわけて簡単に解説します。

第1部(一般化線形モデル)※1~3,6,7章

1~7章までは、非ベイズ統計モデルの内容です。

「何でも正規分布」を仮定し、「とにかく散布図に直線を引けばいい」という発想で直線回帰をしてしまいがちな方に向けて、一般化線形モデル(GLM)の有用性を解説しています。

GLMでは、下記3つを導入することであらゆる統計モデルを作り出すことができます。

  • 確率分布
  • リンク関数
  • 線形予測子

パラメータの推定は、最尤法で行っています。

最尤法とは、データのあてはまりの良さを表す「尤度」が最大になるようにパラメータをもとめる方法です。

また、現実のデータ解析では「観測できなかった要因」が"ばらつき"をもたらしますので、観測できなかった要因を「ランダム効果」として組み込んだ一般化線形混合モデル(GLMM)についても解説しています。

 

第2部(モデル選択と検定)※4~5章

4,5章はずばり「寄り道」です。

しかし、それだけ筆者が伝えたいことが書いてありますので、真剣に読みましょう。

ポイントは下記の通りです。

ポイント

  • モデル選択には、情報量規準(AIC)を使おう。
    手元にあるデータへの"あてはまり"の良さではなく、次に得られるデータを上手く予測できるかどうかでモデルの良さを評価すべき。
    最尤法だと、モデルを複雑にすればするほど"あてはまり"が良くなってしまう。

  • 検定は、推定された統計モデルを比較する方法のひとつに過ぎない。
  • 尤度比検定はどのような統計モデルでも利用可能。
    ただし、p<0.05(有意)であれば、何でも良いわけではない。
    p値は効果の大きさを表すものではない。

 

第3部(ベイズ統計モデル)※8~11章

複数のランダム効果があるなど、モデルが複雑になってくるとパラメータの推定が計算困難となってきます。

そこで、8章以降ではMCMC法に関連づけたベイズ統計モデリングについて解説しています。

ポイント

  • マルコフ連鎖モンテカルロ法(MCMC法)は、確率分布からの乱数発生方法(サンプリング)。
  • MCMCサンプリングは、統計モデルを観測データにあてはめる方法のひとつ(パラメータ推定)。
  • MCMCサンプリングには、「WinBUGS」を使用。
  • MCMC法は、ベイズ統計モデルと相性が良い。

 

必要な事前知識

本書を読む際には、「古典的な統計学」と「ベイズ統計学」の知識が必要です。

1.古典的な統計学

4,5章の「寄り道」では、古典的な統計学の注意点について述べられています。

よって、下記3冊のうち1冊は読破しておくとより理解が深まると思います。

入門統計解析

基本統計学(第4版)

統計学入門(東京大学出版会)通称:赤本

 

2.ベイズ統計学

ベイズ統計モデリングを解説しているので、ベイズの定理がわからないと話になりません。

ベイズ統計学に不安のある方は、下記2冊で補うことをおすすめします。

図解 ベイズ統計「超」入門

マンガでわかるベイズ統計学

 

統計検定とのつながり

統計検定のレベルで考えると、本書は準1級〜1級レベルの教科書です。

統計検定2級レベルではやや難しいと思います。

しかし、統計検定準1級からは試験範囲に該当します。

本書の内容は、統計検定準1級の公式テキスト(統計学実践ワークブック)の下記の章に該当します。

統計学実践ワークブック

  • 第12章 一般の分布に関する検定法
    ⇒尤度比検定
  • 第18章 質的回帰
    ⇒一般化線形モデル(GLM)
  • 第30章 モデル選択
    ⇒赤池情報量規準(AIC)
  • 第31章 ベイズ法
    ⇒ベイズモデル
    ⇒MCMC法
本書を読んだあとは、統計学実践ワークブックが格段に理解しやすくなりました!
こーし

 

Rは必要か?

本書はRを使って解説していますので、Rの知識が必要ではないかと心配になるかもしれません。

しかし、Rは"全く"使えなくても十分理解できます。

よって、Rは必須ではありません。

むしろRのコードは少なく、R使いの人には物足りない内容かもしれません。

ベイズ統計モデリングに関して、Rのコードをもっと知りたいという方は下記2冊がオススメです。

RとStanではじめるベイズ統計モデリングによるデータ分析入門

StanとRでベイズ統計モデリング(通称:アヒル本)

 

Pythonで学ぶベイズ統計モデリング

RではなくPythonで再現してみたいという方向けに、Pythonで学べる記事を紹介します。

データ解析のための統計モデリング入門(緑本)の読書メモ(PythonとStanで)

名著は読者も優秀ですね!
こーし

 

有料にはなりますが、Udemyの講座もおすすめです。

11時間もある講座なので内容が充実しています。

アルゴリズムからpython文法まで詳しく解説してくれます。

また、本講座ではBUGSではなく、Stanという言語を使ってMCMCサンプリングを行います。

最近は、BUGSよりもStanの方が主流のようです。

【PythonとStanで学ぶ】仕組みが分かるベイズ統計学入門

ちなみに、Stanではハミルトニアンモンテカルロ法(HMC法)というアルゴリズムを使っています。

HMC法については、こちらで詳しく学ぶことができます。

基礎からのベイズ統計学

 

サポートページ(公式)

岩波書店のWebサイトに、本書の公式サポートページがあります。

サポートページ(公式)

例題のサンプルデータやRのコードをダウンロードすることができます。

講義資料(PDF)

講義のーと(北海道大学)

著者の久保先生が、北海道大学の大学院生向けに授業した際の講義ノートです(2008年)。

本書は2012年に出版されており、こちらの講義ノートを元に執筆されています。

買うかどうか迷っている方は、こちらの講義ノートを見てみるとイメージがつかめると思います。

講義動画(YouTube)

階層ベイズ&MCMC講義(久保拓弥)

統計数理研究所の講義動画です(2014年)。

本書を読んだあとに復習で見るとよいと思います。

質疑応答が特に参考になりました。

 

まとめ

まとめ

  • モデルを作って観測データをあてはめ、現象を理解するための方法が学べる。
  • 文章が平易で、図解が多く、良質な”まとめ”があって理解しやすい。
  • ”統計モデリングの入門書”として一番オススメ。
  • 古典的な統計学の教科書を読了したら、本書にチャレンジしよう。
  • 統計検定準1級対策にもおすすめ。
  • Rは使えなくても大丈夫。
  • pythonでも学べる。

さらに、統計モデリングを深掘りして勉強するには、下記4冊がおすすめです。 

RとStanではじめるベイズ統計モデリングによるデータ分析入門

StanとRでベイズ統計モデリング(通称:アヒル本)

Rによる時系列モデリング入門

予測にいかす統計モデリングの基本

①②は、Rのコードが多めで実践力が身につきます。

③④は、時間構造のある階層ベイズモデルが学べます。
ただし、難易度がぐっと上がりますので、①②を読んでからにしましょう。

ベイズ統計モデリング

  • この記事を書いた人
  • 最新記事

こーし

■ケミカルエンジニア
■化学メーカー勤務
■現場配属の生産技術
■化学工学技士、統計検定1級など
■化学工学 × データサイエンス
pythonと数理統計学を勉強中!

-書評, 統計学