2020/01/11
Difference between general linear model and generalized linear model
一般線形モデルと一般化線形モデルの違いについて
私がこの1年、公衆衛生大学院で生物統計学を学んで一番「あ、そうなのねー」と思ったのはここかもしれない。(いま振り返っての話だが)
つまりはこの図の意味が理解できた。(久保先生すみません。元リンクにたどり着けず...)
私が1年で学んだのは線形モデル、一般化線形モデル、一般化混合モデルまでで、
階層ベイズモデルはわからないが、臨床研究医師としてはそこまでわかったらいいんじゃない?と思う。
モデルの前に、大学院に入る前の私は、統計というのは、「検定を行うためにあるものだ」と思っていた。結果がbinary=2値の場合はロジスティック回帰で、結果が連続データの場合は重回帰分析を用いるのだと。そして何かの介入の有無でその結果が変わるのかを検定することが統計なのだと。
しかしそもそもその根本となるモデル(理論式)について知らなければ結果は全く意味をなさないどころか、誤った情報を世の中に発信してしまうことになるだろう。
・線形モデル(もしくは一般線形モデル)
線形になるというのは本当に魅力的なことであり、視覚的にもわかりやすい。
linearは素晴らしい。そして多くの事象(全てではない)がこの線形で表すことができる。
単回帰モデル:もっとも単純なモデル
Y = a + bx + e
重回帰モデル:変数(説明変数)が複数となったモデル。この重回帰分析の変形?として共分散分析もある。
分散分析:複数のグループから複数回のデータを取った時のモデル。これも行列にはなるが、線形モデルで表すことができる。
線形にするということは切片と傾きが必要となる。この傾きを求めるのに使用されるのが最小二乗法である。
線形モデルでは、Yが正規分布に従う必要がある。正規分布に従わない者はどうするか?それを解決するのが一般化線形モデルである)
・一般化線形モデル
一般「化」線形モデルはなんぞやというと、線形になっていないものを線形にする(これを変形する過程でlink function リンク関数を使用する)モデルである。
線形にすることのメリットは解釈のしやすさである。例えば傾きが求まれば、その傾きの差を比較することができる。
2値のデータは線形にはならないのでロジットを用いることで線形にしている。何を用いるかは、目的変数(Y) がどのような分布構造を取っているかによって決まっている。
一般化線形モデルを使用するYの分布にはポアソン分布やベルヌーイ分布(2値)、ガンマ分布、負の二項分布などが含まれる。
一般化線形モデルでは、その推定に最尤法が用いられる。実際には統計ソフトがやってしまうが、尤度としてもっとも確からしい値を求める。
臨床医がまずデータや臨床課題、クリニカルクエッションを持っているとして、さてどのようにそれを証明しようか?と考えた時、いきなり闇雲に検定を行うのではなく、
・データがどのような分布にしたがっているのか
・その分布を示すモデル式は作成できるか
・その作成したモデル式の中で、どの項目の推定値に違いがあれば仮説は検証できるのか?
と考えていくのが筋である。
とすると、自ずと研究の計画段階から統計モデルをある程度想定して研究を行う必要がある。(理想的には)