市町村ごとの疾患Aの有病率や死亡率を人口で割った「だけ」(もちろん年齢調整をして)の値で比較することの無意味さについて
人口が異なる(少ない地域と多い地域)場合に、その死亡率や有病率の分散が異なるために一概には比較できない。
ではどうするか?
死亡率のばらつきをガンマ分布で捉え、死亡率の事前確率(これが人口によって異なる?)を求めるためにBayesian inferenceを使用する。
ちなみに市町村という単位での分析では(県や国という単位でも)
人口比が異なるので、こういった空間補正が必要となるが、二次医療圏は
人口比率が似かよっているのでそのまま比較できるらしい。
二次医療圏って色々と便利なんだな。
(ここまでは予習のメモ)
====================
期待死亡数が人口が少ないと非常にばらつくことが横軸に期待死亡数、縦軸にSMR(標準化死亡比)をとると顕著にわかる。
SMRは基準集団に対する相対死亡リスクが一定である(固定効果)と考えるという前提での
最尤推定値である。
しかし、基準集団に対する相対死亡リスクは一定であるのか、ここを確率関数として扱うべきであるというのがBayesian統計なのである。
ここで Frequentist(今までの統計)とBayesianの違いを見てみると、
Frequentist
推定したいパラメータを定数(=母数)として考える。
ある数(例えば死亡リスク)が知りたいと思う。するとこの死亡リスクはすでに
絶対値として存在する真の値があるという前提を持つ。
で、
この真の値をデータから推定しようというのがFrequentist であり、
標本を調査して、頻度分布や確率分布を作る。
確率関数 f(標本データ | 推定したいパラメータ) という関数で考える。
Bayesian
推定したいパラメータは不確実なもの(揺れ動く)であると考える。
推定したいパラメータも確率変数である。
では推定したいパラメータの確率分布はどうなるのか?これをベイズを使う。
<復習>
推定したいパラメータの確率分布をとりあえず p(θ)とおき、事前分布と呼ぶ。
データが取れた時には同時分布を考えることができる。
p(θ, d) = p(θ) ƒ(d | θ)
この左辺が事後分布と呼ばれる。 そう言われるとまあその通りなのだが、
p(θ, x) ∝ p(θ) ƒ(d | θ) 事前分布 * 尤度
(∝ 比例する)
推定値性質や分布は一定の分布に従い、その際の尤度も一定の分布に従うため、
その分布を決定した上で解析を行う。
事前分布には無情報事前分布を使うことが多い。
(無情報事前分布ってなんだ?)
事前分布に関してまったく情報がない場合に使用される分布。
でもこれが一様分布なのか、何を使うのか?
SMRの話に戻る。
死亡は人口の中でまれにしか起こらないのでポアソン分布に従う。
すると ƒ (di | θi, ei) = (θi ei)^di * exp(-θi ei) / di!
となり、 その期待値と分散はそれぞれ
E(di) = θi ei Var (di) = θi ei
となる。
さて事前分布はどうなんだというと、尤度がポアソン分布の場合は事前分布はガンマ分布となる。そこで、推定したいパラメータ(SMRで言うところの相対死亡リスク)の事前分布は
g (θ | a, ß) = ß (ßθ) ^(a-1) * exp (-ßθ) / Γ(a)
E(θ) = a/ß Var (θ) = a/ß^2 (?ここ怪しい)
、推定量である。
で、事後分布も同じようにガンマ分布に基づくので、その期待値は結局
E (θ | ei, di, a, ß ) = (a + di)/ (ß + ei)となる。
これがベイズ理論で求めるSMRとなる。
やっていることを言葉にすると、
母数が異なる集団を比較するのに、年齢調整をしただけでは無駄だということであり、
分散を調整しなければならない。分散を調整するのに、
事前確率という確率変数を取り入れようぜ
ということなのだ(と私は理解した)
で、フルベイズと経験ベイズの2通りがある
空間集積についても授業では取り扱ったのだが、それはまた今度。
頭が疲れた....