2020/01/11

How to analyze Longitudinal data No 1


1週間集中講義を受けてきたのだが、とても勉強になった。


1) Longitudinal dataとは
繰り返し測定データのこと。血圧や体重、血糖値などの生体データは個人において時間単位や年単位で繰り返し測定される。
この複数のデータをどのように解釈して分析するかについては、今まで、time-weighted managementやBaselineからの変化に注目してdunnettの検定を行っていたが(しかしdunnettの検定では2群の比較はできない...) Longitudinal dataに特有の問題を解決することはできなかった。

2) Longitudinal dataに特有の問題とは
2つの問題がある。1つは測定された個人の繰り返しデータは相関するという点
もう1つは分散が不均一であるということ。(この分散の不均一性を補正しなければデータが誤って解釈されてしまう)

2-1) 個人の繰り返しデータは相関

この表はある検査データにおける0,4,8,12週の測定値の相関をプロットした。
これを見ると、0週と4週の相関係数Correlationは0.721、0週と8週の相関係数は0.514となり、時間が経過するに従い相関は薄まっている。



2-2) 分散が不均一
ベースラインの分散と、それぞれの時点の分散は同一ではない。

3)  Longitudinal dataにおけるtimeとoccasion 
どちらも測定時点をさすが、occasionが決められた時間(例えば2週間後、4週間後など)を示すのに対して、timeはそれぞれの個人の測定時間が異なっている場合に使用する。
例えばあるタイミング(手術してから癌が再発した時点の腫瘍マーカーのデータ)はoccasionではなくtimeである。

4) Longitudinal dataを分析するための方法
一番シンプルなモデルとして線形モデルを考えてみる。i は個体subjectを示す

Yi = ß0 + ß1Xi + εi 

これに時系列データが加わるとする。jは時間(この場合はj回目の測定、occasion)を示す
回帰モデルの中に1からp個の変数があるとする。するとモデルは

Yij = ß0 + ß1Xij1 + ß2Xij2 + ... + ßpXijp + εij 

となる。 Yijは個体i のj時点での推定値ということになる。

注)Longitudinal dataの目的は Yijを予測することではなく、例えばある現象において傾きが異なることを示したり、治療の効果が異なることを示す通常の検定においけるßの違いを検証することという、通常今までの重回帰分析などと同じ目的であるということ。

そしてこの式では、上記に書いた相関の問題や分散が異なるというLongitudinal data特有の問題を解決できていない。それを解決するためにランダム効果という要素を追加する。

Yij = ß0 + ß1Xij1 + ß2Xij2 + ... + ßpXijp + bi + εij 

bi ~ N (0, σ2) 

このモデルにおいて、母数効果(時系列によらない変数)とランダム効果(時系列による効果)が同時に組み込まれているため、混合効果モデル(Mixed effect model)という言い方をする。

5) ランダム効果の意味
一般的な線形モデルにおいて、2つのランダム効果が考えられる。1つは切片のばらつきを表すランダム効果、そしてもう一つは傾きのばらつきを示すランダム効果である。
(ここから先、母数効果の変数はß、ランダム効果の変数はbで示す)

まず切片のばらつきのみのランダム効果で考えてみる。するとモデルは

Yij = (ß0 + bi) + ß1tij + εij 

となる。
biはランダム効果と定義下が、その実態はなんやねん?となる。
biの推定値を式で示すとこのような式となる。

bi(推定^)  = E(bi | Yi, Xi; ß, G, σε

これが best linear unbiased predictorと呼ばれる。BLUP