2020/01/26

Social Epidemiology & how to keep my motivation


先週は公衆衛生大学院の最後の講義でSocial Epidemiologyの集中講座を聞いた。

Social Epidemiology 社会疫学

Socia- economic status (SES) や 教育がいかにその後の健康に影響を与えているか。
教育年数(高卒か大卒かなど)とその後の50代での死亡率を取ると明らかに教育年数の高い方が死亡率が低いという結果となる。
しかし単にコホート研究や横断研究として、幼少期の教育や経済状況とその後の生存年数や疾患の有無について関連を取るだけでそれが証明できるか?というと否である。
これらの論文で示せることは関連性のみであり、因果については別の方法で証明する必要がある。なぜならreverse causalityが考えられるからである。
reverse causality :元々疾患等の理由から、教育が十分に受けられなかったり、経済的に良い地位につけない、給料が低いと行った因果の逆転が考えられる。
本当に因果関係を示すのであれば、RCTを行う必要があるが、壮大な社会実験としてRCTを行うには時間とコストが莫大になる。
そこで 操作変数法(Instrumental variable methods)などを用いてあたかもRCTであるように2群もしくは多群の比較を行う(生物統計ではあまり扱わないが、社会経済系の研究ではよく用いるらしい)

収入格差と健康の関連、収入と健康(特に平均寿命)の関連は線形ではなく、concave(凸曲線)である。収入が一定以上に増加しても健康指標はそれほど改善しないが、全く収入のない状態から収入がある状態に変化すると、その改善は著しい。このような特性を取る健康と収入の関連において、社会全体で見たときには収入格差が小さい方がより人が健康になると言える。

と、こんなことを色々と研究の例を交えながら講義していただき、それ自体はとても勉強になったのだが、こういう研究結果が出てくると、社会主義が人間にとって理想的であると考えるようになる理由がよくわかる。
壮大な社会的・国家的実験の結果、社会主義体制はうまくいかないことが証明されてしまったわけだが、資本主義、リバタリアニズムが全体の健康や幸福によってマイナスに働くことも明らかである。結局はその国その国の価値観や文化をもとに折衷点を見つける必要があるのだろう。

面白かったけど、私にはこの学問をさらに学びたいと思えなかった。
マシュマロテストはもし4歳児がいたらやってみたい。


----------

海外に行くことが決まってから、
この歳で行って何ができるんだ、結果を出している人たちはもっと若いのに とか、
柔軟な考えがある人たちが研究なんてやるべきだ とか、
給料だって日本にいた方が3倍くらい良いし、見知った環境で平和に仕事できるんだし
とか、

色々と頭をよぎっており、今も定期的によぎるのだが、
何はともあれ、行ったらそれなりに苦労もあり楽しみもあるのだろうし、
今更くよくよしてもしょうがない。

それにVISAが降りなくて結局いけませんでした、なんていう可能性もまだあるわけで、
とりあえず今自分ができることをやるまでなのだと開き直り。

と思っていたら、こんな海外に行った研究者の人のブログを見つけて
面白いな。

https://amazinglifeoursidejapan.blogspot.com

みんなと同じ現象を見て、みんなが考え付かないことを考える
自由な発想を許してくれるのが研究の魅力だろう。それを証明する苦しみを和らげてくれるのか、どうかは知らないけど。



2020/01/18

memo & TOEFL


TOEFL scoreが90点を上回ったのでもう受けなくていいと思うとほっとする。

こういう試験ってダラダラうけるんじゃなくて、短期決戦で勉強しないと
ダメだなということも学んだ。
英検1級とった先生もTOEFL 92点って言ってたし(その先生は2回くらいしか受けてないらしいが)、対策しないとのんべんだらりと勉強しているだけでスコアをあげるのは無理な試験なのだ。

大抵の大学院は最低ラインが100点だが、1点あげるのがまあ難しい。多くの社会人がだいたい80-90点で1年くらい彷徨うというのも理解できる。

日本人平均は71点らしい(高校生とかも含まれているから何の参考にはならないけど)




ひとまずこれで必要な試験は終了。

この文献後で印刷すること。

2020/01/11

Penalized splines


線形でないデータの変化に対して、
滑らかなグラフを描きたい時、というか線形でないデータの比較検討を行いたい時にどのようにすれば良いか? という話

リンク:Rでのコードも書いてあってわかりやすい。
https://babaye.hatenablog.com/entry/2019/10/05/131948



https://csm.lshtm.ac.uk/wp-content/uploads/sites/6/2016/04/Antonio-Gasparrini-29-05-2015.pdf


Difference between general linear model and generalized linear model


一般線形モデルと一般化線形モデルの違いについて

私がこの1年、公衆衛生大学院で生物統計学を学んで一番「あ、そうなのねー」と思ったのはここかもしれない。(いま振り返っての話だが)


つまりはこの図の意味が理解できた。(久保先生すみません。元リンクにたどり着けず...)



私が1年で学んだのは線形モデル、一般化線形モデル、一般化混合モデルまでで、
階層ベイズモデルはわからないが、臨床研究医師としてはそこまでわかったらいいんじゃない?と思う。

モデルの前に、大学院に入る前の私は、統計というのは、「検定を行うためにあるものだ」と思っていた。結果がbinary=2値の場合はロジスティック回帰で、結果が連続データの場合は重回帰分析を用いるのだと。そして何かの介入の有無でその結果が変わるのかを検定することが統計なのだと。
しかしそもそもその根本となるモデル(理論式)について知らなければ結果は全く意味をなさないどころか、誤った情報を世の中に発信してしまうことになるだろう。


・線形モデル(もしくは一般線形モデル)
線形になるというのは本当に魅力的なことであり、視覚的にもわかりやすい。
linearは素晴らしい。そして多くの事象(全てではない)がこの線形で表すことができる。
単回帰モデル:もっとも単純なモデル
 Y =  a + bx + e
重回帰モデル:変数(説明変数)が複数となったモデル。この重回帰分析の変形?として共分散分析もある。
分散分析:複数のグループから複数回のデータを取った時のモデル。これも行列にはなるが、線形モデルで表すことができる。

線形にするということは切片と傾きが必要となる。この傾きを求めるのに使用されるのが最小二乗法である。

線形モデルでは、Yが正規分布に従う必要がある。正規分布に従わない者はどうするか?それを解決するのが一般化線形モデルである)

・一般化線形モデル
一般「化」線形モデルはなんぞやというと、線形になっていないものを線形にする(これを変形する過程でlink function リンク関数を使用する)モデルである。
線形にすることのメリットは解釈のしやすさである。例えば傾きが求まれば、その傾きの差を比較することができる。
2値のデータは線形にはならないのでロジットを用いることで線形にしている。何を用いるかは、目的変数(Y) がどのような分布構造を取っているかによって決まっている。
一般化線形モデルを使用するYの分布にはポアソン分布やベルヌーイ分布(2値)、ガンマ分布、負の二項分布などが含まれる。

一般化線形モデルでは、その推定に最尤法が用いられる。実際には統計ソフトがやってしまうが、尤度としてもっとも確からしい値を求める。


臨床医がまずデータや臨床課題、クリニカルクエッションを持っているとして、さてどのようにそれを証明しようか?と考えた時、いきなり闇雲に検定を行うのではなく、
・データがどのような分布にしたがっているのか
・その分布を示すモデル式は作成できるか
・その作成したモデル式の中で、どの項目の推定値に違いがあれば仮説は検証できるのか?

と考えていくのが筋である。

とすると、自ずと研究の計画段階から統計モデルをある程度想定して研究を行う必要がある。(理想的には)








統計ソフトを論文でどう書くか


他の論文でどう書いているかを見てみた。

R


All of the analyses are conducted using R version 3.1.0 (R Core Team (2014). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, http://www.R-project.org/).


The data were analyzed using R software version 2.13.0.
   ( British Journal of Anaesthesia)

こんなシンプルなんでもいいんかい。。。という感じ。

SAS

Statistical analyses were conducted using SAS 9.4 (SAS Institute, USA), with statistical significance defined by a two-tailed P < 0.05.
   (Anesthesiology)

All the analyses were performed with the use of SAS software, version 9.4 (SAS Institute).
   (NEJM)

その他
Statistical analyses were conducted using the Review Manager software provided by the Cochrane Collaboration, Version 5.3. (Copenhagen: The Nordic Cochrane Centre, The Cochrane Collaboration, 2014).


統計関連の雑誌では書き方とかバージョンとか色々細かいが、そうでない雑誌ではバージョンしか載せていないものも多い。


How to analyze Longitudinal data No 2


(自分の備忘録として書いているので間違いもあります)

 Longitudinal data固有の問題を解決するためにランダム効果を盛り込んだ混合効果モデルを使用するというのがNo1の話。
ではそのランダム効果はどのように計算されるのか?


G: 分散のマトリックス、β: 母数効果、σ: 誤差の分散
つまり文章で書くと、個体の母数効果と分散マトリックスと誤差、および測定結果の条件をもとに推定した結果がbiということ。
通常このBLUPを用いることによって個人の平均は全体の平均の方向に向かう。

実際の統計ソフトでの計算ではこのG(分散のマトリックスの指定方法が様々用意されている)

biを別の数式で書いてみる。









ni: 繰り返し測定回数 5回繰り返していれば5となる。
個人のj時点の測定値と全体のj時点の平均の差の合計の平均に重み(w)をつけている。
この重み付けに分散を使用して誤差の分散が大きいほど(個人におけるばらつきが大きいほど)重みづけは小さくなり、結果として全体平均に近づく方向になる。

(どうでもいいことだが、マイクロソフト旧バージョンのwordの数式エディタを使った。新しいバージョンではこの機能がなくなっているらしい。ダウングレードしている...)

Rでの実装方法にはlmerを使用する。




How to analyze Longitudinal data No 1


1週間集中講義を受けてきたのだが、とても勉強になった。


1) Longitudinal dataとは
繰り返し測定データのこと。血圧や体重、血糖値などの生体データは個人において時間単位や年単位で繰り返し測定される。
この複数のデータをどのように解釈して分析するかについては、今まで、time-weighted managementやBaselineからの変化に注目してdunnettの検定を行っていたが(しかしdunnettの検定では2群の比較はできない...) Longitudinal dataに特有の問題を解決することはできなかった。

2) Longitudinal dataに特有の問題とは
2つの問題がある。1つは測定された個人の繰り返しデータは相関するという点
もう1つは分散が不均一であるということ。(この分散の不均一性を補正しなければデータが誤って解釈されてしまう)

2-1) 個人の繰り返しデータは相関

この表はある検査データにおける0,4,8,12週の測定値の相関をプロットした。
これを見ると、0週と4週の相関係数Correlationは0.721、0週と8週の相関係数は0.514となり、時間が経過するに従い相関は薄まっている。



2-2) 分散が不均一
ベースラインの分散と、それぞれの時点の分散は同一ではない。

3)  Longitudinal dataにおけるtimeとoccasion 
どちらも測定時点をさすが、occasionが決められた時間(例えば2週間後、4週間後など)を示すのに対して、timeはそれぞれの個人の測定時間が異なっている場合に使用する。
例えばあるタイミング(手術してから癌が再発した時点の腫瘍マーカーのデータ)はoccasionではなくtimeである。

4) Longitudinal dataを分析するための方法
一番シンプルなモデルとして線形モデルを考えてみる。i は個体subjectを示す

Yi = ß0 + ß1Xi + εi 

これに時系列データが加わるとする。jは時間(この場合はj回目の測定、occasion)を示す
回帰モデルの中に1からp個の変数があるとする。するとモデルは

Yij = ß0 + ß1Xij1 + ß2Xij2 + ... + ßpXijp + εij 

となる。 Yijは個体i のj時点での推定値ということになる。

注)Longitudinal dataの目的は Yijを予測することではなく、例えばある現象において傾きが異なることを示したり、治療の効果が異なることを示す通常の検定においけるßの違いを検証することという、通常今までの重回帰分析などと同じ目的であるということ。

そしてこの式では、上記に書いた相関の問題や分散が異なるというLongitudinal data特有の問題を解決できていない。それを解決するためにランダム効果という要素を追加する。

Yij = ß0 + ß1Xij1 + ß2Xij2 + ... + ßpXijp + bi + εij 

bi ~ N (0, σ2) 

このモデルにおいて、母数効果(時系列によらない変数)とランダム効果(時系列による効果)が同時に組み込まれているため、混合効果モデル(Mixed effect model)という言い方をする。

5) ランダム効果の意味
一般的な線形モデルにおいて、2つのランダム効果が考えられる。1つは切片のばらつきを表すランダム効果、そしてもう一つは傾きのばらつきを示すランダム効果である。
(ここから先、母数効果の変数はß、ランダム効果の変数はbで示す)

まず切片のばらつきのみのランダム効果で考えてみる。するとモデルは

Yij = (ß0 + bi) + ß1tij + εij 

となる。
biはランダム効果と定義下が、その実態はなんやねん?となる。
biの推定値を式で示すとこのような式となる。

bi(推定^)  = E(bi | Yi, Xi; ß, G, σε

これが best linear unbiased predictorと呼ばれる。BLUP 




2020/01/03

The effects of hyperoxia


高酸素の弊害についてのreview

Bench-to-bedside review: the effects of hyperoxia during critical illness.
https://www.ncbi.nlm.nih.gov/pubmed/26278383
Crit Care. 2015 Aug 17;19:284.



<how to control reactive oxygen species>
superoxide dismutase reduces ROS 
ROS is also used against several pathogens.
Simply reducing ROS does not solve the inflammation.

In critically ill patients, the level of oxygen toxicity accelerates.

Microcirculation
DAMPs damage-associated molecular pattern molecules alert the innate immune system.
DAMPs activate polymorphonuclear neutrophils (PMNs) 
excessive O2 accelerates this process.

Lung in animals
In animal studies, hyperoxia transcends lung injury but time-dependent.
The lung is the most vulnerable organ, it is unknown that the threshold of PaO2 or FiO2 where harm outweighs benefits. 

Vessels in animals
hyperoxia induces vasoconstriction in coronary arteries and decreases in heart rate, stroke volume, and cardiac output.

Clinical studies
Among patients with mechanical ventilation, hyperoxia induces high mortality.
Studies of neonate also proved that hyperoxia and hypoxia result in high morbidity. 
 SpO2 90-95% was the best O2 supply in the post-natal period.
For MI patients, O2 was harmful and 
hypoxia was associated with delayed cerebral ischemia after cerebrovascular incidents.

Perioperative O2
WHO recommends that 80% of O2 supply after surgery prevents surgical site infection. But a recent study proved that worse outcomes in 80% O2 supply compared with 30% O2 supply.


心臓手術分野についてどうかというと、ニュージーランドから、2014年に83000人を対照とした大規模コホートstudyで心臓手術24時間の高酸素と死亡率の間には関連はなかったとの報告であった。

心臓手術の場合は他の要素が大きく関連しているので、高酸素の弊害のみを取り出すことが難しいだろうが、83000という大規模データでも差が出なかったということは、あまり臨床的な意義は少ないのかもしれない。

しかし、酸素にしろNOにしろ、何らかのガスにせよ、生体はその利用を状況状況に応じてダイナミックに変化させる。そうした状況依存性(これはモデル作成によって解決できるか)と時間依存性をどのように再現したらいいのだろうか。。。