2022/03/21

Day 146 Year 2

 

天気がよかったので、シーツの洗濯をし、6kmほど走り、

スーパーで買い物をし、研究に関係のある本を読み、

なんてことのない日曜日が終わったが、こういう過ごし方が好きなのだ。


暖かくなってきたので、ニューヨークにも行こうかとかいろいろと考えるが、

そもそも旅行があまり好きではないし、アメリカで食べ歩くという発想もなく、

質素で平和な日々を送る。

2022/03/19

R statistics How to get sample dataset

 

https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/00Index.html


iris を使うのにはもうみんな飽きているだろう、

もっといいデータセットはないかと思ってしまう。

なんだいっぱいあるじゃないか。

R studio からの呼び出し。


data("DNase", package = "datasets")

rdata <- data.frame(DNase)



Day 144 Year 2

 

3月なのに20度まで気温が上がった。びっくりするくらい暖かい。

アメリカでサマータイムを廃止する法案が通りそうだ。

まあ確かに、なくてもいいと思う。

2022/03/09

Day 134 Year 2

 


ギリシア時代の壺

踊る女性

@ボストン 美術館

2022/03/07

Day 132 Year 2

美術館好きだ。絵も好きだけど、工芸品にも惹かれる。

ふと2016年に大阪市立東洋陶磁美術館に見に行った高浮彫、宮川香山展を思い出した。


陶磁器に彫刻のような細工を施した明治時代の作品。ほとんどが輸出目的だったらしいが、

それでもこの展示会に集められた作品は圧感だった。


しかし日本はどこでも美術館が混んでいるのだけれども、アメリカ(ボストンだけ?)の

美術館は比較的空いている。そして写真もフラッシュを使わなければ取り放題。


アメリカにいる間にできるかぎりの美術館にいこう。


2022/03/05

Day 130 Year 2

約1ヶ月半止まっていた実験動物の購入がようやく再開された。

よかった。


2022/03/04

Linux memo

備忘録

awk commandで2つのファイルのIDでVlookupのようなことを行いたい。for文を使わずに。

fileA ID  file B ID(一部)

File Aに FileBのIDと一致する行があれば、その行のstatusを9に変更する


ソートが必要かは不明だったが、ソートして見た

## 2 は2列目の項目でソート

sork -k 2 pheno.txt > pheno.s.txt 


## 一致しているIDがあればフラグを書き換える。

awk 'FNR==NR{keys[$2];next} if ($2 in keys) print $2, 9; else print $2 $3}' fileB.txt fileA.txt > update.txt


これができるようになるのに半日かかった... 


plink --bfile mydata --make-pheno p1.list * --assoc

pl.listに乗っている全てのIDにおいてcaseと指定する

2022/03/02

Day 127 Year 2

 



3月になってしまった
ニュースを見て心が痛む日々だ。

Plink memo

<multiple phenotype>

plink --file mydata --pheno pheno2.txt --pheno-name bmi --assoc

will select the second phenotype labelled "bmi", for analysis

Finally, if there is more than one phenotype, then for basic association tests, it is possible to specify that all phenotypes be tested, sequentially, with the output sent to different files: e.g. if bigpheno.raw contains 10,000 phenotypes, then

plink --bfile mydata --assoc --pheno bigpheno.raw --all-pheno

will loop over all of these, one at a time testing for association with SNP, generating a lot of output. You might want to use the --pfilter command in this case, to only report results with a p-value less than a certain value, e.g. --pfilter 1e-3.


The --merge option can also be used with binary PED files, either as input or output, but not as the second file: i.e.

plink --bfile data1 --merge data2.ped data2.map --make-bed --out merge


For example, consider we had 4 PED/MAP filesets (labelled fA.* through fD.*) and 4 binary filesets, labelled fE.* through fH.*). Then using the command

plink --file fA --merge-list allfiles.txt --make-bed --out mynewdata

would create the binary fileset

     mynewdata.bed

     mynewdata.bim

     mynewdata.fam


To analyse only a specific chromosome use

plink --file data --chr 6


Based on a range of SNPs (--from and --to)

To select a specific range of markers (that must all fall on the same chromosome) use, for example:

plink --bfile mydata --from rs273744 --to rs89883


To extract only a subset of SNPs, it is possible to specify a list of required SNPs and make a new file, or perform an analysis on this subset, by using the command

plink --file data --extract mysnps.txt


<range file>

Alternatively, you can use the command --range to modify the behavior of --extract and --exclude. If the --range flag is added, then instead of a list of SNPs, PLINK will expect a list of chromosomal ranges to be given instead, one per line.

plink --file data --extract myrange.txt --range

All SNPs within that range will then be excluded or extracted. The format of myrange.txt should be, one range per line, whitespace-separated:

     CHR     Chromosome code (1-22, X, Y, XY, MT, 0)

     BP1     Start of range, physical position in base units

     BP2     End of range, as above

     LABEL   Name of range/gene

For example,

     2 30000000 35000000  R1

     2 60000000 62000000  R2

     X 10000000 20000000  R3


VIF variance inflation factor

A VIF of 10 is often taken to represent near collinearity problems in standard multiple regression analyses

A VIF of 1 would imply that the SNP is completely independent of all other SNPs. Practically, values between 1.5 and 2 should probably be used


2022/03/01

day 126 Year 2

 ドイツから来ていたMがコロナになって、

で、復帰して出てきた。

コロナ陽性が判明した時、「私がこの研究室の第一号だったらどうしよう!」と思ったと。

みんな考えること似ている。


もう第何号だろうと関係ないというか、本当に至る所でコロナにかかった人に会う。

その中でまだかかっていない私はどれだけ人と接触していないんだか。。。