どうも, またしても修士1年の濱崎です.
本日は, 前回に引き続き, 線形混合モデル(linear mixed effects model) に関して解説していこうと思います.
前回:線形混合モデルについて①
2回目の今回は, 線形混合モデルの解法に関して解説してゆきます.
解法
基本的に, 制限付き最尤法 (REML
; restricted maximum likelihood) と呼ばれる手法に基づき, 混合モデルが解かれることが多いです. これは, 変量効果の分散 σu2 を推定することが目的の時に, σu2 を不偏推定量 (unbiased estimator) となるように各パラメータを推定する手法です.
まず各分散成分 (variance components) の推定を行うのですが, この推定には色々な手法が提案されています. ~2000年代前半までは, u を潜在変数 (latent variable) とみなして EMアルゴリズムを用いたり, あるいは Newton-Raphson法のような数値最適化手法により, 分散成分を推定することが多かったように思います. そういった中でも今回は, 2008年に Kang らによって発表された EMMA
(efficient mixed model association) と呼ばれる手法 について紹介したいと思います.
EMMA(分散成分の推定)
まず, 線形混合モデルの対数尤度 (full log likelihood) は以下のように書き表せます.
lF(y;β,σu,δ)=21[−nlog(2πσu2)−log∣H∣−σu21(y−Xβ)TH−1(y−Xβ)],
ここで, 表現型の分散共分散行列を V とすると,
V=σu2ZKZT+σe2In
であり, 対数尤度の式の中の H は, δ=σu2σe2 として,
H=σu2V=ZKZT+δIn
と表されます.
また REML
にて最大化すべき制限付き対数尤度 (restricted log likelihood) は,
lR(y;σu,δ)=lF(y;β^,σu,δ)+21[plog(2πσu2)+log∣∣XTX∣∣−log∣∣XTH−1X∣∣]
として表されます.
まず, これを β および σu2 に関して最大化を行います(単純にそれぞれのパラメータで偏微分した時の lF/R′=0 の解を求めます). これによりそれぞれの推定値は,
β^=(XTH−1X)−1XTH−1y,
σ^u2=dfR
のように表されます. ここで,
R=(y−Xβ^)TH−1(y−Xβ^),
df={nn−p(for full log likelihood lF)(for restricted log likelihood lR)
です. (ちなみにここでの R は, 前回の R とは異なります… まぎらわしくてすみません.)
次に, これらの推定値を元の対数尤度関数に代入し直します. すると, 対数尤度関数は
fF(δ)=lF(y;β^,σ^u,δ)=21[−nlogn2πR−log∣H∣−n]
となります.
さて, ここでいくつかの定義を行います. まず, ZKZT の固有値を ξ, 固有値を対角成分に持つ対角行列を DF , 固有ベクトルの行列 (n×n 行列)を UF と定義します. すなわち,
H=UFDFUFT+δIn=UF diag(ξ1+δ,⋯,ξn+δ)UFT
さらに, 準備として以下の値を次に示すように定義します.
S=In−X(XTX)−1XT
また, SHS のスペクトル分解を以下のように行います.
SHS=S(ZKZT+δIn)S=UR diag(λ1+δ,⋯,λn−p+δ)URT
ここで, S を掛けたおかげで SHS はランク落ちしているため, 固有値の数は n−p 個, 固有値ベクトルの行列 UR は n×n−p 行列になっています.
最後に, 次のように n×n 行列 P を定義します.
P=In−X(XTH−1X)−1XTH−1
これらの定義を用いれば, 先ほどの R が以下のように書き表せます.
R=(y−Xβ^)TH−1(y−Xβ^)=yT(In−X(XTH−1X)−1XTH−1)TH−1(In−X(XTH−1X)−1XTH−1)y=yTPTH−1Py
ここで, PS=P, SP=S, SPT=PT, HPTH−1=P, H−1PH=PT, P2=Pであることを利用すれば,
(SHS)(PTH−1P)(SHS)=SHPTH−1PHS=SPPHS=SHS
かつ
(PTH−1P)(SHS)(PTH−1P)=PTH−1PHPTH−1P=PTH−1PPP=PTH−1P
であることがわかります.
さらに,
(SHS)(PTH−1P)=(PTH−1P)(SHS)=S
から, PTH−1P と SHS の積(可換)はエルミート行列(この場合, 実対称行列)になります.
したがって, 定義から PTH−1P は SHS の擬似逆行列(pseudo-inverse matrix, または, 一般化逆行列 : generalized inverse matrix) であることがわかります.
PTH−1P=(SHS)+=UR diag[(λ1+δ,⋯,λn−p+δ)−1]URT
なお, (⋅)+ は擬似逆行列を表します.
よって, URTy=η と定める( η は n−p×1 ベクトル)と, R はさらに,
R=yT(PTH−1P)y=ηT diag[(λ1+δ,⋯,λn−p+δ)−1]η=s=1∑n−pλs+δηs2
ここから, 対数尤度は次のように書き下せます.
fF(δ)=−21[nlogn2π+nlog(s=1∑n−pλs+δηs2)+i=1∑nlog(ξi+δ)+n]
さらに, 制限付き対数尤度は, B T y の尤度を考えれば良いことがわかっています. ここで, 行列 B はBB T =S かつ B T B=I を満たす行列です. さて, これまでの結果から,
S=(SHS)(PTH−1P)=(SHS)(SHS)+=URUR T
であることがわかっており, さらに, UR T UR=In−p から, B=UR として良いことがわかります.
したがって, UR T y の尤度を考えればよく, これは平均 0, 分散が
UR T VUR=σu2UR T HUR=σu2 diag(λ1+δ,⋯,λn−p+δ)
の多変量正規分布に従います. なぜなら,
URUR T HURUR T =SHS=UR diag(λ1+δ,⋯,λn−p+δ)UR T
が成り立つからです.
さて, この正規分布に σ^u2=R / n−p を代入することで, 結果的に以下の形で制限付き尤度が書き下せます.
fR(δ)=−21[(n−p)logn−p2π+(n−p)log(s=1∑n−pλs+δηs2)+s=1∑n−plog(λs+δ)+(n−p)]
ここまで来ればあとは簡単です. ML
なら fF(δ), REML
なら fR(δ) を, 分散比 δ に関して, δ>0 という制約のもとで, 何らかの最適手法を用いて最大化すれば良いわけです.
これにより δ^ が求まり, σ^u2 と掛け合わせることで, 誤差分散の推定値 σ^e2=δ^σ^u2を求めることができます. これで, EMMA
による分散成分の推定は終わりです。
そのほかの手法
分散成分の推定の手法としては, EMMA
の他にも色々の手法が提案されてきています. これには, 近年ゲノムワイド関連解析 (GWAS
: genome-wide association study) などのような混合モデルを何度も解く必要がある手法が登場し, その結果できるだけ効率よく混合モデルを解く手法が必要になってきたことが大きく関係していると考えられます. 具体的には, 2012年に発表されたGEMMA
と呼ばれる手法や, あるいは効率的なEMアルゴリズムを利用する手法などが提案されています. あるいは, 計算的には特に有利というわけではないですが, ベイズ的な解釈を可能にする, Gibbs samplingを用いた手法なども古くから用いられています(当然最尤法の枠組みからは外れるわけですが). まあ色々な手法があるわけですが, 目的に応じて適切な手法を選ぶのが良いと思います.
というわけでめちゃくちゃ長くなってしまったので, 今回はここまでです. 数式が多かったので, 更新に結構時間がかかってしまいました.
次回は, この分散成分の推定値を用いて, 固定効果及び遺伝子型値をどう推定するかについて紹介します.
それではまた.
(文責:濱崎)
参考文献
コメント
コメントを投稿