線形混合モデルについて①

2月 07, 2019

線形混合モデルについて①

生物測定学研究室修士一年の濱崎と申します.

本日から, 数回に分けて線形混合モデル(linear mixed effects model) に関して解説していこうと思います. 最後の方ではRのコードを交えて解説していきたいと思います.

モデルの式

モデルの式としては, 変量効果が1つの時, 以下のような形になります.

$\mathbf{ y } = \mathbf{ X } \boldsymbol { \beta } + \mathbf{ Z } \mathbf{ u } + \boldsymbol { \epsilon },$

ここで, $\mathbf{ y }$ は $n \times 1$ の目的変数 (objective variable) , $\mathbf{ X } \boldsymbol { \beta }$ は母数効果 (fixed effects) を表す項, $\mathbf{ Z } \mathbf{ u }$ は変量効果 (random effects) を表す項, $\boldsymbol { \epsilon }$ は残差ベクトル (residuals) となります. 変量効果の $\mathbf{ u }$ は $m \times 1$ ベクトルで, 通常以下のように多変量正規分布に従っていることが仮定されます.

$\mathbf{ u } \sim \text{MVN} \left ( \mathbf{ 0 }, \mathbf { K } \sigma ^ 2 _ { \mathrm { u } } \right )$

$\mathbf { K }$ は $m \times m$ 行列で, 既知の分散共分散行列が割り当てられます. $\sigma ^ 2 _ { \mathrm { u } }$ は, 推定すべき分散となります. また, 残差ベクトル $\boldsymbol { \epsilon }$ に関しても同様に,

$\boldsymbol { \epsilon } \sim \text{MVN} \left ( \mathbf{ 0 }, \mathbf { R } \sigma ^ 2 _ { \mathrm { e } } \right )$

ここで, $\mathbf { R }$ は $n \times n$ 行列で, 通常は単位行列 $\mathbf{I} _ n$ が用いられることが多く, ここでもそのようなケースを扱います. $\sigma ^ 2 _ { \mathrm { e } }$ は推定すべき誤差分散ですね.

残りの母数効果 $\boldsymbol { \beta }$ は $p \times 1$ ベクトルで, 通常切片 (intercept) などがここに含まれます.

最後に, $\mathbf{ X }$ , $\mathbf{ Z }$ は, それぞれ母数効果 $\boldsymbol { \beta }$ , 変量効果 $\mathbf{ u }$ に対応する $n \times p$ および $n \times m$ の計画行列 (design matrices) です.

具体例（量的遺伝学）

さて, ここまでモデルに関して説明してきましたが, ではそれぞれの変数は具体的にはどういうものなのでしょうか. 今回は, 私たち生物測定学研究室が専門としている, 量的遺伝学 (quantitative genetics) を例として考えていきたいと思います.

まず, $\mathbf{ y }$ に関しては, 目標となる表現型値 (phenotypic values) が割り当てられることが多いです. 例えば, イネの収量や, ダイズの種子の形, あるいは乳牛の母乳の量など様々です. このとき $n$ は反復数なども含めた観測数に相当します.

では, $\boldsymbol { \beta }$ はなんでしょうか. これには, 目標値の平均や, 場合によっては分集団（subpopulation; イネの場合, japonica や indica などのこと）の効果などが入ります. 結果的に, これもデータから推定する値となります.

$\mathbf{ u }$ も推定する値ですが, これは主に遺伝子型値 (genotypic values) などと呼ばれます. 何かと言うと, 各品種・系統に固有の微働遺伝子の効果 (polygenetic effects) といったところでしょうか. 通常の混合モデルでは, 変量効果は一つであることが多く, 対応する $\mathbf{ K }$ には家系情報やゲノム情報（マーカー遺伝子型など）から推定された相加的血縁行列 (additive genetic relationship matrix) が割り当てられることが多いです. この場合, 相加的効果（ヘテロの効果である優性効果や, 遺伝的交互作用であるエピスタシスを考慮しない）のみなので, このときの $\mathbf{ u }$ を特別に 育種価 (breeding value) などと読んだりもします.

$\mathbf{ Z }$ は $\mathbf{ u }$ に対応する計画行列なので, どの観測値（個体）がどの系統とマッチしているのかを示す, {0, 1} の要素からなる行列となります.

というわけで, この辺で終わりにしないと長くなりそうなので, 今回はここまでです.
次回は, 線形混合モデルを実際にどう解いてゆくのかについて解説してゆきたいと思います.

それではまた.

（文責：濱崎）

このブログを検索

生物測定学ブログ

注目

日本進化学会学会賞

線形混合モデルについて①

モデルの式

具体例（量的遺伝学）

コメント

コメントを投稿

人気の投稿

Python を Windows (64 bit) で使うときの注意点

日本進化学会学会賞