欠測データ 多重代入法
前回
多重代入法
多重補完法ともいう。
ベイズ理論に基づき何らかの値を補間する方法であり、補間のモデルがいくつかの条件を満たせば、欠測メカニズムがMARの下で妥当性を持つ手法。
欠測値の事後分布からランダム抽出を通じて疑似的な完全データをm組作成する。それを最終的な推定量の標準誤差の推定に反映する。多重代入法の手順は以下3つで構成される。
①補間ステップ :補間モデルを用いて作成した欠測値の事後予測分布からm組のランダムな予測値を欠測に補間し、疑似的な完全データをm組作成する。
②解析ステップ :m組のデータを標準的な統計手法でm回解析する
③併合ステップ :m組の解析結果を統合する。
解析ステップでは、線形モデル、ロジスティック回帰モデルなどの標準的な統計手法を用いて疑似完全データを解析し、統合を行う。そして、最終的に統合されたパラメータ推定とその標準誤差に基づき統計的推測を行う。
①補間ステップ
データが欠測している変数の型ごとに使用できる補間法が異なるため、補間モデルを選ぶ。
欠測パターン |
データが欠測している変数の型 |
補間モデルの表変量の型 |
補間モデル |
単調 |
連続型 |
任意 |
・FCS法 ノンパラ:予測平均マッチング ノンパラ:傾向スコア法 |
2値データ |
任意 |
・ロジスティック回帰補間法 |
|
名義カテゴリカル |
任意 |
・一般化ロジットモデル補完法 |
|
非単調 |
連続 |
連続型 任意 |
・マルコフチェーン・モンテカルロ法 ・FCS法 |
②解析ステップ
疑似的な完全データを標準的な統計手法を用いて、パラメーター推定
=(, )
とその分散
=(, )
を得る。
③統合ステップ
の単純な算術平均を統合したものが点推定となる。
の分散は
() =
と推定でできる。
ただし、 は の共分散行列の平均である補間ないの分散共分散行列
及び、は の補間内の分散共分散行列。(いづれも式は省略・・)
となる。
こうした考え方は実験や臨床などサンプリングをするものにはすぐに適応可能だが、時系列の場合にはこの考え方に時系列の特性を加える工夫が必要になる。
それはまた次の記事で。
本記事は以下書籍をもとに勉強しているものです。