欠損データのパターンとメカニズム

※この話は、臨床実験などの”経時的”なデータもしくは複数のグループの差を検討するときに使う手法で、”時系列”データでは扱いが違うようなので注意。

私はこれに気が付かず、やらなくていいことをやってしまいました。

データに欠損があるデータを「不完全データ」という。

データに欠損があると、最小二乗法を用いてパラメータ推定を行うことができないため、データが不完全なレコードは解析から除外する。ただし、除外した解析が妥当性を持つには強い条件（ランダムな欠損であること）が必要なので、もう少し緩い条件下でも妥当性を持つ統計手法が必要になる。

一般的な欠損データの対処法は大きく以下の3つに大別される。

①complete-cace(CC)解析（およびその重み付け解析）

②欠損値を予測値で補完する方法

③不完全データとして尤度を記述する方法

これら手法の詳細は別記事にするとして、その前にやるべきことがある

欠損パターンごとに使用できる手法が異なるため、統計解析の前にデータの欠損パターンと欠損の比率をようやくすることが解析の第一歩になる。

$Y_1$ ， $Y_2$ ， $Y_3$ の列を持つ $Y$ があるとして、その列と行を入れ替えて、変数を欠損の少ないものから並び替え、レコードも欠損の少ない順から並べ替えたとする。その時このような行列になるものを単調なパターンという。

f:id:taiyoukou01:20210617171510p:plain

単調なパターンのイメージです。（絵が雑ですみません）

それ以外の欠損パターンを非単調なパターンと言います。

次に考えるのは欠陥のメカニズム。

データYを与えたときの欠損の有無を表す２値の確率変数Mの条件付き確率

f(M|Y,Φ）として以下の3つに分類される。

① MCAR (Missing Completely At Random)　　：f(M|Y,Φ）＝　f(M|Φ）

すべてのデータに対してランダムに欠損が生じるという最も強い仮定。例えば臨床試験で患者が研究から離脱し、その後の値が欠損した場合、MCARは強すぎる仮定であることが多い。仮にMCARが成り立てば、complete-case(CC)解析はバイアスのない推定値を与える。

②MAR (Missing At Random)　：f(M|Y,Φ）＝　f(M| $Y_{obs}$ ,Φ）

※ $Y_{obs}$ は欠損がないデータ

観測された $Y_{obs}$ を与えれば欠損はランダムに生じるというメカニズム。つまり、MARとは、欠損確率を観測されたデータ $Y_{obs}$ で説明できるという条件。実際の研究、およびそのデータ解析では欠損メカニズムがMARであると仮定することが多い。

③MNAR (Missing Not At Random)

観測された $Y_{obs}$ を与えた下でも、データの欠損確率が欠損したデータの値 $Y_{mis}$ に依存するというもの。

データの解析者は欠損メカニズムの仮定を選び、その結束メカニズムのもとで適切な手法を用いて統計解析を行う必要がある。

以下に欠損メカニズム事に適切な統計手法を示す。

欠損メカニズム	Yが連即変数	Yが2値変数
MCAR	１）１時点のデータ　・分散分析モデルのCC解析２）経時測定データ　・一般線形混合効果モデル	１）１時点のデータ　・ロジスティック回帰のCC解析２）経時測定データ　・GEE解析
MAR	１）１時点のデータ　・EMアルゴリズム　・多重補間法２）経時測定データ　・一般線形混合効果モデル　・多重補間法	１）１時点のデータ　・多重補間法２）経時測定データ　・一般線形混合効果モデル　・多重補間法　・GEEの重み付け解析
MNAR	・選択モデル・パターン混合モデル	・選択モデル・パターン混合モデル