２.６節　残差分析の必要性

　これまで何節かに亘り重回帰分析の理論にふれてきたが、これを実際のデータに適用するに際しては、他の統計的方法と同様分析の前提を得られたデータが満たしているかどうかを検討してから結論を下すべきであろう。

　そこで、2.1 節で述べた重回帰分析モデルの前提とその骨子をここで復習のためまとめてみると、つぎのようになる。まず、モデルの大前提は、(2.1) 式の誤差項 E₁ , E₂ , ... , E_N が、平均 0、分散 σ² の正規分布母集団からの互いに独立なサンプルである、というものである。

　もしこの仮定が正しいとすれば、標本重相関係数 R から計算される量 F = (R² /m )/(1 - R² )/(N - m - 1) は、母重相関係数がゼロ（もしくは、偏回帰係数がすべてゼロ）なる帰無仮説のもとで、自由度 m 及び N - m -1 なる F -分布に従う。また、同じくうえの仮定が正しいとすれば、偏回帰係数の推定値から計算される量 t（省略）は、母偏回帰係数がゼロ（もしくは定数）なる帰無仮説のもとで、自由度 N - m -1 なる t -分布に従う。

　重回帰分析では、データがこれらの仮定を満たしているかどうかを検討するのが慎重な態度であろう。とりわけ、誤差項の解析は残差分析 (residual analysis) として知られており（例えば、Belsley, Kuh, & Welsch, 1980; Draper & Smith, 1966; 奥野ら、1972; 柳井・高木編著、 1989）、誤差分布が果たして正規分布母集団からのサンプルと言えるかどうか、誤差間に相関がないか、誤差分散が一定と言えるか、外れ値 (outlier) がないかどうか、などの検討を行うとよい。

　例えば正規性の検討は、正規確率紙へのプロットや直接的な検定の方法があるが、ＳＡＳプログラムを用いれば簡単に正規性の検定を行わせることができる。また、誤差間の相関が予想される場合には、ダービン・ワットソン比などを計算させるとよい。外れ値の有無の検討には、各サンプルのサンプル番号を横に取り、誤差推定値を縦軸に取り、単純にプロットしたり、てこ比 (leverage) 等を計算し出力させるとよい。てこ比は、つぎのように定義される：

　ここで、基準変数を (2.8) 式の y_B のように平均を引いたものとせず、 (2.2) 式の左辺のような y で与えられるものとすると、y の予測値は、(2.11) 式とよく似た形の = X と表される。また、も (2.12) 式とよく似た形の = (X^tX )^-1 X^ty と書ける。この時、X^t X は正則であるものとする。これらより、 = H y が成り立つ。ここで、 H = X ( X^t X )^-1 X^t である。この行列 H の対角要素 h _ii = h _i = x_i (X^t X )^-1 x^t_i のうち値の大きなものをてこ比と呼ぶ。h_i の値は常に 0 ≦ h_i ≦ 1 である。Belsley, Kuh, and Welsch (1980) は、h_i ≧ 2q / N なる h_i を持つ観測値（サンプル）をてこ比点 (leverage point) と呼ぶ。 q は回帰係数の数であり、一般的には β₀ も含むので q =m +1（予測変数数プラス１）である。　もっとも、重回帰分析におけるデータの正規性からのズレに対する F -検定量の頑健性については、古くから知られている。例えば、Box & Watson (1962) は、 F -統計量は正規分布に近い分布の場合には頑健であることを示している。しかし同時に、予測変数のうち１つか２つが他と大きさが大きく異なる時には、非正規性に対する F -検定量の頑健性は失われること、なども報告している。すなわち、 F -検定は正規性からのズレに対して手放しで頑健であるわけではないことに注意が必要である。

　上述の誤差分析とりわけ外れ値等に対処するためのもう１つの方法として最近数理統計学の分野で注目を集めているのが、重回帰分析にロバスト推定 (robust estimation) を用いるものである（例えば、Huber, 1981; Staudte & Sheather, 1990）。一般に、外れ値が予想されるようなデータの場合、共分散行列や偏回帰係数の推定にも大きな影響が及ぶことがわかっている。そこで、この方法では、外れ値を見つけて最初から除くのではなく、外れ値による影響を小さくするような一種の重みを導入し偏回帰係数を推定する。Huber の古典的 M-推定量 (M-estimators) は、その１つの例である。

　最後に、重回帰分析では上述のような外れ値等の問題をクリアできたとしても、なお問題となる点の１つは予測的妥当性であろう。すなわち、一回の標本から重相関係数が統計的に有意であったとしても、そのことは必ずしも新たな同種のサンプルに対して得られた重回帰方程式を用いての基準変数の予測が予測的妥当性を持つことを十分に保証するわけではない。その点を検討する問題は、つぎの節でふれるように、古くから交差妥当性 (cross-validation) の問題として知られている（例えば、McNemar, 1969）。

２.６節 残差分析の必要性

２.６節　残差分析の必要性