2.7節  交差妥当化・階層的重回帰分析

  従来から、重回帰分析の応用に関しては、交差妥当化(cross-validation)の 必要性が論じられている(たとえば、McNemar, 1969; Cooley & Lohnes, 1971, Mosteller & Tukey, 1977)。もともと、(2.1)式のモデルの偏回帰係数の 推定値 j ,j =1,2, ... ,m は、(2.57)式で表わされる誤差を伴い、 式から明らかなように、予測変数の値を要素とするデータ行列 Xm が ランク落ちかかっていると、標準誤差は非常に大きな値をとる可能性が ある。この問題は多重共線性(multi-colinearity)として知られている。 さらに、みかけ上は偏回帰係数の値は小さくてもそのような変数を組み込む と予測力が高まる、いわゆる抑圧変数(suppressor variable)の存在する こともある。

  このようなわけで、重回帰分析による結論を出すに際しては、同種のデータ に対して、得られた変数の組(効いている変数として)と回帰係数を用いて 基準変数の予測値を求め、慎重に予測力の検討を行うことが望まれる。単純で よく知られている交差妥当化の方法は、1組のデータを用いて、基準変数に 効いている変数の決定(たとえば、既述の偏回帰係数の検定を用いたり、 逐次回帰(stepwise regression)の各種方法-前進選択(forward selection) 、後進選択(backward selection or elimination)など-を用いたり)と 絞られた変数による偏回帰係数の推定を行い、得られた偏回帰係数を同種の もう1組のデータに適用し得られた予測値と実測値との間の相関係数を 計算するものである。これに対して、変数の決定と偏回帰係数の決定を 別のデータで行い、同種の第3組目のデータに第2組目のデータで得ら れる偏回帰係数を適用する方法もあり、二重交差妥当化( double cross-validation)と呼ばれている(たとえば、上記、Mosteller & Tukey, 1977)。

  いずれにせよ、基準変数と複数の予測変数に関するデータを手にしたとき、 何らかの目的で予測変数の選択が必要となる場合、(2.75)式のAICをそれ ぞれのモデルの場合に計算し、それが最小になるようなモデルを選ぶことに すれば、1つの合理的な方法であるといえよう。実際問題として、1組のデ ータにわれわれが単純な重回帰による偏回帰係数の検定により予測変数を 選択した結果と、逐次回帰の各種の方法により選択した結果とを比較して みると、絞られる変数は必ずしも一致しない。

  これまでの議論から、重回帰分析のモデルでは、通常、予測変数は確率 変数ではなく定数とみなされるので、分散分析の場合と同様、予測変数は 何も連続変数のみである必要はない。

  また、予測変数の中に因果的に先行する変数があったりする場合(これ は causal priority 因果優先と呼ばれる)、先行する変数による重回帰 を行い、後続する変数を後で加え、重相関係数の増加を検討する方法もあ る。この方法による重回帰は、階層的重回帰分析( hierarchical multiple regression)と呼ばれる。

  これらについては、Cohen & Cohen (1975) が詳しい。