このページは、平成10年3月3日に開設しました。
このページは、令和2年4月27日に一部更新しました。
2.1 節 球形検定
2.1.1 節 対称性仮定と球形仮定
反復測度デザインを用いると、しばしば各反復測度要因の水準間には 相関関係 が生じる。そのために、1.5.2 節で 指摘したように、反復測度要因の効果の有無を検定す るためのF比が、帰無仮説のもとで必ずしも正確なF-分布に従うとは限らない。 Rouanet and L\'epine (1970) によれば、 1960年代までは、帰無仮説のもとでF比 が正確なF-分布に従うための条件として、対称性仮定 (symmetry assumption) が知られていたが、それがF比の正確なF-分布に従うため の必要条件なのか十分条件なのかについて、統計学者の間でさえ定説がなかった。
対称性は複合対称性 (compound symmetry) と呼 ばれることもあるが (Crowder & Hand, 1990; Kirk, 1982)、一般に反復測度の水準 数を p として、水準間母共分散行列 (population covariance matrix)
(2.1) |
について、
(2.2) |
(2.3) |
が成り立つことをいう。(2.2)及び(2.3)式が成り立つ行列はS型行列 (a type S matrix) と呼ばれることがある (Huynh and Feldt, 1970)。
もっとも、反復測度デザインにおけるF比の性質については、Box (1954a, 1954b) の先駆的研究がある。Box は、一連の研究とりわけ後者で、Kirk (1982) 流に言えば RB-p デザインにおけるF比の性質について、つぎの2つのケース を考察している:
Box によれば、これら2つのケースは、当該分散分析モデルでの誤差項 ベクトルの直交変換を考えたとき、変換後の第 k 水準とそれ以外の k-1 個の 水準間の共分散がすべてゼロになるための条件が満たされていない 特殊ケースに過ぎない(Box, 1954b, p.489)。
その条件とは、(2.1) 式すなわち、一般の処理要因の水準間母共分散 行列の各行(または各列)の和がすべて一定であるというものであり、Box はこれが 満たされるケースとして、
Box は一連の研究により、つぎのような結論を得ている:
(1) 任意の Σ の場合、表 1.13 の SSA と SS E は独立であるが、 処理要因のF比 U A / U E の自由度は
|
(2) 任意の Σ の場合、表 1.13 の SSBL と SS E は一般に 独立ではなく、うえの条件が満たされていないときには、ブロック因子の F比 U BL / U E は偏る。
(3) ケース1の場合、帰無仮説のもとで、処理要因のF比は過大評価され、 ブロック因子のF比は過小評価される。
(4) ケース2の場合、系列相関の影響は、ブロック因子に対しては大きいが、 (反復測度としての)処理要因に対しては小さい。
これらのうち、(1) の ε については、 Boxのε因子 と呼ばれている(例えば、SAS/STAT User's Guide, Release 6.03 edition, 1988; 同 Release 6.07 edition, 1990)。 最近ではこれを改良した幾つかの指標が提案されている。詳細については、2.1.2 節で ふれる。
これに対して、Huynh and Feldt (1970) と Rouanet and Lépine (1970) は、 対称性よりさらにゆるい条件である循環性仮定 (circularity assumption)
|
が、帰無仮説のもとでF比の正確なF-分布に従うための必要十分条件であること を明確に示した。 ここで、一般に行列 M は m 行 p 列 (m< p-1) の 正規直交対比行列 (orthonormal contrast matrix) 行列 I m は m 行 m 列の 単位行列である(したがって、MM t= I m であり、行列 I m の次数 は m 次である。また、行列 M の各行は対比を表すので、M 1p = 0 であ り、ベクトル 0 の次数は m である)。また、c 2 は未知の正定数である。
一般的に、行列の各行にいわゆる対比 (contrast)
(2.6) |
(2.7) |
(2.8) |
と書くことになるが、本質的な問題ではない。また、(2.6)式の αi, i=1,2,…,p は、当該反復測度要因の p 個の水準の効果を表す。
ところで、(2.8) 式が成り立つような行列は "spherical" と呼ばれるので、循環 性仮定のことを sphericity assumption とか sphericity condition と呼ぶことも多い (Crowder et al., 1990; Hochberg & Tamhane, 1987; Kirk, 1982)。
これについて、本邦では SPSS/PC+ の日本語版マ ニュアル (Release 3.0) が、球状性仮定、竹内啓監修高橋行雄ら著 (1990) SAS による実験データの解析、が球面性(仮定)、STATISTICA (1996) が、 球面性検定と訳しているが、定訳はない。最近では、SPSS も SAS も球面性 検定と呼んでいる。
これらのうち、球面性という訳は日本語のニュアンスとして球の"面"というイ メージを連想しやすいのに対して、本来の sphere の意味は、例えば Cambridge Advanced Learner's Dictionary, 3rd Ed. では、"an object shaped like a round ball" となっており、「丸いボール」ではあっても「球の表面」 の意味ではない。筆者は、以下に紹介するもとの sphericity test の意味及びそれとの混同の可能性、呼び安さ等を考慮して、これを 球形検定と訳した (Chino, 1993; 1994; 1995b)。
一方、分散分析の文脈とは離れて多変量仮説の検定の一つとして知られている検定 に、モクリー の等方性検定 (sphericity test) (Mauchly, 1940) がある。ちなみに、等方性検定のための帰無仮説である、等方性仮説は、 少し後の (2.9) 式で表される。ここで、等方性の訳は竹内 (1989) 編集の統計学辞典 による。等方性検定の意味はもとの変数が"面"ではなく多次元の方向に等質 的に広がっているかどうかである。千野は、最近ではこちらも「球形検定」と訳している。
ここで、Mauchly 発音については、最近彼が 1940 年当時教鞭を執っていた米国の Ursinus College の数学のある教授に筆者が直接確認したところ、モクリーと呼ばれ ていたことがわかった。これについては、たとえば STATISTICA は、少なくとも平成 11年の時点ではマーキュリーの球面性の検定と呼んでいるが、この発音は 適切とは言いがたいし、混乱を招くのではないか。
等方性検定は、たとえば Anderson (1958) にも示されているように、もともと N (μ, Σ)、すなわち p 次元多変量正規母集団からの無 作為標本 x 1, x 2, ... , x N をもとに、帰無仮説
(2.9) |
を検定するもので、 sphericity という概念は、この H 0 その ものの幾何学的意味に由来する。ここで、σ は、未知の定数である。(2.9) 式は、 p 次元多変量データが、任意の平均ベクトル(μ)を持ち、分散一定 (σ2) ですべての変量間の共分散(したがって相関も)がゼロなる多変 量正規分布母集団からの 標本である 、という仮説である。
一般に N (μ, Σ) なる母集団での変数 x の分布は、p 次元空間の
(2.10) |
なる集中楕円面 (concentration ellipsoids) で表され、さら
にその広がり具合は、楕円面の主軸 (principal axes) により
表現できる。
そこで、(2.9)式で表される等方性仮定は、直前のパラグラフの青色で示した言い方とは異な
るもう1つの言い方として、
主軸の長さがすべて等しい、すなわち球 (sphere) であると
する仮定である
、ということもできる。言い換えればこの仮定のもとでは、
変量の分布はどの方向に対しても等方的である
、とも言える。
上のような議論からは、(2.8) 式の仮説の検定、すなわち球形検定は正規直交 対比変数に適用された場合のモクリーの等方性検定、とも呼べる。Huynh and Feldt (1970) は、分散分析の文脈では (2.8) 式が成り立つことが、要因の効果の検定統計量 F が歪まない ための必要十分条件であることを示している。
一方、Rouanet et al., (1970) が示したのは、(2.5)式そのものでなく、
(2.11) |
という条件である。(2.11)式は、反復測度要因の水準相互の変量の差の分散が すべて等しいことを表しており、彼らはこの条件が、(2.5) 式に等しいとした。 (2.11)式を満たすような Σ は、H 型行列 (a type H matarix, ΣH) と呼ばれたり (Huynh and Feldt, 1970)、 SAS などでは H 型共分散 (a type H covariance) と 呼ばれたりする。これに対して、 Mendoza, Toothaker, and Crain (1976) は、 Σ が H 型でなくても球形仮定が成り立つことを示している。
以下の図1では、モクリーの多変量仮説の1つとしてのもとの等方性仮説(球形仮説)が成り立 つ場合のデータの特徴を MATLAB によりイラスト化して示した。図の4つの散布図のうち、上部左側 の図は、平均がすべてゼロで変数相互間もすべて無相関なる 1,000 個の3変数からなる正規乱数を 発生させ、3次元空間上にプロットしたものである。それに対して、4つの散布図の残りの3つは、 当該3変数の3次元空間への同時プロットではなく、いわばそれを Dim.1-Dim.2 平面、を Dim.1-Dim.3 平面、 を Dim.2-Dim.3 平面に順に投影した2次元の散布図である。
図1.多変量仮説の1つとしてのモクリーの等方性仮説が成り立つ場合の3変量データの散布図
一方、つぎの図2は、MATLAB の球面座標生成のルーチンを用いて3変数の球面上の座標値 を発生させ、特別な MATLAB の球面描画ルーチンによりこれを上部左側の図に、また、当該 3変数の3次元球面上の点の座標を2次元ごと、すなわち 1-2 平面、1-3 平面、及び 2-3 平面に投影して描いたものである。これらの図のうち、上部左側の球面の図を除く他の3つの 平面上に投影された球面上の座標では、これらの点が球の表面にのみ位置することを明示でき ていない。
図2.MATLAB による3変数の球面上の座標値による3次元球面の表示と、座標値の2次元平面への投影
そこで、図3では半径2の2次元球面、すなわち円の周上の 201 点のそれぞれの位置で、標準偏差 の異なる正規乱数を5つづつ発生させプロットさせた。この図は、多変量仮説としての等方性検定に おける等方性の意味を、2変量の場合に限定し、さらにデータが2次元平面上に等方的に広がってい るのではなく、2次元球面の近傍にのみ広がっていると(誤って)仮定した場合にイラスト化したも のである。
ここで、このような2次元平面上でのデータの分布状態は、分散分析の文脈での球形仮説、(2.8) 式が 例えば1要因反復測定デザイン ANOVA で要因の水準数が3の場合、3変量を特別な形で変数変換するこ とにより2変量に変換することに対応している。
図3.SAS や SPSS の表現である「球面性仮説」の2次元版における常識のレベルでの意味内容
上記図1から図3を見れば、「球面性」という "球の表面を連想させる" 表現が、 モクリーのもとの多変量仮説の文脈でも、また分散分析の文脈でも、適切とは言えないことは明らか である。
つぎに、球形仮定は実際のデータを考えるとき果たして成り立つことが多いのであろうか。一般的 には、この仮定はデータの性質に依存しよう。ここでは、1.5.5 節の鏡映描写実験データの標本共分 散行列を表 2.1 に示し、その特徴及び Mauchly の球形検定の結果にふれる。
この表の試行間共分散行列の特徴は、反復側度の水準に時点を充てる時に しばしば見られるもので、隣接試行間の相関は相対的に高いが間隔が離れる程 低くなっている。1.5.5 節のデータに対して Mauchly の球形検定を行うと、あとで 見るように球形仮定は成り立っていないことがわかる。
最後に、3変量の架空のデータを考えてみよう。表 2.2 は3変量間の正規乱数を発生させる に際しての正規分布の標本共分散行列である。ここで、同分布の平均ベクトルは、(1.0, 2.0, 3.0) である。
また、図4は、うえの表 2.2 なる標本共分散行列を持つ正規乱数データを MATLAB で 1000 サンプ ル分発生させた時の3変量間の散布図と、それを各2次元平面上に投影した場合の2変量散布図を示し たものである。
図4.架空の 1000 個の3変量正規乱数による3変量の散布図
最後に、図5はこのデータを正規直交行列(ここでは、 ヘルメルト行列)により2変量データに変換し たものの散布図を示す。変換後の2変量データの相関係数は、-0.2459 であり、その共分散行列も必ず しも (2.8) 式の球形仮説どうりにはなっていない。もちろん、実際のデータでは、この例のように球形 仮説はいつも満たされるとは限らず、そのような場合、球形仮説からの乖離が大きくなると分散分析に おける要因の効果の検定のための統計量に無視できない歪みが生ずることになる。
図5.架空の 1000 個のデータの正規直交変換行列による変換後の2変量の散布図