反復測定デザインの F-比の歪みの可能性

反復測定デザインの F-比等の歪みの可能性

このページは、平成１１年３月３０日に一部更新しました。
このページは、令和２年４月２４日に一部更新しました。

　このページでは、反復測定デザインの検定時の F-比等の歪みについて以下の項に分けて概要を説明する：

1. F-比等の歪みの可能性の概略

2. 危険率のインフレの SAS によるシミュレーション

3. SAS によるシミュレーション結果

4. 引用文献

5. SAS プログラムや文献のダウンロードコーナー

1. F-比等の歪みの可能性の概略

　反復測定デザインでは、因子の各水準に異なる被験者を割り付ける通常の分散分析デザインと異なり各水準に同一の被験者が割り付けられるので、そのような因子は周知のように被験者間要因に対比させて被験者内要因とも呼ばれる。

　教育や心理の分野では、分散分析デザインとしてこの被験者内要因を１つ以上含める実験を行うことが多い。このような要因を含む分散分析デザインは、いわゆる乱塊法、乱塊要因デザイン、もしくは分割区画デザインモデルで、ブロック因子にあたる要因の各水準を各被験者と見た場合がモデルとなる。

　いずれにせよ、被験者内要因では同一被験者が異なる水準に反応させられるので、多くの場合水準間に相関が生じる。その結果、上記デザインでの反復測定要因がらみの主効果や全体的交互作用の検定時の F-比や、さらにはそれらの帰無仮説が棄却された時の各種対比検定時の t-値が歪む可能性が出てくる。例えば、主効果や全体的交互作用については、この歪みの有無を検討するための仮説は球形仮説もしくは、球状性仮説（英語では、sphericity hypothesis と呼ばれる）と呼ばれ、いわゆる球形（球状性）検定 (sphericity test) により検定できる。もっとも、球形検定も、２要因以上の反復測定デザインでは大局的球形仮説や局所的球形仮説を、被験者間要因と被験者内要因のミックスしたデザインでは、多標本球形仮説を検定する必要がある。

　不幸なことに、本邦においても欧米においても一部の研究者や学術雑誌を除き、最近までこれらの歪みに対する楽観的見解が支配的であった。つまり、球形仮説からの乖離に対する全体的 F-検定の頑健性について内外の論文の幾つかでは、テストサイズ（第１種の過誤）のインフレは、例えば名目サイズ５パーセントの場合、高々１０パーセントぐらいであるので、危険率を少し小さめに取っておけばよい、という見解を述べている。しかし、この見解は以下の簡単な SAS によるシミュレーションを行えば、楽観的すぎることは明らかである（詳細は、例えば Chino, 1995 を参照）。

2. 危険率のインフレの SAS によるシミュレーション

　シミュレーションでは、以下の SAS プログラムを用いて、反復測定 RB-p ANOVA （１要因反復測定デザイン）で、球形仮説からの乖離が理論的に最大の場合、すなわち Box/Greenhouse-Geisser のイプシロンの下限値である場合に、反復測定要因の主効果の F-検定を通常の方式で自由度を全く修正しない時、テストサイズの名義水準を５パーセントにした時のインフレの大きさを計算し、グラフにプロットした。
　一般的には、球形仮説からの乖離に対して F-分布はつぎの図の中の赤印の分布のように、（球形仮説が成り立つ時の青印の分布に比べて）青の全体的には左側に倒れるように、また分布の右側の尾はより右の方にずれることにより、名義水準の値からのインフレをまねく。
　なお、最近まで掲載していたこの部分の手書きの図は、一部間違いがあり、以下の最新の図は、MATLAB で書き直したものである。ここに記してお詫びしたい：

　上の図で、例えば標本の F=2.2 であるとする。また、この値から y 軸に垂直に伸びる線分より右側の部分の面積、すなわち p値は、赤色の F分布、すなわち球形仮説が成り立っていない場合の F分布の場合の方が、青色の F分布、すなわち球形仮説が成り立つ時の F分布の場合よりも明らかに大きい。この現象が、p 値のインフレを指す。ここで、もちろん図の赤色の F分布の p値は、図の赤で塗りつぶされた部分の面積と青で塗りつぶされた部分の面積の和である。

　つぎのシミュレーションは、歪みが最大の場合（すなわち、Box/Greenhouse-Geisser のイプシロンの下限値である場合）に、上の斜線部と網掛け部の合計がどれぐらいになるかを水準数やサンプル数をいろいろ変えて計算させた結果である。

危険率のインフレの計算のための SAS プログラム

options pagesize=60 ls=80;
data work;
 array ns(5) (3 5 10 20 30);
 alpha=0.05;
 prob=1-alpha;
 ndfr=1;
 do size=1 to 5;
  ns1=ns(size)-1;
  ddfr=ns1;
   do level=3 to 27 by 3;
    ndf=level-1;
    ddf=ndf*ns1;
    f1=finv(prob,ndf,ddf);      /* most liberal F-test */
      p1=1-probf(f1,ndf,ddf);
      f2=finv(prob,ndfr,ddfr);  /* conservative F-test */
      p2=1-probf(f2,ndfr,ddfr);
    pvalue=1-probf(f1,ndfr,ddfr); /* overestimated p-value */
    output;
   end;
 end;
run;

  title 'probability that F is greater than an actual value';
proc print data=work;
run;

/* options pagesize=50 ls=80;  */
proc plot data=work;
 plot pvalue*level=size;
run;

　うえのプログラムを実行すると、つぎのようなグラフが出力される。興味のあるユーザは、自分のサイトで試してみると良い。

3. SAS によるシミュレーション結果

pvalue |                                                              1    1
       |                                                    1    1
       |                                               1
  0.30 +                                          1
       |                                     1
       |                                1
       |                           1                                  2    2
       |                      1                             2    2
       |                                          2    2
  0.25 +                 1                   2                             3
       |                                2                   3    3    3
       |                           2                   3         4    4    4
       |            1         2              3    3    4    4    5    5
       |                                3         4    5
       |                 2         3    4    4
  0.20 +                      3    4    5
       |       1    2              5
       |                 3    4
       |                 4
       |            3    5
       |       2    4
  0.15 +            5
       |       3
       |       4
       |       5
       |  1
       |     C
  0.10 +  2
       |  3
       |  5
       |       B              B
       |
       |  B
  0.05 +-----C----------------------------------------------------------------
       |
       |
       |
       |
       |
  0.00 +
       |
       ---+----+----+----+----+----+----+----+----+----+----+----+----+----+--
          3    5    7    9   11   13   15   17   19   21   23   25   27   29
                                                                        level

  Figure 1.  Theoretical maxima of the inflation of the test size in repeated
    measures RB-I ANOVA design when the nominal test size is 0.05.  Numbers,
    1, 2, 3, 4, 5, indicate sample sizes, 3, 5, 10, 20, 30, respectively.
    Positions labelled B and C indicate results by Box (1954b) and Collier
    et al. (1967), respectively.

　上の図で、横軸は反復測定 RB-p デザインにおける反復測度の水準数を表す。また、縦軸は危険率が名目５パーセントの時、球形仮説からの乖離が理論的に最大の場合、危険率はどれぐらいインフレを起こしているかの p-値である。また、図のタイトルの説明にあるように、図中の数字で１、２、・・・、５は、サンプルサイズがそれぞれ、３、５、１０、２０、３０であることを指す。また、図中 B 及び C の文字は、やはり図のタイトルにあるように、Box (1954) や Collier (1967) のシミュレーションでの、名義５パーセントの場合のインフレのシミュレーション結果である。彼らの結果が一部の研究者の、F-比の歪みに対する楽観的見解を形成させたわけである。

　しかし、上の図から、彼らのシミュレーションが如何に偏ったものであったかは明白である。この図からは、当該デザインの場合、反復測度の水準数が大で、サンプル数が小さい場合には、場合によっては p-値が 0.3 を越えること、すなわちインフレ率は（0.05 の）６倍を超すこともあることがわかる。この結果は、一部の研究者の言う楽観的見解は場合によっては大変危険であることを示唆している。

　反復測定デザインに関する詳細な議論については、以下に掲げた Chino (1993, 1994, 1995) を参照されたい。これらについては、ワープロソフト Latex を使っているユーザは、このページの最後のダウンロードコーナーで直接ダウンロードしていただきたい。

4. 引用文献

Box, G. E. P. (1954). Some theorems on quadratic forms applied in the study of analysis of variance problems - II. Effects of inequality of variance and of correlation between errors in the two-way classification. The Annals of Mathematical Statistics, 25, 484-498.
千野直仁 (1993). 反復測度デザイン概説 - その１. 愛知学院大学文学部紀要. 第２３号. 223-236.
千野直仁 (1994). 反復測度デザイン概説 - その２. 愛知学院大学文学部紀要. 第２４号. 103-119.
千野直仁 (1995). 教育や心理の分野における ANOVA, MANOVA, GMANOVA 適用上の問題点. 愛知学院大学文学部紀要. 第２５号. 71-96.
Collier, R. O., Baker, F. B., Mandeville, G. K., & Hayes, T. F. (1967). Estimates of test size for several test procedures based on conventional variance ratios in the repeated measures design. Psychometrika, 32, 339-353.

5. SAS プログラムや文献のダウンロードコーナー

a) インフレシミュレーションの SAS プログラム

b) Chino (1993) 論文の本文のみ

c) Chino (1993) 論文の図表

d) Chino (1993) 論文の引用文献

e) Chino (1994) 論文（図表、引用文献含む）

f) Chino (1995) 論文（本文及び図表のみ）

g) Chino (1995) 論文の引用文献