第１章　少数データの平均と標準偏差の求め方

　この章は、つぎの８項から成り立っています：

1.1データ
1.2目的
1.3注意事項
1.4問題
1.5計算公式
1.6予習課題と予習箇所
1.7実習レポート記入の仕方
1.8 統計ソフト SAS を用いた平均・分散等計算プログラムの実行手順
1.9 統計ソフト SPSS を用いた平均・分散等計算プログラムの実行手順

このページは、令和２年５月５日に一部修正しました。

1.1 データ

A 大学文学部心理学科１年生全員の身長データから N =10 名をでたらめに（ランダム）に抜き取ったもの

（一般形）

x ₁ , x ₂ , ... , x _N

(N は少数）

1.2 目的

少数データの平均 (mean) と標準偏差 (standard deviation) の求め方を学習する

1.3 注意事項

この例でのデータの尺度レベルは、名義尺度 (nominal scale)、順序尺度 (ordinal scale)（もしくは、序数尺度）、間隔尺度 (interval scale)（もしくは、距離尺度）、比尺度 (ratio scale)（もしくは、比率尺度、比例尺度）のいずれか？
平均と標準偏差を求めることは、妥当か？

1.4 問題

手計算で、各人が岩原教科書から転記する少数データの平均、分散 (variance)、不偏分散 (unbiased estimate of variance)、と標準偏差を計算せよ

1.5 計算公式

平均

(1.1)
分散

(1.2)

ただし、卓上計算機で分散を求めるには、上式をつぎのように変形したものを用いるのが便利であるし、計算間違いし難い：

(1.3)
不偏分散

(1.4)
標準偏差

(1.5)

1.6 予習課題と予習箇所

1. 名義、順序、間隔、比率尺度について
岩原（著）教育と心理のための推計学/　第１章 1.3 節四種の測定尺度
2. 平均と標準偏差について
岩原（著）教育と心理のための推計学/　第４章 4.1 節　代表値とは何か、4.4 節算術平均、第５章 5.1 節　散布度とは何か、5.5 節　標準偏差

1.7 実習レポート記入の仕方

　以下の項目について、すべて小数第３位を四捨五入して、小数第２位までの数値を出席カードの裏側に順に書き写せ。その際、一行一項目とし、1. 平均 32.50 のように書くこと。

平均 ()
分散 ( v _x )
不偏分散 ( u _x )
標準偏差 ( s _x )

1.8 統計ソフト SAS を用いた平均・分散等計算プログラムの実行手順

　これまで、手計算による N 個のデータの平均、分散、不偏分散、標準偏差の計算方法について述べてきたが、サンプル数が大きくなると、たいへんな手間がかかる。このような作業は本来人間には向かない。原理さえわかれば、諸君は今やこの種の作業を手計算でやる時代ではない。以下の例は、国際的な統計ソフト SAS を用いた平均、分散等の計算の手順を示す。

　ここでは、N 個のデータの平均、分散、不偏分散、標準偏差の計算のための SAS プログラムを紹介する。SAS を実行する手順を示す前に、ここで利用するデータと出力結果の一部、及びそのための SAS プログラムを紹介する。

　この節は、以下に順に示す２つの例ごとに、つぎの４項から成り立っている：

宿題

1.8.1.1データ例
1.8.1.2出力結果の例
1.8.1.3SAS プログラムの例
1.8.1.4SAS による具体的手順

1.8.1.1 データ例

　つぎのデータは、ここでは、心理統計学のテキストの乱数表から取った１０個の架空のデータである。

1 10 2 96 3 26 4 12 5 97 6 18 7 96 8 57 9 15 10 54

--- 心理統計学のテキストから取り出した、データの平均、分散等の計算のための架空データ例 ---

　学生諸君は、この表の中から、各自の通し番号に対応する箇所から、縦に見て続けて１０個を各ページから取り出し、情報処理教育センター(以降、ecip と省略する）の各自でログインした時の z ドライブの下の My Documents -> SASUniversityEdition -> myfolders の下の data フォルダの中に、TeraPad を用いてファイル名 basic_stat.txt なる名前をつけてうえの例のように入力し保存すること。その際、「名前をつけて保存」画面で、ファイル名の下のファイルの種類は「テキストドキュメント- MS-DOS 形式」を選択すること。

　平成２８年度現在、SAS は情報処理教育センターの、第１及び９クライアント室で利用できるが、学生諸君は通常は（授業の入っていない一般利用用に開放されている）第１クライアント室で SAS を使うこと。

　ここで、うえの１０個のデータの各行は１０人の被験者に対応し、各行とも最初の２桁の数値が被験者番号を、１つ空白を置き２桁で打ってあるのが、何らかの心理テストの得点であるとする。もちろん、データはすべて全角ではなく、半角で入力せよ。

　学籍番号に対応する各人のデータの先頭は、各ページごと、左上から下に向かって２桁の数値を５つづつ飛ばして到達する位置とする。各列の最後に来たら、次の列の先頭に戻りカウントすること。

　例えば、学籍番号 001 の学生は、p.445 の数値の左最上部の数値から始め、94, 18, ..., 06, 63 の１０個をデータとして、上記データファイルに入力する。

　また、例えば学籍番号 012 の学生ならば、p.445 の数値左最上部から２列目の６つ目の数値から始め、81, 18, ..., 78, 03 の１０個をデータとして、データファイルに入力する。

1.8.1.2 出力結果の例

　以下の計算結果は、後続の SAS プログラムよって得られたものである。

                        Some statistics on a set of data
                     
                                          
                             UNIVARIATE プロシジャ
                          変数 :  x  (mark of a test)

                                   モーメント

           N                       10    重み変数の合計            10
           平均                  48.1    合計                     481
           標準偏差        37.0268671    分散              1370.98889
           歪度            0.44039616    尖度              -1.7476455
           無修正平方和         35475    修正済平方和         12338.9
           変動係数        76.9789337    平均の標準誤差    11.7089235


                                  基本統計量

                       位置                   ばらつき

                 平均     48.10000     標準偏差       37.02687
                 中央値   40.00000     分散               1371
                 最頻値   96.00000     範囲           87.00000
                                       四分位範囲     81.00000


                              位置の検定 H0: Mu0=0

             検定                 --統計量---    -------p 値-------

             Student の t 検定    t  4.107978    Pr > |t|    0.0026
             符号検定             M         5    Pr >= |M|   0.0020
             符号付順位検定       S      27.5    Pr >= |S|   0.0020


                               分位点 ( 定義 5 )

                             分位点         推定値

                             100% 最大値      97.0
                             99%              97.0
                             95%              97.0
                             90%              96.5
                             75% Q3           96.0
                             50% 中央値       40.0
                             25% Q1           15.0
                             10%              11.0
                             5%               10.0
                             1%               10.0
                             0% 最小値        10.0


                                      極値

                        ---最小値---        ---最大値---

                         値      Obs         値      Obs

                         10        1         54       10
                         12        4         57        8
                         15        9         96        2
                         18        6         96        7
                         26        3         97        5



                       print the mean, var, u_x, and std
                   
                                          
             OBS    noss    xmean      xvar       u_x        xstd

              1      10      48.1    1233.89    1370.99    35.1268

--- １０個のデータの平均、分散、不偏分散、標準偏差の出力結果 ---

　うえの出力結果のうち、最初の部分はのちに示す SAS プログラムによる univariate プロシジャの出力結果で、諸君が手計算で行なった平均、標準偏差、分散以外にも多くの基礎的なデータの統計量が計算されていることがわかる。ここで注意すべきは、SAS の以下のプログラムでうえのように最初に出力される標準偏差と分散は、授業で言う不偏標準偏差と不偏分散であることに注意せよ。

　出力の最後の行は、この点を考慮してうえの結果の一部を修正した結果である。出力は左端から順に、OBS、noss（標本数）、 xmean（平均）、xvar（分散）、u_x（不偏分散）、xstd（標準偏差）である。最初の OBS の値 1 は、SAS 独特の出力によるもので、諸君の計算結果にはかかわりないので、無視せよ。いずれにせよ、これらの値を、諸君の授業中に手計算した結果と比較し、手計算が間違っていたならば、うえの結果と一致するまで各自で計算のし直しをしておくこと。そうしないと、定期試験で合格点が取れないであろう。

　1.8.1.3 SAS プログラムの例

　上記のような少数データの出力結果を手にするためには、SAS の場合、まずデータに変数情報等を付けて特定のフォルダに保存しておくことはせず、それを SAS プログラムの中に入れておいて、そのまま特定のプロシジャ、例えば univairate プロシジャで分析するのが簡単である。

　しかし、ここでは諸君にとって初めての SAS プログラムによる宿題なので、より一般的な大サンプルの場合に便利な方法として、あらかじめデータのみを data フォルダに保存しておいて、それをプログラム中から呼び出して特定のプロシジャで分析するやり方を勉強することにする。以下には、そのための SAS プログラムを示した。

　このやり方の場合も、実はいろいろなやり方で最終的な結果を得ることが可能である。１つは、data フォルダに保存されたデータを呼び出して、データのそれぞれに変数情報等をつけて、一旦 SAS に特有の「永久 SAS ファイル」というファイルにそれらの情報を保存した上で、改めて別のプログラムにより必要なデータの分析を行なう方法である。他方は、これらの２ステップを１つのプログラム上で行なってしまう方法である。この場合は、変数情報を付与されたデータは、SAS では「一時 SAS ファイル」という名前の一時的なファイルに保存されるが、この種のファイルはセッションが終了すると消えてしまうファイルである。

　ここでは、データの変数情報の付与の後、同一プログラム内でこれらの統計量を計算するプログラムにした。プログラム名は、basic_stat.sas とする。以下に、ecip に (1) 平成28年度から導入された SAS 無償バージョン用のプログラムと (2) 平成27年度まで導入されていた SAS バージョン 9.4 等でのプログラムを順に示す。平成28年度からは、（１）の無償バージョンの方しか使えないので注意せよ：

(1) 平成28年度から導入された SAS 無償バージョン用のプログラム

*-------------------------------------------------------------------------*
|                                                        February 2, 2016 |
|   file name: basic_stat.sas                                             |
|                                                                         |
|   a sasprogram for computing some basic statistics on a set of data.    |
|                                                                         |
*-------------------------------------------------------------------------*;
filename data "/folders/myfolders/data/basic_stat.txt";
options ps=60;
data work1;
  infile data;
  input ssno 2. x 3.;
  label ssno='subject number'
	x='mark of a test';
run;

  title 'Some statistics on a set of data';
proc univariate data=work1;
  var x;
  output out=work2 n=noss mean=xmean var=u_x;
run;

  title 'compute the unbiased estimate of variance';
data work3;
  set work2;
  xvar=u_x*(noss-1)/noss;
  xstd=sqrt(xvar);
run;

  title 'print the mean, var, u_x, and std';
proc print data=work3;
  var noss xmean xvar u_x xstd;
run;

--- 架空データを用いた、平均・分散等計算のためのプログラム（無償バージョン用）---

(2) 平成27年度まで導入されていた SAS バージョン 9.4 等でのプログラム

*-------------------------------------------------------------------------*
|                                                       April 1, 2005     |
|   file name: basic_stat.sas                                             |
|                                                                         |
|   a sasprogram for computing some basic statistics on a set of data.    |
|                                                                         |
*-------------------------------------------------------------------------*;
filename data "p:\data\basic_stat.txt";
options ps=60;
data work1;
  infile data;
  input ssno 2. x 3.;
  label ssno='subject number'
	x='mark of a test';
run;

  title 'Some statistics on a set of data';
proc univariate data=work1;
  var x;
  output out=work2 n=noss mean=xmean var=u_x;
run;

  title 'compute the variance & standard deviation';
data work3;
  set work2;
  xvar=u_x*(noss-1)/noss;
  xstd=sqrt(xvar);
run;

  title 'print the mean, var, u_x, and std';
proc print data=work3;
  var noss xmean xvar u_x xstd;
run;

--- 架空データを用いた、平均・分散等計算のためのプログラム（SAS Version 9.4 等用） ---

　1.8.1.4 SAS による具体的手順（SAS 無償バージョン用）

情報処理教育センターのパソコンにログインしたら、最初のみ

z ドライブを開き、前期の初回のみ、ｚドライブ -> My Documents の下に SASUniversityEdition -> myfolders の順に２つのフォルダを新規作成する。その後、myfolders フォルダの下に、data, permfile, sasprog, sasout なる４つのフォルダを作成する。
つぎに、マイコンピュータ -> p ドライブ、とクリックして p ドライブを開き、前期の初回のみ、 p:\psyphy\chino\psycstat\Report なるフォルダパスの下に、まず自分の学籍名のフォルダを作成し、つぎにその直下に data、sasprog、sasout、 permfile　なる４つのフォルダを作成する（これらは前期に作成するので、後期ではこの部分はパスすること）。なお、学籍番号は半角の英数字を使うこと。

うえの 8.1.1.1 節　データ例　のところで説明したやり方で、パソコンから TeraPad を起動し、上記 z ドライブ -> My Documents -> SASUniversityEdition -> myfolders の下の data フォルダの直下に、データを入力し名前をつけて保存する。もちろん、保存すべきファイル名は basic_stat.txt である。ここで、「名前をつけて保存」画面で、ファイル名の下のファイルの種類は「テキストファイル（*.txt)」を選択すること。この指定をするとき、ファイル名は拡張子 .txt をつける必要はない。すなわち、ファイル名は、basic_stat でよい。この場合も半角で入力せよ。

インターネットエクスプローラ (IE) かクローム (Chrome) を開き、このホームページの、下記のダウンロードコーナーからプログラムを z ドライブ -> My Documents -> SASUniversityEdition -> myfolders の下の sasprog フォルダの下に保存する。このプログラムは、平成 28 年度からは SAS 無償バージョン用である。
　保存するためには、ダウンロードコーナーの basic_stat.sas を、マウスを右クリックして現れる選択肢から必要なアイテムを選択する必要がある。ここで、必要なアイテムは、IEと Chromeでつぎのように異なるので注意せよ：

IE の場合、「対象をファイルに保存」を選択し、「名前を付けて保存」ウインドウから上記フォルダに保存する。
Chrome の場合、「名前を付けてリンク先を保存」を選択し、「名前を付けて保存」ウインドウから上記フォルダに保存する。

なお、この時、画面上左上の「保存する場所」の指定を間違えないようにすること。　　　　
一方、ファイル名は諸君が入力せずとも自動的にファイル名欄に入っているはずである。また、「名前をつけて保存」ウインドウの下方の「ファイルの種類」欄には、自動的に「sas ファイル」が選ばれているので、改めて入力する必要はない。
なお、「名前をつけて保存」ウインドウで、「開く」をクリックしてしまうと、SAS が起動してしまうので、「開く」をクリックしないこと。

プログラムのダウンロード・コーナー（授業で指示する日まではダウンロードできません）

basic_stat.sas

デスクトップ画面から SASUniversity Edition を起動し、所定の手順に従い、デスクトップ上に SAS Studio なる画面を表示させる。

その後の手順については、春学期授業の最初に配布するウエブ操作に関するファイルを参照のこと。

脚注

脚注1 :　通し番号は新１年生は学籍番号の下３桁、それ以外の学生は第１回目の授業の時決められものを用いること

脚注2 :　小数点は、同一列内の数字 3 と 8 をダブルマークせよ