|
3.8.1 基本統計

基本的な記述統計操作
個の要素 を持つリストの「平均」Mean[list]は と定義される.
「分散」Variance[list]は と定義される.
「標準偏差」StandardDeviation[list]は と定義される.
list中の要素が何らかの確率分布に従ってランダムに選ばれたと考えられるなら,「平均」は分布の中央がどこにあるかを推定し,標準偏差は分布におけるばらつきの度合いを推定する.
「メジアン」Median[list]は順序付けられたリストSort[list]の中央の値を効果的に与える.これは値の広がりに依存する度合いが低いので,分布の中央を知るための平均よりも強力な尺度であると考えられることが多い.
に当たる「分位数」Quantile[list, q]は順序付けしたリストSort[list]の に当たる値を与える.
長さ のリストについて,MathematicaはQuantile[list, q]がSort[list][[Ceiling[n q]]]であると定義する.
しかし,分位数の定義で使われているものはこの他にも10種類程ある.そのすべてが多少異なった結果を与える.MathematicaはQuantile[list, q,  a, b , c, d ]の形式で4つの「分位数のパラメータ」を導入して一般的な事例をカバーする.パラメータ と は実際にリストのどの部分が の位置であるかを定義する.これが整数の位置に当たるときにはその位置にある要素が に当たる分位数とみなされる.これが整数の位置にないときには, と で定義されているようにどちらかの側の要素の線形結合が使われる.
順序付けしたリスト 中の に当たる分位数の位置は であると考えられる. が整数の場合,分位数は である.その他の場合は である.指標が領域外にあるときは係数を あるいは と考える.

分位数パラメータの一般的な選択肢
のときは, に当たる分位数の値はlist中の何らかの実在の要素に等しいので, が変化するに連れて結果も非連続的に変化する. なら に当たる分位数はlistの連続する要素間を線形に補間する.Medianはこのような補間を使用するように定義されている.
Quantile[list, q]は のときは「四分位数」を, のときは「百分位数」を返す.

多次元データの処理
データ中の各項目が値のリストを含む場合がある.Mathematicaの基本的な統計関数はそのようなリスト中の対応するすべての要素に自動的に適用される.
これはデータの各"列"の平均を別々に求める.
In[1]:= Mean[{{x1, y1}, {x2, y2}, {x3, y3}}]
Out[1]= 
list[[All, i]]を使って多次元リストからi番目の"列"中の要素を抽出することができる.
1.6.7で説明してあるように,Mathematicaに付属している標準パッケージにはより高度な統計分析用のものがいくつかある.
|