サンプルサイズの視覚的調査
小さなサンプルに基づいて結論を出すことは明らかに問題があります。同時に、「ビッグデータ」の台頭により、組織は、必要な分析タスクを実行するために実際にどれだけのデータが必要かを論理的に考えるのではなく、できるだけ多くのデータを盲目的に収集するようになるのではないかと考えています。
小さなサンプルに基づいて結論を出すことは明らかに問題があります。同時に、「ビッグデータ」の台頭により、組織は、必要な分析タスクを実行するために実際にどれだけのデータが必要かを論理的に考えるのではなく、できるだけ多くのデータを盲目的に収集するようになるのではないかと考えています。
必要以上に少し多くのデータがあればいいのですが、だからといって、できるからといってすべてを収集すべきというわけではありません。統計を使用して、本当に必要なデータの量をガイドすることができますが、最近、サンプルサイズを増やすとどのような影響があるかを視覚的に示す方法について考えるようになりました。
わかりやすくするために、正規分布の特定の (ただし、かなり任意の) インスタンスからのランダムな変量を使用してサンプル サイズを大きくした場合の影響を見ていきます。パラメータ(真の平均と真の標準偏差)を述べることは後回しにします。
以下のアニメーションGIFは、前述の正規分布をサンプリングして作成された確率密度ヒストグラムを示しています。フレームごとにサンプルサイズが 10 倍に増加し、各ヒストグラムの描画に使用されるデータは、前のフレームのデータのスーパーセットです。赤い曲線は、サンプルデータと同じ平均と標準偏差を持つ正規分布です。

明らかに、サンプルサイズがわずか10の場合、経験分布は平均と標準偏差が同じ正規分布とはまったく異なります。このことから本当に言えることは、真の平均は4または5に近い可能性が高いということです。しかし、サンプルを100ポイントに増やすと、すでに大まかなベルカーブが見られます。100,000ポイントに到達するまでに、ヒストグラムと曲線の間に非常に良好な視覚的一致があります。ポイントを追加しても、分布の外観や印刷される平均と標準偏差は変わりません。
アニメーション化されたヒストグラムは、ポイントを追加すると物事がどのように変化するかを大まかに把握するのに優れていますが、10 の係数ごとに 1 つのフレームしかないため、詳細な画像は表示されません。上部のタイトルのパラメータにさらに桁数を印刷しないと、特定のサンプルサイズの平均と標準偏差をどれだけ正確に知っているかは明らかではありません。これをよりよく理解するために、パラメータを選択し、それをサンプルサイズの関数として、2点(両方のサンプルパラメータが有限の場合)から最大1,000万までプロットできます。まず、平均値を見ていきます。

データ量が少ないと状況の変化がはるかに速くなるため、上記のグラフはほとんど役に立ちません。サンプル内のポイント数の(基数10)対数を取ると、物事がはるかに明確になります。

点数が少ない場合、サンプル平均は4をはるかに上回っています。しかし、これはすぐに低下し、2桁になると安定します。数千点を超えると、サンプル平均にはほとんど認識できない変化がありますが、右側を拡大すると、より細かい「ぐらつき」を確認できます。

サンプルサイズを変更すると、標準偏差がどのように変化するかを次に示します(注:これはサンプルの標準偏差であり、平均の標準誤差ではありません)。

サンプルの生成に使用された真の平均は3.9172で、標準偏差は0.7200でした。チャートから、厳密な統計分析を行わなくても、1,000万のデータポイントを持つこれらの数値にかなり近づいていることがわかります。しかし、1万のデータポイントもそれほど離れていませんでした。データが多いほど精度が高くなりますが、平均が 4 より大きいか小さいかを知るだけであれば、~1,000 ポイントで十分です。
この点を強調するために、最初の 100,000 個のデータ ポイントだけを見て、これらを 10,000 個の 10 個のサンプルに分割してみましょう。各サブサンプルでは、以前と同じグラフィカル手法を使用できます。下のグラフの色付きの線は、最初の 10,000 個のデータ ポイントの結果を示し、灰色の線は他のサブサンプルの結果を示しています。


はっきりさせておきたいのは、チャートの目的は、1つのサブサンプルによって作られた個々のトラックを見ることではないということです。これは、サブサンプルの平均と標準偏差が、それぞれが少数のデータポイントしか持たない場合に広く分散されますが、少なくとも対数スケールでは、ポイントを追加するとすぐに収束することを示しています。
もちろん、すべてのデータセットは異なり、多くのデータセットは単純なランダムサンプリングによって得られるものではありません。また、現実世界のデータセットが、正規分布の 1 つのインスタンスからコンピューターで生成されたランダムな変数の大規模なコレクションと同じくらい適切に動作すると想定することもできません。さらに、上記のチャートのアイデアは、厳密な統計作業の直接的な置き換えを意図したものではありません。しかし、場合によっては、統計的評価の健全性チェックを提供したり、技術的な専門知識があまりない視聴者に視覚的な代替手段として提供したりするなど、それを補完することもあります。
1行のコードを書く前に、ビルドがどのように見え、機能するかを正確に確認できる、包括的で迅速なプロトタイピングツールをお探しですか?もう探す必要はありません。今すぐIndigo Studioの無料トライアルをダウンロードして、何ができるか見てみましょう!
