マーケティングデータ分析に必要なサンプル数とは?

例えばあるお店に10名の顧客がいて、商品Aを購入したのは、このうち1名だけで、それ以外の傾向はまったく同じであるとすると、同じ傾向を持つ顧客が商品Aを買う確率は「1/10=10%」になります。こうした調査分析方法には、将来の発生確率を過去データから推定しています。これは、確率論・統計学の極限定理に「大数の法則」を利用しています。

大数の法則とは

十分な試行が繰り返された結果、経験上の確率が、計算上の確率に収束していくこと。

試行回数が少ない場合には、確率はばらつくことがあるが、試行回数が十分に行われれば、最終的には計算上の確率に収束する。

例えば、サイコロを振る場合、試行回数が少ないと出る目の経験上の確率がばらつくが、試行回数が増加すると各目の出る確率は徐々に計算上の確率である1/6に収束していく。

大数の法則



マーケティングにおけるデータ活用のポイント

最新のデータが必要(データの鮮度)

大数の法則では、前提・条件・状況が不変であればという前提条件があります。したがって、企業間の競争が激しく、時代変化のスピードが速くなっている今、データの量が十分であっても、10年前のデータと今のデータでは現在のデータのほうが重要になります。そのため定期的に調査を行うことや、最新の情報を用いてデータの分析を行うことが重要になります。

十分なデータが必要(データの量・種類)

人の記憶には、珍しい出来事が印象に残りやすく、特に成功・失敗体験に一喜一憂していると全体の中でどれくらいの割合で発生しているのかとらえることができず、それが本来起こる確率よりも高い確率で起こるかのようにとらえてしまうことが多くあります。しかしながら、その出来事を全体の中で見てみると非常に稀なケースであることが多いです。
サイコロの例でも少ない試行回数の時に、1の目が立て続けに出たことで次も1の目が出るのではないかと考えてしまいますが、繰り返し、繰り返し行われることで、全体でみれば、どの目も1/6の確率であることには変わりがありません。
少ないデータからすべてを把握するのではなく、できるだけ多くのデータとさまざまな側面をデータとして考慮に入れることで、正確さを増すことができるのです。

どのくらいの数のデータが必要になるのか

アンケートのサンプリング数や顧客の分析に対してもデータが多いほど精度が増しますが、実際には回答者を集める労力や調査費用と全体を予測する正確性のバランスで決めます。どのくらいの誤差までが許されるのか、回答にどのくらいの信頼性が必要なのかに応じて必要なサンプル数は変わってきます。

最大誤差5%、信頼度95%、母比率50%の例

母集団数と必要サンプルの関係性


データ量が多ければ多いほど結果の精度は上がっていきますが、データがいつ集められたものなのか、予想するためにどれだけ正確性を求められるのかということによって必要なデータの種類や内容や量が変わってきます。医療であれば正確性が求められますが、マーケティングにおいては調査コストを下げることやスピードが重視されることも多くあります。調査や分析にも移りやすくするためにも、日々データを収集しておくことや定期的な調査分析を行うこと重要です。