データ分析と聞くと、専門家が分析したグラフを提案しているイメージがあり、取っつきにくい部分がありますが、普段の生活においても、データを見ることは多いと思います。例えば、家計簿や年収、市場規模など、多くのことがデータ化されています。
今回はデータを見るうえで、注意するべきことを2つ紹介します。
- 実数と割合
- 平均値の誤解
実数と割合
実数と割合と聞いて、ピンとくる方は少ないと思いますが、例えば流行りの新型コロナウイルスにおいて「本日、新規感染者数が都内で100人増加した」というニュースは見ますが、「本日、新規感染者数が0.0007%増加した」というニュースは見ません。
どちらも事象を正しくとらえたものですが、データの伝え方によっては、異なる印象を与えます。実数と割合のどちらか片方の視点でとらえると、間違った解釈を生む可能性があるのです。そのため、両方の視点でデータを見ることが大切です。
実数と割合の両方の視点で、データを見ること
割合で考えると間違えてしまう例として「シンプソンのパラドックス」というものがあります。
医師のAさんとBさんがいました。ある日、重症患者110名と中等症患者110名の合計220名について、AさんとBさんがそれぞれ治療した成績を分析してみました。
重症患者の治療人数 | 重症患者の治療成功者数と割合 | 中等症患者の治療人数 | 中等症患者の治療成功者数と割合 | |
Aさん | 100名 | 30名(30%) | 10名 | 9名(90%) |
Bさん | 10名 | 1名(10%) | 100名 | 80名(80%) |
上記の結果を見ると、重症患者と中等症患者の両方でAさんの方が高いパフォーマンスを出しているため、Aさんの方がBさんよりも優れた治療技術を持っているといって良いでしょう。
しかし、ここで注意しなければならないのは、上記の結果を足し算したデータを作成することです。すなわち、「AさんとBさんは、それぞれ重症患者と中等症患者の計110名を治療し、Aさんは39名、Bさんは81名の治療に成功した」というデータです。この場合、Bさんの方が治療の成功率が高いように見えますが、Aさんの方が難易度の高い患者を多く治療しているため、ここで算出したデータには意味がありません。このように、合計値で見ると、結果の大小が逆転することをシンプソンのパラドックスと言われています。
確率・平均値の誤解
学業成績や年収、株価などから、確率や平均値を集めて分析することが多々あります。このとき、分析元のデータのサンプルサイズが要素ごとに異なっている場合、誤った解釈のもとになります。
例えば、野球で選手の打率を分析したところ、1シーズンで573打席をこなしたバッターの打率0.329と、代打で2打席しかたっていないバッターの打率0.500を比較して、後者の方がヒットを打つ能力が高いとは判断しません。
このように、平均値を指標として、データ分析を行う場合、値の信頼性がまちまちになることが多々あります。
その他にも、平均資産額において、仮に総資産額20兆円の大富豪が鳥取県に引っ越ししてきた場合、鳥取県の個人の平均資産額は約4000万円も上昇します。つまり、平均が高いからと言って、全体を表しているということはなく、データのばらつきによっては、平均値ではなく、中央値や最頻値を見る必要があります。平均値はあくまでデータ全体のふるまいを特徴づけるもので、非常に大きな値が含まれているかそうでないかで、結果が大きく左右されます。
平均値をみるときは、必ずサンプルデータのバラつきを確認すること
まとめ
今回は、データを参照するときに注意するべき2つのことを紹介しました。平均値や割合、合計値など算出されたデータを見ることは多々ありますが、そのデータをうのみにするのではなく、算出元のデータのバラつきや母数を確認することも大切です。
データというのは必ず正しく算出されているわけではなく、同じデータでも加工する人によって結果は異なりますし、同じ結果でも見る人によってとらえ方が変わるので、注意して分析してみましょう。
参考文献