統計は 3 度嘘をつく

FPN - 10代と20代で好まれるモバイルコンテンツの違いの統計データの解釈を読んで、思う所があったので、統計データの解釈に潜む罠で書いたことをもう少し詳しく書いてみようと思います。

アンケート(統計データ)は3度嘘をつきます。3度とは、アンケートの準備段階、実施段階、そして(実施後の)解釈段階を指します。

アンケート準備段階の嘘

元記事ではくだんの「事件」において、両刃のダガーナイフが使われたこと、犯行予告が携帯電話サイトで行われたことを受け、次のような設問をしている(6月14日時点)。

東京・秋葉原の無差別殺傷事件で、犯人が使用した両刃の「ダガーナイフ」は、ゲームソフトに登場するものでした。また、携帯電話のサイトに犯行予告をするなど、現代的要素を色濃く反映した事件となりました。

あなたは

  1. 「銃刀法を見直し、こうしたナイフの売買、所持に規制をかけることに賛成ですか」
  2. 「青少年に悪影響があるゲームソフトを取り締まるべきですか」
  3. ネット掲示板への監視の目を強化すべきですか」
設問とアンケート内容で分かる、秋葉原の「あの事件」とマスコミの立ち位置 - ガベージニュース(旧:過去ログ版)

最初の嘘は、恣意的に設問、および選択肢を設定することです。アンケートを実施する際には、すでに特定の結論が存在しておりその結論の補強のために実施するということが良くあります。この場合、アンケート結果が既に存在する結論とは異なるものになると困るため、意図した通りのアンケート結果を得ようと実施者は(半ば無意識的に)嘘をつきます。最も多い嘘の付き方は上記のように、設問の前に意図した結果になるように回答者に事前情報を与え、誘導する方法(印象操作)です。また、2001年の朝日新聞の世論調査の例のように、選択肢自体に工夫を施すこともあります。

アンケート実施段階の嘘

調査主体: エクスプレスリサーチ
調査期間: 2006年10月18日〜2006年10月21日
調査方法: インターネットによるアンケート調査
調査対象: エクスプレスリサーチモニター
有効回答数: 330人

普段、パソコンからプライベートでインターネットを使っていますか
全体の330人に対して、パソコンからプライベートでインターネットを使用しているかを聞いてみたところ、98.2%(324人)が使っているという非常に高い結果となりました。

http://www.exp-research.net/public/release.jsp?id=18

2つめの嘘は、回答対象者を限定することです。上記はその典型例だろうと思います。(プライベートでと言う限定は付いているが)インターネットを使っているかどうかという質問をインターネット上で行えば、はいと答える人の割合が非常に高くなることは容易に予想できます。すでに存在している結論を裏付けるようなアンケート結果を得るために都合のいい人をピックアップすることも、しばしば行われる方法の一つです。

アンケート結果の解釈段階の嘘

最後の嘘は、アンケート結果を恣意的に解釈することです。これは、最初のFPN - 10代と20代で好まれるモバイルコンテンツの違いを例にして述べてみようと思います。以下は、結果のグラフを基に、10台、20台それぞれにおいて良く使われるモバイルコンテンツの上位10ジャンルを列挙したものです(左側が10台、右側が20台)。

順位 ジャンル 割合 順位 ジャンル 割合
1 着メロ・着うた 58.1% 1 交通・地図 67.4%
2 天気予報 41.5% 2 天気予報 53.2%
3 SNS 40.5% 3 SNS 45.4%
4 交通・地図 38.8% 4 着メロ・着うた 41.9%
5 ゲーム 35.7% 5 ニュース 38.0%
6 ニュース 29.9% 6 グルメ 24.0%
7 小説・コミック 29.6% 7 オークション 17.4%
8 動画 24.3% 8 ゲーム 16.9%
9 映画・演劇・コンサート 23.8% 9 スポーツ情報 16.3%
10 プロフ 19.6% 10 映画・演劇・コンサート 15.0%

元の記事は、20代と10代では下位ジャンルほど好まれるコンテンツが異なるというセクションで、上位4ジャンルは同じだけど下位ジャンルは違うと結論付けていますが、この上位4ジャンルと言う選び方に恣意的なものを感じます。上の表を見ると分かりますが、上位4ジャンルに限定しないと上位は同じという結果が得られません。上位1ジャンルでも2ジャンルでも3ジャンルでも、...、上位9ジャンルでも10ジャンルでも、10台と20台の結果は一致しません。この選び方は、上位は同じだけど下位は違うと言う結論を得るために付いた嘘だと言えるでしょう*1

どの段階でも言えることですが、実施している側も気付かずに嘘を付いている場合も多々あります。統計を取るとき、または統計結果を読むときは十分に注意しなければ、と改めて思った例でした。

統計データは現実を反映した鏡だ。だけどその鏡は歪んでいたり割れていることもある。

*1:何故、上位は同じだけど〜にこだわったのかが良く分かりませんでした。最初の持論の通り“10台と20台の利用方法は全然違う”だったらもう少し納得できそうなのですが。