データ分析で考慮すべきバイアスのまとめ

データ分析
データ分析

データには必ずと言って良いほど何らかのバイアスがある。
バイアスがあるデータを分析すると、分析結果まで偏ったものになり、意思決定に大きな影響を与えてしまう。

とはいえ、バイアスを完全に取り除くことは難しいのも現実である。
しかし、どんなバイアスがあるのか理解していることで、原因を特定しやすくなり、バイアスの影響を軽減できる可能性が大きい。

そこでこの記事では、どんなバイアスがあるのかをリストアップして、その対処方法を書く。

スポンサーリンク

バイアスとは

バイアスは誤差の一種である。

データに含まれる誤差の一種である。

  • ランダム誤差
  • バイアス

ランダム誤差は通常であれば正規分布に従うので平均化することで取り除くことができるが、バイアスは単純な平均化では取り除くことができない。

観測によって得られているデータは、常に正しく知りたい情報を反映しているとは限らない。
むしろ、観測のプロセスの中で何らかの意味で必ず歪められている。
この歪みを「バイアス」という。

そもそもデータには必ず何らかのバイアスが入っていると思ったほうがよく、アウトプットは

スポンサーリンク

色々なバイアス

バイアスは大きく分けて次の4種類に分類することができる。

  • 測定基準に関するバイアス
  • 選択バイアス
  • 観測介入に起因するバイアス
  • データの扱いに起因するバイアス

それぞれのバイアスでどんなものがあるのか1つずつ見ていく。

測定基準に関するバイアス

定義の違い

そもそも測定対象となる集団の定義が異なることによるバイアス。
正当な比較ができないなどの問題が生じる。

  • 国ごとの弁護士数の比較
    • 諸外国では、税理士、弁理士、司法書士、行政書士も「弁護士」に含まれる。
    • 日本と外国を比較すると日本は「弁護士」が少なく見える。

正当な比較ができているか、そもそもの定義を明確にしておく必要がある。

時間の変化

時間の変化によって観測数や観測基準が変化していくバイアス。
時間の異なる2期間の比較が行えないなどの問題が生じる。

  • 自閉症の患者数の推移
    • 患者数が増えているため、何らかの原因があると推測できる可能性がある。
    • しかし、自閉症という症例の知名度が上がり、そもそもの受診数が増えている。
    • したがって、昔のデータに含まれていない潜在的な患者がいたことになる。
  • 大卒の初任給。
    • 年々増加しているが、国の豊かさを示す指標にはならない。
    • この場合、消費支出を元に価値を換算する必要がある。

時間が異なる2期間を比較する場合は、そのときの社会情勢など時間に関する要因がないことを確認しておくべきである。

選択バイアス

手に入るデータが全体の一部であることに起因するバイアスである。

生存者バイアス

生き残ったものだけしか観測されないバイアス。
集まったデータは生き残ったものだけの偏ったデータになってしまい、データの本質を見失ってしまうことも。

  • 戦闘機の補強
    • サンプリングされた銃弾の痕跡から、打ち込まれやすい部分を推測し補強しようとする。
    • しかし、サンプルにある戦闘機は生き残っているものだけなので、むしろ痕跡がない部分を補強すべき。

サンプリングバイアス

サンプリングデータの偏りから生じるバイアス。
集まったデータはサンプリングの仕方によって偏った集団になってしまう。

  • 被験者の募集
    • 大学で人を対象とした実験を行うとき、被験者に学生が多くなってしまう。
  • ネットでの調査
    • ネットリテラシーがある人だけのデータが集まってしまう。

志願者バイアス

参加意欲の高い人だけの観測になってしまうデータ。
集まったデータは参加意欲の高い人だけによる偏ったデータになってしまう。

  • 被験者の募集
    • 参加意欲が高い人のデータとなってしまう。
  • 電話や郵送での世論調査
    • わざわざ回答をする熱心な人だけのデータが集まってしまう。

出版バイアス

仮説に合わないデータは公開されない、都合の悪いデータは隠されているという状態。

学術誌やメディアなどの分野で顕著。

観測介入に起因するバイアス

測定や実験を行うこと自体がデータに影響を与えてしまうこと。

  • 質問の仕方
    • あなたが就職先を選ぶ際に一番重視することは?
      • A(4択)
        • 給与、働きやすさ、社会的評判、その他
      • B(7択)
        • 給与、成長できる環境、残業の少なさ、職場の雰囲気、有給の取りやすさ、社会的評判、その他
      • Bは働きやすさだけ詳細にしただけなので、理想的には合算すれば質問Aと同じ割合になるはず。
      • 実際はならない。Bのほうが働きやすさの割合は多くなる。

質問やアンケートには回答を歪める次のような心理的傾向があることを理解しておくことが重要。

  • 黙従傾向
    • 「はい・いいえ」で答える質問は「はい」が多くなる。
  • 中心化傾向
    • 「全く同意できない・やや同意できない・どちらともいえない・やや同意する・非常に同意する」のような質問のとき、真ん中の選択肢ほど選ばれやすい。
  • キャリーオーバー効果
    • 前の質問の回答が次の質問の回答に影響する。
  • 質問文での誘導
    • 「最近データ分析の需要が高まっていますが、御社はどれくらい関心がありますか?」のような質問文の前置きがある場合、回答は前置きに引っ張られてしまう。

データの扱いに起因するバイアス

改竄や単純ミスがデータに含まれる場合は言うまでもない。

しかし、データを集める時点だけではなく、分析するときにもバイアスを発生させてしまう可能性がある。

確証バイアス

自分の仮説に整合する情報だけ集め、矛盾する情報は無視しようとする心理的な傾向。
都合の良いデータだけ集めることをチェリーピッキングと言う。

認知バイアス

過去の経験に基づき、意味のないものに都合の良い意味づけをしようとする心理的な傾向。
この認知バイアスは選択バイアスなど他のバイアスにもつながるため注意が必要である。

とはいえ、この認知バイアスはときに優れた示唆を見出すことにも役に立つ。
このように弱い結果からある解釈が見いだせそうな場合、追加でそれを裏付けるデータを取得するなどをする必要がある。

参考書籍

分析者のためのデータ解釈学入門

スポンサーリンク
H-MEMO

コメント