分析用のデータが「汚れ」てしまう7つの原因

f:id:ekanoh:20180825210515p:plain

分析用のデータが「汚れ」てしまう

データサイエンティスト(コンサルタント、マーケターなども然り)として日々データに向き合っていると、世の中には「汚れ」ているデータばかりだと気付くだろう。 欠損値だらけの歯抜けのデータだったり、特定の領域に偏ったデータであったり、外れ値やタグが間違っているデータなど、さまざまな汚れ方があるが、 そもそもデータはいつどうやって「汚れ」てしまうのだろうか?以下にその7つの原因を示す。

「汚れ」る7つの原因

データの計画時に汚れる

スコープを絞りすぎ

「全国」アンケートデータにも関わらず、実はサンプル対象が「東京都港区だけ」などに偏っているなど。 データに対して正しいスコープになっているか確認しなければならない。

入手しやすいデータに偏る

「協力者募集、報酬N万円」の募集要件で、「報酬で集まる人」に偏ってしまう。 あるいは社会心理学の実験データに対して、気の知れた友人のみが参加してくれているなど。

テール情報が切れる

上記2つの汚れは回避しているが、10%サンプリングなどを行った際にロングテール部が切れてしまっているロングテール部というのは、マジョリティでないデータのことなので個々の特徴が出やすく、重要である場合がある。

データの発生時に汚れる

センターデータの測定誤差

スマートフォンの位置情報や特定の地域の気温などのデータなど、センサーで感知するデータには誤差が付きまとう。 もちろん誤差を織り込んだ計測値の推定手法も存在するが、ハードウェアなので物理的な損傷などもありうる。 または、交通量のデータなど、人の手でカウントしているものも測定誤差が存在する。

Webの不正データ

Webのトラフィックログには、Botによるアクセスなど不正なデータが容易に混入してしまう。 デジタル広告のトラフィックデータなどを扱うときは、散布図を作ったりヒストグラムを見るなどを通してこのような不正なデータの存在を特定しておく必要がある。

データの処理時に汚れる

データが欠落してしまう

データベースのサーバーエラーなどで、入るべきデータが入っていない。 または、データ送信時の暗黙の変換などによってNullを0にしてしまう*1

ヒューマンエラー(Excelなどの処理など)

タグ付けをする際にミスしてしまったり、Excelでデータを処理している際にデータの内容を書き換えてしまうことがある。 クライアントワークなどで複数人にまたがってデータの受け渡しがされている場合、ヒューマンエラーの可能性は著しく増えるので特に注意しなければならない。

まとめ

データにかかわる仕事をする人間は、上記のようなデータの「汚れ」が無いか十分に確認しつつデータ分析をしていく必要がある。 特に、データだけを目の前にしている職種の人だと、扱っているデータの抽出・発生・処理過程を気に留めなくなってしまいがちなので、特に注意しておかなければならない。

(参考文献)

トップデータサイエンティストが教える データ活用実践教室

トップデータサイエンティストが教える データ活用実践教室

*1:Null=「計測されなかった」と0=「計測されたが0だった」など、一見似ているが意味が異なる