【初心者】欠損値、外れ値、異常値とは？対処法についてわかりやすく解説【データ分析】

データセットに欠損値があるけど、どうやって処理したらいいか分からないな

本記事では、欠損値や外れ値、異常値とはどのようなデータのことなのか、また、対処法について徹底的に解説いたします。

まずは、大まかな流れから理解していきましょう。

欠損値・外れ値・異常値とは

欠損値とは、本来得られるはずだったデータが得られていないことです。

外れ値とは、他の値から大きく離れたデータのことです。

異常値とは、外れ値のなかでも、大きく離れている原因がわかっているものです。

例えば、年齢（数値データ）に文字が入っているなど、明らかにデータの入力で誤ったことがわかる場合は、異常値と言えます。

こういった欠損値や外れ値、異常値が取得される原因としては、測定をミスをしたり、記録のミス、データの入力ミスといったことが考えられます。

欠損値などがデータセットに入っていると、何がいけないんだろう？

欠損値・外れ値・異常値がある場合、次のようなデメリットがあります。

こういったデメリットを防ぐため、欠損値や外れ値、異常値を処理する必要があります。

ロバストな分析手法

ロバストとは、欠損値や外れ値の影響を受けにくい機械学習のアルゴリズムのことです。

例えば、線形モデルは外れ値の有無によってモデルの精度に大きな影響を受けます。

一方で、決定木やランダムフォレストといったツリーベースの手法は、大きな影響を受けにくいです。

つまり、決定木やランダムフォレストはロバストな分析手法であると言えます。

欠損値は、次のような対処をします。

外れ値や異常値は、次のような対処をします。

Pythonでデータ分析・データサイエンスをしたい初心者向けに、Pythonデータ分析徹底解説総まとめページを作成しました。

流れに沿って実装することで、データ分析の基礎が固められます。

【総集編】データ前処理をPythonで実装【機械学習入門】

また、専門の講師と一緒に挫折せずに学習したい方には、データサイエンススクールがおすすめです。

おすすめのスクール一覧はこちらからどうぞ。

【2023年最新版】データサイエンスが学べるおすすめスクール5選