【離散化】Pythonで量的データを区間ごとに分割する【cut・qcut・KBinsDiscretizer】
離散化とは、データを区間ごとに分割することで、量的データを質的データに変換する手法です。離散化は、ヒストグラムの作成時にも役立ちます。 本記事では、機械学習やデータ分析時によく出てくる離散化について、初心者向けに徹底解説…
離散化とは、データを区間ごとに分割することで、量的データを質的データに変換する手法です。離散化は、ヒストグラムの作成時にも役立ちます。 本記事では、機械学習やデータ分析時によく出てくる離散化について、初心者向けに徹底解説…
機械学習で質的データ(定性データ・カテゴリ変数)をモデルに使いたい場合は、データ型を変換しないとエラーになってしまいます。 そんな時に必要なのが、OneHotEncodingという手法です。 本記事では、下記のことがわか…
NumPy(ナムパイ)とは、高速計算処理を得意とするPythonのライブラリです。 機械学習をPythonで行う場合は、NumPyをよく使います。 本記事では、NumPyの基礎的な文法を徹底解説します。 ベクトルや行列の…
Pandas(パンダス)は、データ分析のためのデータ構造やツールを提供するライブラリです。 様々な構造のデータを扱いたいという背景から、NumPyから派生して作られたライブラリです。 本記事では、Pandasのデータ構造…
本記事では、データ分析初学者向けに、データ分析で頻出の正規化・標準化について、基礎から解説します。 pythonでの実装方法までご紹介するので、ぜひ実行してみましょう。 スケーリングとは スケーリング(Feature S…
本記事では、データ分析・データ前処理を始める方に向けて、データの集計方法をわかりやすく解説します。 データをグループ集計する【groupbyメソッド】 特徴量をグループ化して集計することで、特徴量ごとの傾向を把握すること…
本記事では、Python初学者向けに、Pythonでのデータ確認方法を解説します。 データの前処理において、最初にデータの全体像を把握するのは非常に大切です。 pandasやNumpyを使ったデータ前処理を学習中の方は、…
本記事では、Python初心者向けに、pandasでCSV(カンマ区切り)ファイルを読み込む方法をご紹介します。 結論、read_csv関数を使うことで、CSVファイルは読み込めます。 read_csv関数の詳しい使い方…
データ前処理とは データ前処理とは データ前処理とは、集めたデータを分析できる状態に加工することです。 データ前処理では、次のようなことを実施します。 データ前処理がなぜ必要なのか データ前処理が必要な理由は、データ分析…
Pythonは、概ねどの環境でも使える一般的な言語です。 ファイナンスやWebアプリ開発、機械学習など、いろんなジャンルで使われています。 Pythonには、次のような特徴があります。 人間が理解しやすい文法構造 標準ラ…