【離散化】Pythonで量的データを区間ごとに分割する【cut・qcut・KBinsDiscretizer】
離散化とは、データを区間ごとに分割することで、量的データを質的データに変換する手法です。離散化は、ヒストグラムの作成時にも役立ちます。 本記事では、機械学習やデータ分析時によく出てくる離散化について、初心者向けに徹底解説…
離散化とは、データを区間ごとに分割することで、量的データを質的データに変換する手法です。離散化は、ヒストグラムの作成時にも役立ちます。 本記事では、機械学習やデータ分析時によく出てくる離散化について、初心者向けに徹底解説…
Pandas(パンダス)は、データ分析のためのデータ構造やツールを提供するライブラリです。 様々な構造のデータを扱いたいという背景から、NumPyから派生して作られたライブラリです。 本記事では、Pandasのデータ構造…
本記事では、データ分析初学者向けに、データ分析で頻出の正規化・標準化について、基礎から解説します。 pythonでの実装方法までご紹介するので、ぜひ実行してみましょう。 スケーリングとは スケーリング(Feature S…
本記事では、データ分析・データ前処理を始める方に向けて、データの集計方法をわかりやすく解説します。 データをグループ集計する【groupbyメソッド】 特徴量をグループ化して集計することで、特徴量ごとの傾向を把握すること…
本記事では、Python初学者向けに、Pythonでのデータ確認方法を解説します。 データの前処理において、最初にデータの全体像を把握するのは非常に大切です。 pandasやNumpyを使ったデータ前処理を学習中の方は、…
本記事では、Python初心者向けに、pandasでCSV(カンマ区切り)ファイルを読み込む方法をご紹介します。 結論、read_csv関数を使うことで、CSVファイルは読み込めます。 read_csv関数の詳しい使い方…
データ前処理とは データ前処理とは データ前処理とは、集めたデータを分析できる状態に加工することです。 データ前処理では、次のようなことを実施します。 データ前処理がなぜ必要なのか データ前処理が必要な理由は、データ分析…
本記事では、駆け出しフリーランスエンジニアや副業したいエンジニアが、エージェント選びで失敗しないために、ITプロパートナーズの特徴や評判についてまとめました。 ITプロパートナーズがおすすめな…
本記事では、データサイエンス初心者向けにわかりやすく解説している本を、厳選してご紹介します。 また、本記事ではデータサイエンティストに必要なスキルごとの良書を紹介します。 そのため、本記事に掲載された本を順に読むだけで、…
データサイエンスは、近年注目され続けている学問の一つです。 次の図は、「data science」というワードのGoogle検索数の推移を表しています。 2014年頃から、データサイエンスというワードが注目され始めている…