【離散化】Pythonで量的データを区間ごとに分割する【cut・qcut・KBinsDiscretizer】
離散化とは、データを区間ごとに分割することで、量的データを質的データに変換する手法です。離散化は、ヒストグラムの作成時にも役立ちます。 本記事では、機械学習やデータ分析時によく出てくる離散化について、初心者向けに徹底解説…
離散化とは、データを区間ごとに分割することで、量的データを質的データに変換する手法です。離散化は、ヒストグラムの作成時にも役立ちます。 本記事では、機械学習やデータ分析時によく出てくる離散化について、初心者向けに徹底解説…
機械学習で質的データ(定性データ・カテゴリ変数)をモデルに使いたい場合は、データ型を変換しないとエラーになってしまいます。 そんな時に必要なのが、OneHotEncodingという手法です。 本記事では、下記のことがわか…
Pandas(パンダス)は、データ分析のためのデータ構造やツールを提供するライブラリです。 様々な構造のデータを扱いたいという背景から、NumPyから派生して作られたライブラリです。 本記事では、Pandasのデータ構造…
本記事では、データ分析初学者向けに、データ分析で頻出の正規化・標準化について、基礎から解説します。 pythonでの実装方法までご紹介するので、ぜひ実行してみましょう。 スケーリングとは スケーリング(Feature S…
本記事では、データ分析・データ前処理を始める方に向けて、データの集計方法をわかりやすく解説します。 データをグループ集計する【groupbyメソッド】 特徴量をグループ化して集計することで、特徴量ごとの傾向を把握すること…
本記事では、Python初学者向けに、Pythonでのデータ確認方法を解説します。 データの前処理において、最初にデータの全体像を把握するのは非常に大切です。 pandasやNumpyを使ったデータ前処理を学習中の方は、…
本記事では、Python初心者向けに、pandasでCSV(カンマ区切り)ファイルを読み込む方法をご紹介します。 結論、read_csv関数を使うことで、CSVファイルは読み込めます。 read_csv関数の詳しい使い方…
本記事では、駆け出しフリーランスエンジニアや副業したいエンジニアが、エージェント選びで失敗しないために、ITプロパートナーズの特徴や評判についてまとめました。 ITプロパートナーズがおすすめな…
本記事では、データサイエンスを学んで副業を始めたい方向けに、副業の探し方をご紹介します。 結論、データサイエンスで副業することは可能です。 ただし、案件数は少なく、案件選びにコツが必要です。 本記事を読むことで、副業初心…
本記事では次のことがわかります。 筆者は現役エンジニアで、Udemyは頻繁に利用します。 データサイエンスについても、数々のUdemy講座で学んできました。 今回ご紹介する講座は、全て自分でも受講し、心からおすすめできる…