「pandasを用いたCSVファイルの読み込みとデータ整形・集計：実務レベルの使用例」

python

2023.06.23

概要

pandasは、Pythonプログラミング言語のデータ操作と分析をサポートする優れたライブラリです。

データのロード、整形、結合、集計、可視化などの機能を提供し、効率的なデータ処理を可能にします。

さまざまなデータ形式やデータベースからデータを取り込むことができ、また多様なデータ操作が簡単に行えるため、データサイエンスや機械学習の分野で広く利用されています。

本稿では、pandasの基本的な使い方を解説します。

はい、具体的な実務レベルの使用例として、以下のコード例をご紹介します。

これは、pandasを使ってCSVファイルを読み込み、データの整形や集計を行う例です。

まず、pandasライブラリをインポートします。

import pandas as pd

次に、CSVファイルを読み込みます。

ここでは`data.csv`というファイルが存在することを想定しています。

data = pd.read_csv('data.csv')

データを読み込んだら、データの内容や構造を確認することができます。

例えば、データの先頭の行を表示するには、`head()`メソッドを使います。

print(data.head())

次に、データの整形を行います。

例えば、特定の列を抽出する場合は、列のラベルを指定してデータフレームをインデックスします。

name_column = data['Name']

データを抽出した後は、必要に応じてデータの加工やクリーニングを行うことができます。

例えば、欠損値を持つ行を削除するには、`dropna()`メソッドを使用します。

cleaned_data = data.dropna()

データを整形した後は、データの集計や統計情報の算出が可能です。

例えば、数値データの列の平均値を計算するには、`mean()`メソッドを使用します。

average_age = data['Age'].mean()

最後に、データを保存する場合は、`to_csv()`メソッドを使用します。

ここでは、整形後のデータを`cleaned_data.csv`という名前で保存しています。

cleaned_data.to_csv('cleaned_data.csv', index=False)

以上が、pandasを使用してCSVファイルを読み込み、データの整形や集計、保存を行う一連の流れです。

これらの基本的な操作を組み合わせることで、実務でのデータ処理や分析に役立てることができます。

なお、このコード例はあくまで一例であり、データの内容や目的によって具体的な操作は異なる場合もあります。

ただし、pandasの基本的な機能を理解し、必要に応じてドキュメントやチュートリアルを参照することで、幅広いデータ処理のニーズに応えることができます。