【Pandas入門】Dataframeの作成から操作・集計処理まで、Pythonによるデータ解析の基礎

python

概要

Dataframeは、Pandasライブラリを使って扱うことができる二次元表形式のデータ構造です。

このデータ構造を使えば、データを行列形式で扱うことができ、データの抽出や変換、集計が簡単に行えます。

詳細内容

Pandasライブラリは、データ解析において非常に便利なツールであり、その中でもデータ構造の一つであるDataframeは、二次元表形式のデータを扱うことができます。

Dataframeを用いる場合、まずはPandasをインポートします。

python
import pandas as pd

次に、Dataframeを作成するためには、まずはデータを用意します。

例えば、下記のような辞書データを用意します。

python
data = {"名前": ["鈴木", "山田", "田中", "伊藤"],
        "年齢": [25, 30, 28, 22],
        "性別": ["女性", "男性", "男性", "女性"]}

これを元に、Dataframeを作成するためには、`pd.DataFrame()`関数を使用します。

このとき、引数に辞書データを渡します。

python
df = pd.DataFrame(data)

このようにすることで、Dataframeが作成されます。

作成したDataframeを表示する場合には、`print()`関数を使用します。

python
print(df)

このコードを実行した場合、以下のような出力結果が得られます。


   名前  年齢  性別
0  鈴木  25  女性
1  山田  30  男性
2  田中  28  男性
3  伊藤  22  女性

Dataframeを作成した後は、様々な処理を施すことができます。

例えば、特定の列を抽出する場合には、列名を指定します。

python
name = df["名前"]
print(name)

このようにすることで、Dataframeから「名前」列を抽出することができます。

この処理を実行すると、以下のような出力結果が得られます。


0    鈴木
1    山田
2    田中
3    伊藤
Name: 名前, dtype: object

また、条件を指定してデータを抽出する場合には、`loc[]`や`iloc[]`といったインデックスの指定方法を使用します。

例えば、以下のように年齢が25歳以上のデータを抽出したい場合には、次のようなコードを実行します。

python
age_over_25 = df.loc[df["年齢"] >= 25]
print(age_over_25)

このコードを実行すると、以下のような出力結果が得られます。


   名前  年齢  性別
0  鈴木  25  女性
1  山田  30  男性
2  田中  28  男性

さらに、Dataframeには集計処理を行うメソッドが用意されています。

例えば、以下のようなコードを実行することで、年齢の平均値を求めることができます。

python
mean_age = df["年齢"].mean()
print(mean_age)

実行すると、29.25という出力結果が得られます。

他にも、和や最大値、最小値などの集計処理が用意されているため、データの分析や加工などに用いることができます。

以上、Pandasライブラリを使ってDataframeを作成する方法や、データの抽出、操作、集計について説明しました。

データの前処理や分析において非常に便利なツールであるため、覚えておくと何かと役立つでしょう。

コメント

タイトルとURLをコピーしました