概要
PandasはPythonのデータ分析ライブラリで、大量のデータを効率的に扱うための強力なツールです。
for文はPythonの制御フローの一部で、特定のコードブロックを反復的に実行するための構文です。
PythonとPandasを組み合わせると、大量のデータを繰り返し処理しやすくなります。
たとえば、データセットの各行に対して何らかの操作を行いたい場合などに使用します。
詳細内容
以下に、Pandasとfor文を用いたデータ分析の例を示します。
例1: データフレームの各列の平均値を計算今回は以下のような3つの列を持つデータフレームを使用します。
import pandas as pd# テストデータ作成
data = {
'Age': [20, 25, 30, 35, 40],
'Height': [168, 173, 178, 183, 188],
'Weight': [55, 65, 75, 85, 95]
}df = pd.DataFrame(data)print(df)
出力結果:
Age Height Weight
0 20 168 55
1 25 173 65
2 30 178 75
3 35 183 85
4 40 188 95
このデータフレームの各列の平均を求めるには、以下のようにfor文を使用します。
for column in df:
average = df[column].mean()
print(f'The average of {column} is {average}')
出力結果:
The average of Age is 30.0
The average of Height is 178.0
The average of Weight is 75.0
上記のコードでは、pandasのmeanメソッドを用いて各列の平均値を求めています。
例2: データフレームの特定の値を含む行を抽出特定の値を含む行を抽出するには、以下のようにします。
# 'Age'列が30以上の行を抽出
for i in range(len(df)):
if df.loc[i, 'Age'] >= 30:
print(df.loc[i])
出力結果:
Age 30
Height 178
Weight 75
Name: 2, dtype: int64
Age 35
Height 183
Weight 85
Name: 3, dtype: int64
Age 40
Height 188
Weight 95
Name: 4, dtype: int64
上記のコードでは、locメソッドを使ってDataFrameの指定した位置のデータを取り出し、’Age’列が30以上である行だけを表示しています。
コメント