要約
pandasはPythonでデータ分析を行うための高機能なライブラリです。
データの読み込み・加工・集計・可視化など、様々な処理を簡単かつ高速に実行することができます。
多様な形式のデータに対応しており、データサイエンスやマシンラーニングの現場でも広く利用されています。
詳細内容
具体的なコード例を交えながら解説していきます。
### データの読み込み
pandasを使ってデータを読み込むには、まずpandasライブラリをインポートします。
“`python
import pandas as pd
“`pandasでは、CSVやExcelなどの様々なファイルフォーマットに対応しています。
例えばCSVファイルを読み込んでみましょう。
“`python
df = pd.read_csv(‘data.csv’)
“`このように、`read_csv()`関数を使うことで、CSVファイルを`DataFrame`と呼ばれるテーブル形式で読み込むことができます。
ファイルパスを指定することで、対象のCSVファイルを読み込みます。
### データの加工
読み込んだデータをいろいろな処理を行い、加工することができます。
例えば、`DataFrame`の列を並び替える場合は、`sort_values()`関数を使います。
“`python
df.sort_values(‘price’, ascending=False)
“`このように、`sort_values()`関数の引数に並び替えたい列名を指定することで、指定した列を基準に昇順・降順にソートすることができます。
また、特定の条件に基づいた行の抽出を行う場合には、`query()`関数を使います。
“`python
df.query(‘price > 100’)
“`この例では、`price`列の値が100より大きい行のみを取り出しています。
`query()`関数の引数に条件式を指定することで、その条件に合致する行のみを抽出することができます。
### データの集計
DataFrameには、`groupby()`関数を利用して集計をすることができます。
例えば、以下のようなデータがあった場合に、`category`ごとの`price`の平均を計算する場合は、“`
| item | category | price |
|————|———-|——-|
| product A | A | 100 |
| product B | A | 200 |
| product C | B | 150 |
| product D | C | 120 |
| product E | C | 180 |
| product F | C | 200 |
“`次のようなコードを実行します。
“`python
df.groupby(‘category’).mean()
““groupby()`関数の引数にグルーピングの基準とする列名を指定し、計算する統計指標を`mean()`関数で指定します。
これにより、`category`ごとの`price`の平均が求められます。
### データの可視化
pandasで集計したデータを可視化するには、matplotlibと組み合わせるのが一般的です。
pandasでは、`plot()`関数を使うことで、グラフを作成できます。
“`python
import matplotlib.pyplot as plt# categoryごとの商品数を取得
count_df = df.groupby(‘category’).count()# 棒グラフで可視化
count_df.plot(kind=’bar’)
plt.show()
““plot()`関数の`kind`引数にグラフの種類(`bar`や`line`など)を指定し、`show()`関数でグラフを表示することができます。
以上のように、pandasとmatplotlibを組み合わせることで、データ分析の結果を効果的に可視化することができます。
コメント