概要
mergeは、2つ以上のデータセットを結合するための操作です。
データセットを結合することで、異なる情報や特徴を持った複数のデータを1つのデータセットとして扱うことができます。
Pythonのmerge関数を使用することで、簡単にデータの結合が行えます。
では、具体的なコード例を交えながらmergeの使い方を紹介していきましょう。
詳細内容
実務で使われる例として、以下の2つのデータセットを結合する例を考えましょう。
1つ目のデータセットは「顧客データ」で、以下のような内容を持っています。
customer_id name age
0 1 John 25
1 2 Mike 30
2 3 Sarah 28
2つ目のデータセットは「注文データ」で、以下のような内容を持っています。
order_id customer_id product quantity
0 1 1 Apple 5
1 2 2 Banana 3
2 3 1 Orange 2
これらのデータセットを「customer_id」をキーとして結合してみましょう。
Pythonのpandasライブラリを使用してmergeを行います。
import pandas as pd# 顧客データの作成
customer_data = pd.DataFrame({
'customer_id': [1, 2, 3],
'name': ['John', 'Mike', 'Sarah'],
'age': [25, 30, 28]
})# 注文データの作成
order_data = pd.DataFrame({
'order_id': [1, 2, 3],
'customer_id': [1, 2, 1],
'product': ['Apple', 'Banana', 'Orange'],
'quantity': [5, 3, 2]
})# データの結合
merged_data = pd.merge(customer_data, order_data, on='customer_id')
print(merged_data)
このコードでは、まずpandasライブラリを使用するために`import pandas as pd`でインポートします。
次に`customer_data`と`order_data`という2つのデータフレームを作成します。
`pd.merge()`関数を使用して2つのデータフレームを結合します。
`on=’customer_id’`という引数を指定することで、`customer_id`列をキーとして結合を行います。
最後に、結合されたデータを出力するために`print()`関数を使用します。
実行結果は以下のようになります。
customer_id name age order_id product quantity
0 1 John 25 1 Apple 5
1 1 John 25 3 Orange 2
2 2 Mike 30 2 Banana 3
結合されたデータセットでは、共通のキーである`customer_id`列に基づいてデータがマージされています。
コメント