概要
Pythonは、データ分析において非常にパワフルなツールとなりました。
Pythonの豊富なライブラリや簡潔な文法を活用することで、データの可視化、統計解析、機械学習など、さまざまなデータ分析タスクを効率的に行うことができます。
本記事では、Pythonを使った実際のデータ分析の例を紹介しながら、その使い方や便利なライブラリについて解説します。
詳細内容
もちろんです。
以下に実務レベルで使用されるPythonコードの例をいくつか紹介します。
1. データの読み込みと可視化
import pandas as pd
import matplotlib.pyplot as plt# CSVファイルからデータを読み込む
data = pd.read_csv('data.csv')# データの最初の5行を表示
print(data.head())# データの基本統計情報を表示
print(data.describe())# データの可視化(折れ線グラフ)
plt.plot(data['x'], data['y'])
plt.xlabel('x')
plt.ylabel('y')
plt.title('Data Visualization')
plt.show()
このコードは、pandasライブラリを使用してCSVファイルからデータを読み込み、データの最初の5行と基本統計情報を表示します。
さらに、matplotlibライブラリを使用してデータを折れ線グラフとして可視化します。
2. データの前処理と特徴量エンジニアリング
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest
from sklearn.linear_model import LinearRegression# CSVファイルからデータを読み込む
data = pd.read_csv('data.csv')# 特徴量とターゲット変数を分割
X = data.drop('target', axis=1)
y = data['target']# 標準化する
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 特徴量選択する
selector = SelectKBest(k=5)
X_selected = selector.fit_transform(X_scaled, y)# 線形回帰モデルを訓練する
model = LinearRegression()
model.fit(X_selected, y)
このコードは、Scikit-learnライブラリを使用してデータの前処理と特徴量エンジニアリングを行います。
まず、データを特徴量とターゲット変数に分割し、特徴量を標準化します。
次に、SelectKBestを使用して最も重要な特徴量を選択します。
最後に、線形回帰モデルを訓練します。
3. 機械学習モデルの評価と予測
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report# CSVファイルからデータを読み込む
data = pd.read_csv('data.csv')# 特徴量とターゲット変数を分割
X = data.drop('target', axis=1)
y = data['target']# 訓練データとテストデータに分割する
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# ランダムフォレスト分類器を訓練する
model = RandomForestClassifier()
model.fit(X_train, y_train)# テストデータで予測を行う
y_pred = model.predict(X_test)# モデルの評価
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)
print('Accuracy:', accuracy)
print('Classification Report:')
print(report)
このコードは、Scikit-learnライブラリを使用して機械学習モデルを訓練し、評価と予測を行います。
まず、データを特徴量とターゲット変数に分割し、訓練データとテストデータに分割します。
次に、ランダムフォレスト分類器を訓練し、テストデータで予測を行います。
最後に、モデルの評価指標を計算して表示します。
以上が、実際のデータ分析で使用されるPythonコードの例です。
これらのコードを実際のデータに適用することで、データの読み込み、前処理、可視化、モデルの訓練と評価などのタスクを効率的に実行することができます。
コメント