概要
ご紹介させていただくのは、実務レベルで使用されるPythonコードの例です。
Pythonは、データ解析や機械学習などの分野で強力なツールとなっており、日本の企業でも広く使用されています。
以下、実際のコード例を紹介します。
詳細内容
はい、理解しました。
実際の実務レベルのPythonコード例を紹介します。
## コード例1: データのクレンジング
import pandas as pd
import numpy as np# データの読み込み
df = pd.read_csv("data.csv", encoding="utf-8")# データのクレンジング
df = df.dropna() # 欠損値がある行を削除
df = df[df["age"] >= 18] # 年齢が18歳未満の行を削除# データの保存
df.to_csv("cleaned_data.csv", index=False)
このコードは、データのクレンジングを行う例です。
まず、pandasライブラリをインポートし、データを読み込んでいます。
次に、`dropna()`メソッドを使用して欠損値がある行を削除しています。
その後、年齢が18歳未満の行を削除しています。
最後に、クレンジングしたデータをcsvファイルとして保存しています。
`to_csv()`メソッドに引数の”index=False”を設定することで、行番号を保存しないようにしています。
## コード例2: データの前処理
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA# データの読み込み
df = pd.read_csv("data.csv", encoding="utf-8")# データの前処理
X = df.iloc[:, :-1].values # 説明変数の取得
y = df.iloc[:, -1].values # 目的変数の取得sc = StandardScaler() # 標準化オブジェクトの生成
X = sc.fit_transform(X) # 説明変数の標準化
pca = PCA(n_components=2) # 主成分分析オブジェクトの生成
X = pca.fit_transform(X) # 説明変数の主成分分析# データの分割
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
このコードは、データの前処理を行う例です。
pandasライブラリとscikit-learnライブラリの`StandardScaler`と`PCA`を使用しています。
まず、データを読み込み、`iloc`メソッドを使用して説明変数と目的変数を取得しています。
`StandardScaler`オブジェクトを生成し、`fit_transform`メソッドを使用して説明変数を標準化しています。
その後、`PCA`オブジェクトを生成し、説明変数を主成分分析しています。
最後に、`train_test_split`関数を使用してデータを分割しています。
この関数は、データをランダムに分割して、訓練用データとテスト用データに分けています。
コメント