Pythonを使ったデータ分析・可視化・機械学習の基礎：データフレーム作成から集計、Matplotlibによる散布図・ヒストグラム描画、NLTKによるテキスト処理からステム化、scikit-learnによる線形回帰モデル作成・予測

python

2023.06.202023.05.21

概要
詳細内容

概要

Pythonは、シンプルでわかりやすく、拡張性の高いプログラミング言語であり、多岐にわたる用途に利用されています。

プログラマーにとっては、特にデータ分析や機械学習の分野で強力なツールとして使われています。

今回は、実務レベルで使用されているPythonコードを紹介します。

詳細内容

1. データフレームの作成と集計処理以下のコードは、csvファイルからデータフレームを作成し、`groupby()`を使ってカテゴリごとの集計処理を行っています。

python
import pandas as pd# csvファイルからデータフレームを作成
df = pd.read_csv("data.csv")# カテゴリごとの平均値を算出
df_mean = df.groupby(["category"]).mean()# カテゴリごとのデータ件数を算出
df_count = df.groupby(["category"]).count()

2. データの可視化以下のコードは、Matplotlibパッケージを使ってデータの可視化を行っています。

python
import matplotlib.pyplot as plt
import pandas as pd# csvファイルからデータフレームを作成
df = pd.read_csv("data.csv")# 散布図を描画
plt.scatter(df["x"], df["y"])
plt.xlabel("x")
plt.ylabel("y")
plt.show()# ヒストグラムを描画
plt.hist(df["score"], bins=10)
plt.xlabel("score")
plt.ylabel("count")
plt.show()

3. テキスト処理以下のコードは、Natural Language Toolkit（NLTK）パッケージを使ってテキスト処理を行っています。

python
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords# テキストデータ
text = "This is a sample text."# 単語トークン化
tokens = word_tokenize(text)# ストップワード除外
stop_words = set(stopwords.words("english"))
filtered_tokens = [token for token in tokens if token.lower() not in stop_words]

4. 機械学習以下のコードは、scikit-learnパッケージを使って機械学習を行っています。

python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression# データフレームを読み込み
df = pd.read_csv("data.csv")# 説明変数と目的変数に分割
X = df[["x1", "x2", "x3"]]
y = df["y"]# データを学習用とテスト用に分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)# 線形回帰モデルを学習
model = LinearRegression()
model.fit(X_train, y_train)# テストデータを使って予測
y_pred = model.predict(X_test)