前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Python系列(十四):Python 的数据科学与机器学习

Python系列(十四):Python 的数据科学与机器学习

原创
作者头像
我是黑桃A
发布2024-12-08 17:39:34
发布2024-12-08 17:39:34
10300
代码可运行
举报
文章被收录于专栏:好事花生~
运行总次数:0
代码可运行

好事发生

今天推荐的文章【我们在一个对话中会保存上下文吗,嵌入什么部位,怎么嵌入的?】,作者【zhangjiqun】,二话不说上链接:https://cloud.tencent.com/developer/article/2474746 ,这篇文章深入介绍对话系统保存上下文的部位、方式及不同实现方法与意义。

下面来开始我今天的正文...


数据处理与分析

Python 在数据科学领域的核心库如 Pandas 提供了强大的数据处理能力。例如,读取 CSV 文件并进行数据清洗和分析:

代码语言:python
代码运行次数:0
复制
import pandas as pd

# 读取 CSV 文件
data = pd.read_csv('data.csv')

# 查看数据前几行
print(data.head())

# 数据清洗,删除缺失值
cleaned_data = data.dropna()

# 按列进行数据统计
column_mean = cleaned_data['age'].mean()
print(f'年龄列的平均值: {column_mean}')

read_csv 方法读取 CSV 文件数据到 DataFrame 对象,head 方法查看数据的前几行,dropna 方法删除包含缺失值的行,然后可以对特定列进行统计分析,如计算年龄列的平均值。

机器学习模型构建

使用 Scikit-learn 可以构建各种机器学习模型。以简单的线性回归为例:

代码语言:python
代码运行次数:0
复制
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

# 生成示例数据
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2, 4, 6, 8, 10])

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型并训练
model = LinearRegression()
model.fit(X_train, y_train)

# 在测试集上进行预测
predictions = model.predict(X_test)

# 评估模型
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, predictions)
print(f'均方误差: {mse}')

首先生成示例数据,使用 train_test_split 方法将数据划分为训练集和测试集,创建线性回归模型并使用训练集进行训练,然后在测试集上进行预测,最后使用 mean_squared_error 评估模型的预测效果。

对于更复杂的机器学习任务,如分类问题(如使用决策树分类器):

代码语言:python
代码运行次数:0
复制
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd

# 读取数据
data = pd.read_csv('iris.csv')
X = data.drop('species', axis=1)
y = data['species']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建决策树分类器并训练
classifier = DecisionTreeClassifier()
classifier.fit(X_train, y_train)

# 在测试集上进行预测
predictions = classifier.predict(X_test)

# 评估模型准确率
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, predictions)
print(f'准确率: {accuracy}')

这里读取鸢尾花数据集,将特征列和目标列分离,划分数据集后创建决策树分类器进行训练、预测和评估。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 好事发生
  • 数据处理与分析
  • 机器学习模型构建
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档