Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >利用混元大模型进行数据分析

利用混元大模型进行数据分析

原创
作者头像
Crossin先生
修改于 2023-11-24 09:23:04
修改于 2023-11-24 09:23:04
51900
代码可运行
举报
运行总次数:0
代码可运行

最近,腾讯发布了自主研发的大型语言模型:混元大模型。该大模型具备多轮对话能力、内容创作能力、逻辑推理能力、搜索增强和知识图谱等特点。除了对于人类自然语言的理解,混元大模型对于计算机编程语言同样可以进行分析和和生成。

今天我就来用一个很常见的Python开发需求:对一组数据进行采集、整理、可视化分析,来演示下混元大模型在编程辅助开发上所能提供的帮助。

开发实例:学生成绩排名及分布

需求目标是从网页上抓取某班级学生的各科成绩汇总表,然后对分数进行排名,并通过可视化图表展示成绩的分布情况。在开发的过程中,我会使用腾讯混元大模型作为辅助。

先问问混元,一般这种程序要如何来写?

混元给出的建议:

  1. 获取网页数据
  2. 数据清洗与处理
  3. 数据分析与排名
  4. 数据可视化
  5. 结果展示

跟我的想法不谋而合,显然这种常见需求难不倒它。那我们就开始实际操作吧。

1、获取数据

为了保证测试环境的稳定,我自己提前准备好了一份测试数据,地址为:

https://python666.cn/static/score.html

首先需要通过代码获取其中的表格数据。

测试网页上只有一个表格,所以只需要回答中的前两个步骤就可以成功获取了。把目标URL代入混元给出的代码中:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
url = 'https://python666.cn/static/score.html'
data = pd.read_html(url)[0]
print(data)

运行效果如下:

2、存储数据

在上一个回答中,混元已经给我们提供了将数据保存为csv文件的方法。不过我想要Excel文件,所以让它再给我改一下。

混元给出的方案是使用pandas的.to_excel方法,把它加入到我们前面的代码中:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
url = 'https://python666.cn/static/score.html'
data = pd.read_html(url)[0]
data.to_excel("output.xlsx", index=False, engine="openpyxl")

执行后得到的Excel文件如下:

3、读取数据

保存完数据之后,再进行处理的话需要从文件中读取出数据。之所以没有在抓取数据后直接处理,是因为把数据保存到本地更方便后续反复操作,这更符合通常数据分析的操作流程。

读取Excel数据的代码很简单,在混元给出的代码上改一下文件名就可以用了:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd

df = pd.read_excel("output.xlsx", sheet_name="Sheet1")
print(df)

运行效果如下:

4、清洗数据

成绩表中有一些缺失的分数。对于这些成绩我希望将其替换成0分,以便于后续的计算。

将.fillna(0)方法添加进上一步的代码中:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd

df = pd.read_excel("output.xlsx", sheet_name="Sheet1")
df_filled = df.fillna(0)
print(df_filled)

顺利实现需求:

5、数据处理

数据的前期准备都已妥当,下面可以开始做些进一步的处理和分析了。

比如来计算一下每个学生的各科成绩总分和平均分。

混元给出了计算总分和平均分的方法,但有点小问题,计算取的列不对。于是我再提醒它一下:

根据修改后的回答,更新我们的代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
df = pd.read_excel("output.xlsx", sheet_name="Sheet1")
df = df.fillna(0)
mean_values = df.iloc[:, 2:11].mean(axis=1)
sum_values = df.iloc[:, 2:11].sum(axis=1)
df["总分"] = sum_values
df["平均分"] = mean_values
print(df)

运行效果如下:

6、数据可视化

最直观展示数据整体情况的方法就是通过可视化图表。

混元给出了matplotlib和seaborn两种方案,整合进之前的代码,呈现出如下效果:

大致意思是对的,细节上还有点小问题:

  1. 图上的中文图例都显示成了□
  2. seaborn没有区分平均分和总分两种数据,全部放在一起画分布图
  3. matplotlib虽然做了区分,但也是画在一张图上,导致比例有点失调

我来让它在matplotlib代码的基础上进一步修正,seaborn的我们暂时就不用了。首先是中文显示的问题:

混元给出的解决方案是通过 plt.rcParams['font.sans-serif'] 设置中文字体。不过它给的 'Microsoft YaHei' 字体我电脑上没有,替换成我系统里有的 'Songti SC',确实可以解决显示问题:

然后再把这两张分布图分开绘制:

混元给出的方案是根据 matplotlib 的 subplots 方法设置子图表布局,然后在两个子图表上分别绘制。

整合进代码,效果如下:

成功绘制出了总分和平均分两张分布图。

最终的完整代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
import matplotlib.pyplot as plt
# 读取Excel中书数据
df = pd.read_excel("output.xlsx", sheet_name="Sheet1")
# 对空值进行填充
df = df.fillna(0)
# 计算总分和平均分
mean_values = df.iloc[:, 2:11].mean(axis=1)
sum_values = df.iloc[:, 2:11].sum(axis=1)
df["总分"] = sum_values
df["平均分"] = mean_values
# print(df)
# 设置中文字体
plt.rcParams['font.sans-serif'] = ['Songti SC']
plt.rcParams['axes.unicode_minus'] = False
# 创建一个2x1的子图表布局
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(6, 8))
# 绘制总分直方图
axes[0].hist(df['总分'], bins=20, color='blue', edgecolor='black', alpha=0.7)
axes[0].set_title('总分')
axes[0].set_xlabel('分数')
axes[0].set_ylabel('人数')
# 绘制平均分直方图
axes[1].hist(df['平均分'], bins=20, color='red', edgecolor='black', alpha=0.7)
axes[1].set_title('平均分')
axes[1].set_xlabel('分数')
axes[1].set_ylabel('人数')
# 显示图表
plt.tight_layout()
plt.show()

总结

以上就是我们借助混元大模型,辅助开发一个数据分析案例的全过程演示。

从结果上来看,混元的确可以给我们在开发程序时提供帮助,提高开发效率。尤其对于数据分析这种开发需求来说,会用到很多第三方模块中的函数,在过去需要频繁查阅文档和搜索网络来了解具体的用法和参数设置,现在借助于大模型,可以很方便地得到示例代码,稍加调整就可以应用在代码中,大大节省了时间。

当然在此过程也会发现,由于程序设计会牵涉到业务需求的细节和具体的数据格式,大模型并不是每次都能直接给出完美的代码。这种情况下,需要使用者针对问题进一步提问,或对给出的代码进行验证和调整。

但总的来说,作为一个「开发助手」的角色,混元大模型已经可以给到开发者实实在在的效率提升。并且,大模型还在不断地进化迭代,期待后续有更令人惊艳的表现。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
实战|Python数据分析可视化并打包
大家好,关于Python数据分析的工具我们已经讲了很多了,相信一直关注的读者对于Pandas、NumPy、Matplotlib的各种操作一定不陌生,今天我们就用一份简单的数据来学习如何使用Python进行数据分析,本文主要涉及下面三个部分:
刘早起
2020/05/13
1.4K0
实战|Python数据分析可视化并打包
AI数据分析:集中度分析和离散度分析
你是一个Python编程专家,要完成一个Python脚本编写的任务,具体步骤如下:
AIGC部落
2024/06/24
1400
AI数据分析:集中度分析和离散度分析
100天精通Python丨办公效率篇 —— 07、Python自动化操作 Excel(读写、增删改查、分组统计)
小伙伴你好,在开始操作 Excel 之前,你需要安装 Python 和一些相关库。可以使用 pip 安装以下库,或者使用专业的 python 客户端:pycharm,快速安装 python 和相关库。
不吃西红柿
2023/04/12
1.7K0
数据分析师狂喜!手把手教你用混元大模型做数据分析
最近,腾讯发布了自主研发的大型语言模型:混元大模型。该大模型具备多轮对话能力、内容创作能力、逻辑推理能力、搜索增强和知识图谱等特点。除了对于人类自然语言的理解,混元大模型对于计算机编程语言同样可以进行分析和和生成。今天我就来用一个很常见的 Python 开发需求:对一组数据进行采集、整理、可视化分析,来演示下混元大模型在编程辅助开发上所能提供的帮助。
腾讯云开发者
2023/12/09
2.3K0
数据分析师狂喜!手把手教你用混元大模型做数据分析
AI数据分析:根据Excel表格数据绘制柱形图
工作任务:将Excel文件中2013年至2019年间线上图书的销售额,以条形图的形式呈现,每个条形的高度代表相应年份的销售额,同时在每个条形上方标注具体的销售额数值
AIGC部落
2024/06/24
2180
AI数据分析:根据Excel表格数据绘制柱形图
深入Pandas从基础到高级的数据处理艺术
在日常的数据处理工作中,我们经常会面临需要从 Excel 中读取数据并进行进一步操作的任务。Python中有许多强大的工具,其中之一是Pandas库。在本文中,我们将探讨如何使用Pandas库轻松读取和操作Excel文件。
一键难忘
2024/01/26
3261
python数据处理
在数据分析的时候,原始数据或多或少都会存在大量的不完整、不一致,等异常的数据,会严重影响到数据分析的工作。经常遇到的数据清洗大都是处理缺失数据,清除无意义的信息。比如说删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选出与分析内容无关的数据,处理缺失值,异常值等。
andrew_a
2019/12/25
1.4K0
利用 Python 实现 Excel 办公常用操作!
本文用的主要是pandas,绘图用的库是plotly,实现的Excel的常用功能有:
刘早起
2022/12/20
2.7K0
利用 Python 实现 Excel 办公常用操作!
快速介绍Python数据分析库pandas的基础知识和代码示例
“软件工程师阅读教科书作为参考时不会记住所有的东西,但是要知道如何快速查找重·要的知识点。”
deephub
2020/07/29
8.2K0
快速介绍Python数据分析库pandas的基础知识和代码示例
pandas速成笔记(3)-join/groupby/sort/行列转换
有数据库开发经验的同学,一定对sql中的join ... on 联表查询不陌生,pandas也有类似操作
菩提树下的杨过
2022/04/27
7320
pandas速成笔记(3)-join/groupby/sort/行列转换
Python数据分析--斜率图
最近阅读学习了林骥老师的《数据化分析 Python 实战》,书中讲好的技能应该刻意的练习,而不是简单的重复。
MiaoGIS
2022/04/22
1.1K0
Python数据分析--斜率图
python使用pandas的常用操作
Pandas 的名字来源于“Panel Data”和“Python Data Analysis Library”的缩写。它最初由 Wes McKinney 开发,旨在提供高效、灵活的数据操作和分析工具。Pandas 在数据科学、统计分析、金融、经济学等领域得到了广泛应用。
梦无矶小仔
2024/06/06
2430
python使用pandas的常用操作
Python Excel最佳实战 -- Pandas
在做自动化过程中,难免会跟Excel打交道,以前我们读写excel大都用xlrd, xlwt, 但是现在有了更好用的方式 --pandas, 我用了下感觉效果不错,索性写了读和写的一个小例子,希望能帮助到大家。
iTesting
2019/10/29
1K0
用4种回归方法绘制预测结果图表:向量回归、随机森林回归、线性回归、K-最近邻回归
链接: https://pan.baidu.com/s/1qa99ntHsozgqB2xliVYd7A 提取码: sp9h –来自百度网盘超级会员v6的分享
全栈若城
2024/02/29
4030
用4种回归方法绘制预测结果图表:向量回归、随机森林回归、线性回归、K-最近邻回归
Python处理Excel学生成绩
Python 安装包下载地址:https://www.python.org/downloads/ 打开该链接,点击下图中的版本号或者Download按钮进入对应版本的下载页面,滚动到最后即可看到各个平台的 Python 安装包。
逍遥子大表哥
2021/12/19
2.6K0
Python处理Excel学生成绩
Python数据分析--哑铃图
最近阅读学习了林骥老师的《数据化分析 Python 实战》,书中讲好的技能应该刻意的练习,而不是简单的重复。
MiaoGIS
2022/04/20
2.2K0
Python数据分析--哑铃图
pandas系列 - (一)明细数据汇总简单场景应用
官方文档:https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html
forxtz
2020/10/27
1.2K0
pandas系列 - (一)明细数据汇总简单场景应用
一文讲述Pandas库的数据读取、数据获取、数据拼接、数据写出!
Pandas是一个强大的数据分析库,它的Series和DataFrame数据结构,使得处理起二维表格数据变得非常简单。
朱小五
2021/06/08
8.8K0
一文讲述Pandas库的数据读取、数据获取、数据拼接、数据写出!
Python 数据处理
Numpy、Pandas是Python数据处理中经常用到的两个框架,都是采用C语言编写,所以运算速度快。Matplotlib是Python的的画图工具,可以把之前处理后的数据通过图像绘制出来。之前只是看过语法,没有系统学习总结过,本博文总结了这三个框架的API。 以下是这三个框架的的简单介绍和区别:
haifeiWu
2018/09/11
1.5K0
Python自动化办公--Pandas玩转Excel数据分析【三】
 预测的话就直接输入x代入方程,这是deme仅供参考,更多的可以采用机器学习的一些算法进行求解。
汀丶人工智能
2022/12/21
6800
Python自动化办公--Pandas玩转Excel数据分析【三】
推荐阅读
相关推荐
实战|Python数据分析可视化并打包
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验