首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    用Python对用户评论典型意见进行数据挖掘

    另外任何事情都要考虑金钱成本和人力成本,因此我希望能通过机器学习的算法来辅助分析,对用户的评论数据进行提炼和洞察。 一、数据获取和清洗 现在爬虫泛滥,网络公开数据的获取并不再是一个难题。...这里我们用爬虫来获取京东的评论数据。相对于亚马逊而言,京东比较坑。第一个坑是京东的反爬虫还不错,通过正常产品网址进去的那个评论列表是几乎爬不出数据来的,所有大部分网络爬虫服务都止步于此。...和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。 3、主题分解。 假设每一段文本都是有主题的,比如新闻里的体育类、时事类、八卦类等。...通过对一系列的语料库进行主题分解(本文采用的是LDA),可以了解语料库涉及了哪些主题。(本文用的LDA实际效果不怎么好,暂且仅供娱乐。更好的方法后续或许会更新) ? ? ? ? ? ? ?...JSong Python中文社区专栏作者,华东师范大学硕士,擅长数据分析与挖掘。

    4.2K80

    用Python对用户评论典型意见进行数据挖掘

    另外任何事情都要考虑金钱成本和人力成本,因此我希望能通过机器学习的算法来辅助分析,对用户的评论数据进行提炼和洞察。 一、数据获取和清洗 现在爬虫泛滥,网络公开数据的获取并不再是一个难题。...这里我们用爬虫来获取京东的评论数据。相对于亚马逊而言,京东比较坑。第一个坑是京东的反爬虫还不错,通过正常产品网址进去的那个评论列表是几乎爬不出数据来的,所有大部分网络爬虫服务都止步于此。...和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。 3、主题分解。 假设每一段文本都是有主题的,比如新闻里的体育类、时事类、八卦类等。...通过对一系列的语料库进行主题分解(本文采用的是LDA),可以了解语料库涉及了哪些主题。(本文用的LDA实际效果不怎么好,暂且仅供娱乐。更好的方法后续或许会更新) ? ? ? ? ? ? ?...通过关联分析找打的特征-形容词对需要筛选,主要表现在两点。 1、里面不只名词-形容词对,两个名词,形容词-动词等都有可能; 2、没有考虑两个词语在文本之间的距离。

    1.5K30

    用 Python 对 Excel文件进行批量操作

    在 Python 中,OS 库主要提供了与操作系统即电脑系统之间进行交互的一些功能。很多自动化操作都会依赖该库的功能。...我们在前面学过,如何读取一个文件,可以用 load_work(),也可以用 read_excel(),不管采用哪种方式,都只需要指明要读取文件的路径即可。 那如何批量读取呢?...format(i)) 如果要对读取的文件的数据进行操作,那么只需把具体的操作实现代码放置在读取代码之后即可。比如我们要对每一个读取进来的文件进行删除重复值处理,实现代码如下。...要达到这种效果,可以通过前面学到的对文件进行重命名的操作来实现,前面只介绍了对单一文件的操作,那如何同时对多个文件进行批量操作呢? 图 4 具体实现代码如下。...df_month = df_o[df_o['月份'] == m] #将筛选出来的数据进行保存 df_month.to_csv(r'D:/Data-Science/share/data/split_data

    1.6K60

    用python对拉勾网5000条招聘进行数据分析

    python数据分析 代码: https://github.com/sevenry/my_data/upload/master/160813 利用pandas库对其进行一定的处理,用于分析全国总的职位需求情况以及对招聘人员的需求分布等...首先该csv包含5000条数据,每一条数据包含21项内容。如图: ?...利用pandas打开文件后,对数据源做了以下处理: 1)workYear栏有不同数据表达同样结果,如‘1-3’和‘1-3年’可以统一更改为‘1-3年‘; 2)createTime和companyLogo...两项数据内容没太大意义,删除; 3)考虑到不同工作性质在薪资上有较大不同,因此去除兼职和实习部分,本文仅针对全职工作需求进行分析。...可以看出,除北京外,对1-3年工作经验人才的需求都相对较高,而北京对3-5年工作经验的人才需求比例远高于其他城市,这应该也造成了北京薪酬平均值较高的一个因素。

    1.3K120

    用Python对印度超级联赛进行数据分析实战

    你可能手头上有某种数据,必须对其进行分析才能获得有价值的信息。如果你在某个广告公司工作,那么你也必须在那里进行数据分析。通过分析他们的数据,你可以为公司提供一些有价值的信息和策略。...用Python进行数据分析,几乎是如今我们数据分析师必备的技能之一。我们平时学习了不少有关Python的基础知识,但使用Python进行数据分析实战比较少。...今天云朵君就和大家一起学习结合使用 Pandas、NumPy、Seaborn 和 Matplotlib 库等对印度超级联赛数据 (IPL, 2008-2020) 进行可视化数据分析!...我们用 2008 年到 2020 年的 IPL 比赛数据(来源Kaggle,文末有免费获取方法)进行数据分析。...,并对他们的跑垒次数进行了总结。

    51530

    用Python+PPT对某宝月饼数据进行可视化分析~

    过几天就中秋了,小刀还没收到公司送的月饼 ,只能用羡慕的眼神看着女朋友她们公司早在半个月前就送的广州酒家月饼,所以为了不羡慕,今天用python+ppt带大家看看淘宝的月饼怎么样,呃呃,只看不买...顺便想想怎么提醒公司送...数据处理 导入包: import pandas as pd import numpy as np 读取数据并预览: df = pd.read_csv('....float64 4 付款人数 1979 non-null object dtypes: float64(1), object(4) memory usage: 77.4+ KB 我们对数据集进行以下处理...,以便我们后续的可视化分析工作: 删除重复值 付款人数需进行单位换算 发货地址需做分割,提取省份和城市 价格需进行分类 # 去除重复值 df.drop_duplicates(inplace=True)...商品标题词云 通过对商品名称进行词云绘制,可以发现关于“送礼”的词就有3个:礼遇东西、送礼、礼品,而在其中长辈一词出现的频率也很高;其次是月饼的味道、品牌相关的词语。

    1K30

    python pandas对社保数据进行整理整合

    4.每22个数据就来一几行标题 我们每次要查找一个数据,用Ctrl+F,输入查找都要很长时间。..., 再用第四列中含有“"2049867-佛山市XXXXX"”的全部取出,如果没有的就删除,这一步可以删除重复的合并单元形式的每隔几行就有的烦人的标题, 用再.iloc[取所有的行数据,【取出指定的列的数据...】], 再添加上标题,这里文字太多了,我就用了字母,只是“社会保障号”用文字,与下面的一致 再导入“养老与职业年金的。...(axis=1,how='all')删除整列为0的数据 添加标题 d_total=mydata.merge(df,on='社会保障号')利用“社会保障号”为识别进行数据的合并。...输出到为Excel文件, ================= python的数据清洗很强大 ====今天就学习到此====

    51310

    用 OpenVINO 对图像进行分类

    今天我们进行我们的第一个 Hello World 项目--用 OpenVINO 对图像进行分类。该项目为【OpenVINO™ Notebooks】项目的 001-hello-world 工程。...openvino_notebooks (github.com)该工程位于我们之前下载好的项目中运行项目在运行前我们先来介绍一下目录结构001-hello-world.ipynb: 工程文件data:用来保存数据的...model:保存的是模型文件utils:保存的是数据集相关的信息。在运行代码之前,我们需要确认好它用的环境我这个是一个错误示范,正确的环境应该是:openvino_env。...import IECore复制代码选择这个单元格 ctrl + alt + enter 进行代码运行,也可以直接点击左上角的运行按钮。...好了,今天的内容就是这些了,如果对你有所帮助,欢迎转发给你的朋友们。我是 Tango,一个热爱分享技术的无名程序猿,我们下期见。我正在参与2023腾讯技术创作特训营第四期有奖征文,快来和我瓜分大奖!

    25000

    用python对汽车油耗进行数据分析(anaconda python3.6完全跑通)

    编者按:前两天我们微信发了一篇文章《用python对汽车油耗进行数据分析》,有一网友学习后用python3.6重新跑了一下数据,请大家比较阅读。...PPV课致力于为大家提供一个开放、分享、进步的数据科学社区,欢迎小伙伴们给我们分享你的学习心得和博客文章,有你的鼓励和支持,我们会做的更好。投稿请联系QQ149104196。...data frame的中,包括每列的非空值数量和各列不同的数据类型的数量。...vehicles.groupby('year')#- 再计算其中三列的均值averaged= grouped['comb08', 'highway08', 'city08'].agg([np.mean])#- 为方便分析,对其进行重命名...#创建一个空列表,最终用来产生布尔值Booleansboolean_mask = []#用iterrows生成器generator遍历data frame中的各行来产生每行及索引for index, row

    1K60

    使用Python对Instagram进行数据分析

    它是用Python编写的。 我推荐使用Jupyter笔记本和IPython。普通的python运行良好,但可能没有显示图像的功能。...为了做到这一点,首先我们需要在你的用户配置文件中获得所有的帖子,然后根据点赞的数量对它们进行排序。...获得跟踪用户和跟踪列表 我将获得跟踪用户和跟踪列表,并对其进行一些操作。为了使用getUserFollowings和getUserFollowers这两个函数,你需要先获取user_id。...现在,我们有了一个JSON格式的跟踪用户和跟踪列表的所有数据,我将把它们转换成更友好的数据类型–set–,以便对它们执行一些设置操作。 我会使用 ‘username’并从中创建set()。...这些都是你可以用Instagram数据做的事情。我希望你学会如何使用Instagram的API,并知道能用它做什么。保持独创性的眼光,因为它还在发展中,将来你还可以做更多的事情。

    2.8K40
    领券