首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

手把手教你用Python分析豆瓣电影——以《不是药神》《邪不压正》为例

后来去githubissue了下,发现有现成字典文件,一个json文本,得到回复如下(^__^)。 ?...把错误城市pop掉,另外注意到豆瓣个人主页城市信息一般都是是到市,那么县一级区域就不考虑了,这也算是一种简化处理。...,但是指明购物类评论准确率较高,其实是因为它语料库主要是购物方面的,可以自己构建相关领域语料库,替换原来,准确率也挺不错)、文本分类(原理是朴素贝叶斯)、转换拼音、繁体转简体、提取文本关键词(...因为是unicode编码,所以不需要去除中文文本里面含有的英文,因为都会被转码成统一编码上面只是调用snownlp原生语料库对文本进行分析,snownlp重点针对购物评价领域,所以为了提高情感分析准确度可以采取训练语料库方法...数据可视化与解读 6.0 文本读取 在后面的commit版本最终只传入了电影中文名字作为参数,因此相较于之前版本,在路径这一块儿需要做写调整。

1.4K32
您找到你想要的搜索结果了吗?
是的
没有找到

Python制作天气查询软件

来源:Python高效编程 作者:flywind 以前,公众号分享了如何使用 PyQt5 制作猜数游戏和计时器,这一次,我们继续学习:如何使用 PyQt5 制作天气查询软件。...开发环境 Python3 PyQt5 requests 准备工作 首先要获取不同城市对应天气代码,可以 https://www.heweather.com/documents/city.html 网站下载...citykey={code}',code 就是之前处理过城市代码,比如常州城市代码为:101191101。...替换掉变量 code ,发送请求,网站返回给我们一段 json 格式文件: 根据这段 json 语句,我们很容易提取需要信息: # 天气情况 data = info_json['data'] city...(True) # 将鼠标焦点放在 lineEdit 编辑栏里 self.lineEdit.setFocus() # 获取 lineEdit 文本 city = self.lineEdit.text(

1.7K50

较详细阐述漏洞挖掘之信息收集(上篇)

补充 1.关于子域名搜集: 个人还推荐下面几款子域名搜集工具,关于使用还请大家参考github README.md: 猪猪侠开发一款域名收集全面、精准子域名枚举工具:https://github.com...,这里举一些: github源代码:https://github.com/repoog/GitPrey svn信息泄漏:这个只能用扫描器了 敏感文件:比如数据库配置文件、网站源码啊、数据库备份文件等等...例:查找对应443端口资产 ip="1.1.1.1" ip搜索包含1.1.1.1网站,注意搜索要用ip作为名称。...例:搜索证书(https或者imaps等)带有google资产 banner=users && protocol=ftp 搜索FTP协议带有users文本资产。...例:搜索FTP协议带有users文本资产 type=service 搜索所有协议资产,支持subdomain和service两种。

1.1K20

Python 正则表达式一文通

考虑以下场景: 文末有一个包含大量数据日志文件,从这个日志文件,希望只获取日期和时间。乍一看,日志文件可读性是很低。 在这种情况下,可以使用正则表达式来识别模式并轻松提取所需信息。...基本,为了使用正则表达式解决这些问题,我们首先从包含 pin 码学生数据中找到一个特定字符串,然后将它们全部替换为新字符串。...什么是正则表达式 正则表达式用于识别文本字符串搜索模式,它还有助于找出数据正确性,甚至可以使用正则表达式进行查找、替换和格式化数据等操作。...考虑以下示例: 在给定字符串所有数据,假设我们只需要城市,这可以以格式化方式转换为仅包含名称和城市字典。现在问题是,我们能否确定一种模式来猜测名称和城市?...网页抓取 网站上删除所有电话号码以满足需求。 要了解网络抓取,请查看下图: 我们已经知道,一个网站将由多个网页组成,我们需要从这些页面抓取一些信息。

1.8K20

静态HTML旅行主题网页作业——青岛民俗7页html+css+javascript+jquery 地方民俗网页设计与实现

地方民俗勾勒并凸显了青岛一地文化城市特色,而青岛能够为世界留下深刻记忆,也正是囊括了民间传统文化在内城市特色人文风貌。...实训遇到得困难不少,比如如何收集适合网页图片素材、如何网页配色看着更自然更舒适、如何用PS裁剪大小合适图片、以及制作表单时候如何设计等等,最后,通过上网查询和请教别人得到了很好解决。...为了制作出更好效果也翻阅参考了其他资料,学习到了更多网页处理技巧。制作网页过程遇到很多问题,通过查找资料或询问同学都有得到解决。...这次综合实训收获很大,学有所用,在实践过程中学习巩固对知识能有更深记忆。网页制作是一门很实用学科,值得以后进行更深入学习。...这次实训也体会到了自己掌握技巧太少了,以至于很多想法都没能实现,在以后学习过程要对网页制作有更深了解,做出更为成熟网页

77660

如何用 Python 和 API 收集与分析网络数据?

你只需要把样例代码全部拷贝下来,用文本编辑器保存为“.py”为扩展名 Python 脚本文件,例如 demo.py 。...让他们实际跑了一下,发现确实有的学生粗心大意,忘了替换自己 AppCode 。...我会在后文“代码”部分,用详细叙述,为你展示如何使用这两个软件包。 建议你先完全按照教程跑一遍,运行出结果。 如果一切正常,再将其中数据,替换为你自己感兴趣内容。...没关系, API 信息页,我们得知返回数据,是 JSON 格式。 那就好办了,我们调用 Python 自带 json 包。...写到这里,你基本搞懂了,如何读取某个城市、某个月份数据,并且整理到 Pandas 数据框。 但是,我们要做分析,显然不能局限在单一月份与单一城市

3.3K20

架构设计之需求分析

大家好,是易安。 设计架构第一步是需求分析。那么,为什么要做需求分析?如何做好需求分析?...当然这仅仅是这么理解,实际上一个我们技术对象方法,产品需求角度会有多条路径操作方式来达到相同目的。 其次,需要对产品如何满足用户需求进行确认。...最后,产品定义还需要考虑市场策略,我们产品如何进入市场,和既有市场格局其他主流解决方案关系是什么样。 我们希望获取用户,可能大部分都已经有一个既有的产品和技术方案,在满足他需求。...另外,存储系统操作接口来说,我们分为关系型存储(数据库,结构化数据)和文件型存储(非结构化数据)。我们今天关注点在文件型存储。...通过对打造“互联网”和“对象存储”这两个案例分析,我们可以看出不同市场差异还是很大。“互联网” 这个产品它并不是替换某种既有的方案,而是把既有的方案连接在一起。

24940

在测试自动化中使用Java枚举

如您所见,Country属性是静态。 在注册表格,从下拉列表中选择国家,另一个下拉列表中选择城市,并通过在字段中键入来提供电话号码。...在本文中,将省略打开浏览器,打开网页和关闭浏览器部分。您可以在本文结尾处提供GitHub存储库中看到所有这些部分。...请记住,此下拉菜单还具有空文本选项,用于显示。 ? 我们要编写测试需要检查我们想要并已存储在Enum所有国家和城市是否存在于其相应下拉列表。还要记住,每个下拉列表中都有空条目。...请记住,我们将使用Selenium读取网页值,并将它们作为String返回,我们可以创建一个预期String国家值列表。首先,将创建列表并向其中添加第一个元素,它是一个空字符串。...现在,我们可以网页读取国家/地区值,并将其存储到“实际”值列表。因为我们正在处理“选择”,所以我们需要遍历属于“选择”所有“选项” WebElement。

3.2K10

在测试自动化中使用Java枚举

如您所见,Country属性是静态。 在注册表格,从下拉列表中选择国家,另一个下拉列表中选择城市,并通过在字段中键入来提供电话号码。...在本文中,将省略打开浏览器,打开网页和关闭浏览器部分。您可以在本文结尾处提供GitHub存储库中看到所有这些部分。...请记住,此下拉菜单还具有空文本选项,用于显示。 我们要编写测试需要检查我们想要并已存储在Enum所有国家和城市是否存在于其相应下拉列表。还要记住,每个下拉列表中都有空条目。...请记住,我们将使用Selenium读取网页值,并将它们作为String返回,我们可以创建一个预期String国家值列表。首先,将创建列表并向其中添加第一个元素,它是一个空字符串。...现在,我们可以网页读取国家/地区值,并将其存储到“实际”值列表。因为我们正在处理“选择”,所以我们需要遍历属于“选择”所有“选项” WebElement。

2.7K20

Scrapy爬虫框架实战案例(适合小白人门)

:Scrapy 1.4.0 IDE:Sublime text3 浏览器:chrome ---- 下面我们进入本文主题,爬取我们第一个网页“去哪儿”酒店城市列表,图中红色框框部门。...不过为了方便我们项目启动,可以在项目中新建一个entrypoint.py文件文件内容如下: 项目结构图 创建Item 创建一个新Item方便我们保存所爬取数据,爬取页面可以看出,我们需要两个数据就够了...,一个是城市名称,另一个是城市对应URL。...class=”e_city_list”div,在从中找到所有“li”标签“a”标签,爬取“a”标签文本及“href”属性。...爬取网页 打开spidershotel.py文件。这文件是系统帮我们创建,系统帮我们创建了一下关键代码。

1.4K20

python3+Scrapy爬虫实战(一)—— 初识Scrapy

python3+Scrapy爬虫实战(二)—— 使用pipeline数据保存到文本和数据库(mysql) 初识Scrapy 开发环境 创建项目 创建爬虫 项目结构图 创建Item 分析HTML 爬取网页...,爬取我们第一个网页“去哪儿”酒店城市列表,图中红色框框部门。...不过为了方便我们项目启动,可以在项目中新建一个entrypoint.py文件文件内容如下: 项目结构图 创建Item 创建一个新Item方便我们保存所爬取数据,爬取页面可以看出,我们需要两个数据就够了...class=”e_city_list”div,在从中找到所有“li”标签“a”标签,爬取“a”标签文本及“href”属性。...爬取网页 打开spidershotel.py文件。这文件是系统帮我们创建,系统帮我们创建了一下关键代码。

27220

Python 练手项目有哪些值得推荐?

数据存储在本地MySql服务器服务器导出json格式文件,再用Python进行数据读取分析和可视化。 数据简单清洗: 1.首先在终端打开输入ipython pylab。...2.读取JSON文件时pandas默认分配了0开始索引,由于文件'ZL_Job_id'列自带索引,故将其替换!替换后,用sort_index()给索引重新排列。...数据分析和可视化 可读性来看,应该是先进行数据清洗,然后进行分析及可视化,但是实际过程,往往是交织在一起, 所有下面让我们一步步来,完成所有的清洗、分析和可视化工作。...df_工作城市.value_counts() #查看替换城市所包含职位总数;查看替换城市数量,是否等于30. df_工作城市 #将新[df_工作城市]列添加到df表,留作备用 df['...哈哈,当你知道越来越接近这些问题答案呢,那么相信,薪水对你来说已经不那么重要了!(当然,高薪是必须有的!) 人生苦短,用Python!

84100

基于HTML旅游网站项目的设计与实现——联途旅游网服务平台网站HTML模板HTML+CSS+JavaScript

实训遇到得困难不少,比如如何收集适合网页图片素材、如何网页配色看着更自然更舒适、如何用PS裁剪大小合适图片、以及制作表单时候如何设计等等,最后,通过上网查询和请教别人得到了很好解决。...对于用Dreamweaver、vscode、hbuider等制作网页更为得心应手。实训过程尽量充分利用老师教过知识,对所学知识进行了巩固。...为了制作出更好效果也翻阅参考了其他资料,学习到了更多网页处理技巧。制作网页过程遇到很多问题,通过查找资料或询问同学都有得到解决。...这次综合实训收获很大,学有所用,在实践过程中学习巩固对知识能有更深记忆。网页制作是一门很实用学科,值得以后进行更深入学习。...这次实训也体会到了自己掌握技巧太少了,以至于很多想法都没能实现,在以后学习过程要对网页制作有更深了解,做出更为成熟网页

2.7K30

大学生网页制作期末作业——HTML+CSS+JavaScript制作成都旅游网页设计与实现12个页面 web前端课程设计代码 web课程设计 HTML网页制作代

实训遇到得困难不少,比如如何收集适合网页图片素材、如何网页配色看着更自然更舒适、如何用PS裁剪大小合适图片、以及制作表单时候如何设计等等,最后,通过上网查询和请教别人得到了很好解决。...对于用Dreamweaver、vscode、hbuider等制作网页更为得心应手。实训过程尽量充分利用老师教过知识,对所学知识进行了巩固。...为了制作出更好效果也翻阅参考了其他资料,学习到了更多网页处理技巧。制作网页过程遇到很多问题,通过查找资料或询问同学都有得到解决。...这次综合实训收获很大,学有所用,在实践过程中学习巩固对知识能有更深记忆。网页制作是一门很实用学科,值得以后进行更深入学习。...这次实训也体会到了自己掌握技巧太少了,以至于很多想法都没能实现,在以后学习过程要对网页制作有更深了解,做出更为成熟网页

1.7K30

搜索引擎 – 永不过时渗透神器

搜索引擎是日常工作中用得最多一款工具,国内常用搜索引擎包括Baidu,sougou,bing,以及信息安全从业人员必备几款网络搜索引擎。...google基本语法 Index of/  使用它可以直接进入网站首页下所有文件文件。 intext:  将返回所有在网页正文部分包含关键词网页。...filetype:  搜索指定文件类型,如:.bak,.mdb,.inc等。 info:  查找指定站点一些基本信息。 inurl:  搜索我们指定字符是否存在于URL。...host=”.gov.cn” url搜索.gov.cn,注意搜索要用host作为名称。 port=”443” 查找对应443端口资产。例: 查找对应443端口资产。...ip=”1.1.1.1” ip搜索包含1.1.1.1网站,注意搜索要用ip作为名称。 protocol=”https” 搜索制定协议类型(在开启端口扫描情况下有效)。

2.3K30

一张24块5火车票,能带你去哪看看?用Python爬了一下

理想方式当然是:输入出预算金额,就得到一个在预算范围内所有目的地列表! ? 02 数据爬取 首先,我们当然要爬取自身所在地到全国所有火车站点?车次信息。 打开携程网页,选择火车: ?...印象“绿皮火车”是属于那种便宜但是慢一点火车统称,实际可以细分为Z、T和K。所以此次爬虫一共爬取了5种类型车次: ? 爬虫过程不难,设置一下请求头,还是比较容易拿下。...批量爬取信息时候,最关键就是找到网址参数之间区别。不过这次由于是post方法获取信息,变化值在传入参数,网址本身并没有变化。...输入框里面就有所有的城市地名信息,秉着“可见一定可爬”信念,找到了城市信息网页 ?...源码信息是这样: ? 直接按照“|”进行分割即可:a=r.text.split('|'),得到excel文件如下,一般是一个中文地址对应一个拼音形式: ? 直接排序显示,筛选出拼音内容即可。

68130

实战关键词提取

要把人生变成科学梦,然后再把梦变成现实。——居里夫人 概述 关键词是代表文章重要内容一组词,在文献检索、自动文摘、文本聚类/分类等方面有着重要应用。...TF 为词频(Term Frequency),表示词 t 在文档 d 中出现频率,计算公式: 其中,分子是该词在文件出现次数,而分母则是在文件中所有字词出现次数之和。...IDF 为逆文档频率(Inverse Document Frequency),表示语料库包含词 t 文档数目的倒数,计算公式: 其中,|D|:语料库文件总数,|{j:ti∈dj}| 包含词...ti 文件数目,如果该词语不在语料库,就会导致被除数为零,因此一般情况下使用 1+|{j:ti∈dj}|。...一个网页被越多其他网页链接,说明这个网页越重要。 链接质量。一个网页被一个越高权重网页链接,也能表明这个网页越重要。

72820

Selenium+PhantomJS抓取数据

在vs2013如何抓取数据 ,以携程网酒店数据为例。...然后引用Selenium4个dll文件,将PhantomJSbin目录下exe文件放到工程目录下就好了 第一步我们先初始化PhantomJS类型Seleniumdriver来控制浏览器..."); 第三步先在浏览器访问这个网址,观察网页DOM结构规律,去将所有的城市酒店列表地址所在元素获取到,也就是使用css选择器来筛选DOM结构   //锁定留个城市名模块            ...,而且切换字母时数据就是在一个页面,所以可以一次性把所有的城市对应酒店介绍地址获取到,下面就可以去分别访问每个城市酒店列表,获取每个酒店更加详细信息 ,这里因为单线程比较慢,所以开了多线程去跑...,跑多线程时候原来想把每个城市建一个文本文件记录,但是多线程执行方式会是的有很多重复数据写入(坑了自己好久),所以就将数据分组,然后一组一个文本文件就好了 分组代码:   int p = 10;

26230
领券