腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在满足
特定
条件时自动运行
python
脚本
python
我有一个
网页
抓取
脚本,它基本
上
是从一个网站上
抓取
一个故事(
标题
、描述/摘要和故事
文本
),通常在多个页面
中
,然后将其全部写到一个
文本
文件
中
。目前,我复制一个url并从PyCharm运行
python
脚本,它给出了我需要
的
结果。但是,我希望自动运行脚本部分,以便每当我复制包含
特定
文本
(例如网站名称)
的
url时,它就会自动输出
文本</e
浏览 7
提问于2021-12-30
得票数 1
1
回答
如何
在使用HTML解析器时加载
网页
上
的
所有
项?
c#
、
python
、
html
、
web-scraping
我正试图在一个
特定
的
网页
上得到
所有
可供购买
的
物品
的
列表。但是,
网页
一次只加载12项,
直到
用户向下滚动,然后再加载12项。在C#或
Python
中
,是否有一种方法可以使用任何开源库“查看”
所有
可用
的
项目,而无需物理地进入页面并向下滚动?使用Chrome
的
开发工具,我只能“看到”HTML窗口中
的
12项,
直到
我在
网页
<
浏览 1
提问于2019-05-30
得票数 1
2
回答
在其他标记(外部)之后,在html标记
中
刮取
特定
的
文本
python
、
select
、
xhtml
、
scrapy
目前,我正在使用进行
python
,并试图使用类似于以下代码
的
源代码从网站检索信息: <th scope="row">Date</th> <td></td>哈利波特是我想要
的
文本
字符串。但是,我不能使用传统
的
浏览 2
提问于2014-02-02
得票数 0
回答已采纳
1
回答
在
python
中
为任何
网页
URL文档搜索
特定
标题
的
文本
python
、
web-scraping
、
beautifulsoup
、
scrapy
我已经搜索并介绍了
python
中
的
一些网络爬行库,比如scrapy,漂亮汤等。使用这些库,我想
抓取
文档
中
特定
标题
下
的
所有
文本
。如果你们
中
的
任何人能帮助我,我将不胜感激。我看过一些教程,教你
如何
使用漂亮
的
soap获取
特定
类名下
的
链接(通过查看源页面选项),但
如何
获取简单
的
<em
浏览 0
提问于2017-10-25
得票数 0
2
回答
如何
使用BeautifulSoup提取
网页
“关于我们”
的
文本
html
、
xml
、
beautifulsoup
我是新
的
网络
抓取
,我不知道
如何
从
网页
上
的
“关于我们”下
的
文本
。请您指点我,或者提供代码,以便在这样
的
网页
中提取“关于我们”
的
文本
。我可以在头文件中看到“关于我们”,但是无法用这个
标题
提取数据。
浏览 1
提问于2019-08-03
得票数 0
1
回答
有比Selenium.title更好
的
解决方案吗?
python
、
selenium
、
firefox
、
debian
、
geckodriver
我试图在一个
特定
网页
的
标题
上设置一个If/ the条件。 如果
标题
不是“您已被阻止”,我
的
脚本继续。在不同环境
的
python
中
,我遇到了selenium问题,在第一个环境(OSX)
中
,一切都正常工作。我可以
抓取
标题
检查它是否包含
特定
的
字符串并继续或不包含我
的
脚本。在Debian和无头模式激活时,我无法访问
网页<
浏览 1
提问于2019-07-24
得票数 0
回答已采纳
2
回答
如何
使用下载链接在
Python
中下载文件
html
、
python-2.7
、
selenium-webdriver
、
download
基本
上
,我正在尝试写一个脚本,将
抓取
网页
上
的
某些文件,并下载到
特定
的
文件夹。以下是问题所在。我可以
抓取
文件
的
下
浏览 0
提问于2015-08-12
得票数 0
3
回答
Python
:
如何
删除大多数特殊
的
unicode字符,同时保持重音和变异元音不变?
python
、
unicode
、
non-ascii-characters
我正在用
Python
从
网页
上
抓取
文本
。
文本
包含各种特殊
的
unicode字符,如心、笑脸和其他狂野
的
东西。通过使用content.encode('ascii', 'ignore'),我能够将
所有
内容转换为ASCII码,但这意味着
所有
重音字符和变异
的
元音,如'ä‘或’«‘也都消失了。
如何
保持“正常”字符,如“ä”或“é”不变,但可以删
浏览 0
提问于2018-04-24
得票数 0
1
回答
解析html页面并将内容(
标题
、
文本
等)存储到数据库
中
java
、
web-crawler
、
web-analytics
有没有人知道一些开源工具来解析html页面,过滤广告,JS等,以获得
标题
,
文本
。我
的
应用程序前端是基于LAMP
的
。所以我需要解析html页面并将它们存储到Mysql
中
。并用这些数据填充首页。
浏览 3
提问于2010-09-17
得票数 1
2
回答
如何
从word文档.doc或.docx
的
c#
中
获取两个
标题
之间
的
所有
文本
c#
、
dll
、
.doc
如何
获得两个
标题
之间
的
所有
文本
或
特定
标题
下
的
文本
?就像..。“
标题
XYZ"测试..。“XYZ”
的
标题
或
标题
2“”
标题
123下
的
内容 我想得到XYZ
标题
浏览 0
提问于2016-12-19
得票数 1
回答已采纳
1
回答
R: Webscraping
抓取
不规则
的
值块
r
、
web-crawler
、
rvest
因此,我试图在
网页
上
刮起一个不规则数据块
的
网页
,这些数据是以一种易于用眼睛识别的方式组织起来
的
。让我们想象一下我们在看维基百科。如果我从以下链接
的
文章
中
抓取
文本
,我将得到33个条目。如果我只
抓取
标题
,最后只得到7(参见下面的代码)。这一结果并不令我们感到惊讶,因为我们知道,条款
的
某些部分有多个段落,而其他部分只有一个或没有段落
文本
。我
的
问题是,我
浏览 2
提问于2015-07-21
得票数 2
回答已采纳
3
回答
大型数据库
中
的
数据关联
sql-server
、
oracle
、
sql-server-2008
、
oracle11g
我们正在尝试确定存储在整个企业
中
的
某些信息
的
位置,以便使其符合我们
的
数据策略。在文件端,我们使用Nessus来搜索不同
的
文件,但我想知道在数据库端。使用Nessus似乎在很大程度上没有意义,因为它会输出原始数据,而不会告诉我们它在哪个表或行
中
,也不会给我们提供很多有用
的
信息,特别是考虑到这些数据库非常大(数百of )。同样值得注意
的
是,该系统需要能够进行基于模式
的
匹配(例如使用正则表达式)。不仅仅是一个“哑巴搜索”引擎。为了找到这些数
浏览 2
提问于2009-12-02
得票数 0
回答已采纳
3
回答
如何
知道h1标签在搜索引擎优化
中
是否起作用
php
、
html
、
seo
我在我
的
PHP主页中使用了h1标签。不管我
如何
使用我
的
h1标签,有没有一个标准
的
方法来了解SEO(像谷歌)是
如何
使用它
的
,以及它们是否接受并获取h1标签? 非常感谢
浏览 0
提问于2011-11-05
得票数 0
回答已采纳
2
回答
Google为我
的
网站显示了错误
的
标题
- robots.txt问题
wordpress
、
web-crawlers
、
robots.txt
我已经建立了这个网站以及
所有
的东西,但是当我在google
上
输入"lissa mariage“时,它显示了这从罗马尼亚翻译过来
的
意思:"pages_rss_title”。我注意到了robots.txt丢失
的
描述,但它就在那里,看起来是这样
的
:Disallow: Disallow: / 这是我以前
的
同事做
的
从一开始,我可以说,为了实现他想要
的
,我认为他应该
浏览 0
提问于2015-12-17
得票数 4
1
回答
如何
拆分我从
网页
中提取
的
数据并将每一行添加到列表
中
?
python
、
data-extraction
作为我项目的一部分,我从
网页
上
抓取
了数据,并删除了
所有
标签。现在,我想在新行拆分数据并将其附加到一个列表
中
,这样我就可以使用列表索引轻松地访问我
抓取
的
数据
的
任何行。下面是我
的
python
代码def getdata(f): login_data = {'username', 'html.pars
浏览 13
提问于2021-02-14
得票数 0
2
回答
导航HTML标记以从锚定标记中提取
文本
python
、
web-scraping
我需要从
网页
中提取
特定
的
文本
,但
文本
所在
的
锚点标记嵌入了几个子类。我是网络
抓取
的
新手,所以很抱歉,如果这个场景已经回答了,但是我需要从这个
网页
上
抓取
文本
(https://www.astm.org/search/fullsite-search.html?并输出我需要
的
文本
所在位置
的
标记
浏览 18
提问于2019-06-20
得票数 0
回答已采纳
1
回答
使用
python
中使用css选择器
的
Web
抓取
访问元素
python
、
web-scraping
、
scrapy
我是一个
网页
抓取
的
初学者,在
python
中
,我被困在这:
如何
使用css选择器访问这个div标记
中
的
标题
文本
?
浏览 5
提问于2021-12-09
得票数 0
1
回答
如何
从网站上
抓取
二级
网页
python
、
sql
、
web-scraping
、
beautifulsoup
、
scrapy
我想问你
如何
使用
python
+ Beautiful soup或Scrapy来
抓取
网页
,如果有2个级别的页面,一个简短
的
描述+一个到职位帖子完整细节
的
链接,那么它包含了例如招聘公告?我需要从招聘公告
的
标题
中
抓取
数据,然后更深入地提取完整
的
描述,并将这些数据添加到数据库或
文本
文件
中
?问题是转到第二层,在那里完整
的
描述和获得完整
的
细节,包括图像链接,
浏览 0
提问于2019-09-26
得票数 1
2
回答
如何
防止我
的
脚本在第一次循环后中断?
python
、
python-3.x
、
selenium
、
selenium-webdriver
、
web-scraping
我用
python
编写了一个脚本,使用selenium从
网页
中
获取一些
特定
的
信息。由于该
网页
是保密
的
,我不能透露网站地址。无论
如何
,我期待着我现有的
抓取
器将点击
网页
上
20个链接
中
的
每个链接,并到达所需
的
页面,它将收集信息并返回到较早
的
页面,重复相同
的
操作,
直到
所有
20个链接都耗
浏览 1
提问于2017-10-14
得票数 0
1
回答
在MongoDB中保留
文本
格式
javascript
、
reactjs
、
mongodb
、
web-scraping
、
puppeteer
我正在用puppeteer进行
网页
抓取
,但我得到
的
description有不同
的
文本
格式,如h1、项目符号等。我使用$("#JobDescriptionContainer").html();
抓取
文本
,然后将其保存在MongoDB
上
,但当我将其放到我
的
JS/React应用程序
中
时,
文本
没有格式化(
所有
内容都在一个普通字符串
中
如何
浏览 20
提问于2021-06-25
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
利用Python和Repl.it进行网页信息爬取
《权力的游戏》最终季上线!谁是你最喜爱的演员?这里有一份Python教程
python爬虫:散文网站内容抓取实战案例附源码
Python爬虫实战题荟萃
使用XPath进行网页爬取的Python实现
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券