腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
python
BS4
中
提取
某些
文本
?
、
、
我正在尝试
提取
BS4
中
的
某些
文本
。下面是HTML示例。
浏览 18
提问于2020-10-23
得票数 2
回答已采纳
1
回答
如何在
Python
中
从Google功能中
提取
文本
?
、
、
、
我所说的谷歌功能是指,例如,当你
在
谷歌上输入“我感到好奇”,第一个结果是一个随机的事实,之后你就会得到基本的结果。我要做的是
在
Python
中
提取
随机数的
文本
。我尝试使用requests和
bs4
库。我注意到
在
requests库
中
找不到随机事实特性。 有没有其他的方法来
提取
文本
?
浏览 46
提问于2018-07-11
得票数 1
回答已采纳
1
回答
如何使用网络抓取在网页上获得可见的
文本
?
、
、
、
、
这是我想刮的网页的链接: 这就是点击标题后网页的样子。url = "https://www.tripadvisor.in/Hotels-g494941-Indore_Indore_District_Madhya_Pradesh-Hotels.html"html_bytes = page.read() html = html_bytes.decode("utf-8")
浏览 5
提问于2021-01-01
得票数 0
1
回答
数据抓取本地存储的HTML文件-使用
Python
、
、
、
我有一个很大的Excel文件,
在
每个单元格中都有各种HTML内容,其中包含数据库用户所做的注释。每个单元格
中
的内容都是唯一的,并且长度各不相同。我需要去掉所有HTML语法/标记,这样我才能将此内容上传到数据库表
中
。如何使用
Python
(如果没有
Python
的答案,则使用Java )抓取这些数据?你能提供一个代码示例吗?
浏览 0
提问于2016-10-14
得票数 0
1
回答
使用
Python
抓取Javascript创建的动态内容
、
、
、
、
我想用
python
脚本废弃javascript函数创建的DIV内容。我尝试过使用
BS4
,但我无法获得动态数据。相反,它只显示源代码。示例代码:from
bs4
import BeautifulSoup URL = "https://rawgit.com/skysoft999/tableauJS/masterfor row in soup.findAll('div', attrs = {'class':
浏览 0
提问于2018-04-20
得票数 3
回答已采纳
2
回答
使用
python
中
的美观汤从具有更多
文本
内容的Web页面中
提取
数据
、
、
、
、
我一直
在
尝试
提取
网页
中
数据丰富的节点。有没有办法从网页中
提取
文本
?import requestsfrom
bs4
import BeautifulSoupurl = "http://www.amazon.in"r = requests.get(url)print html.title.text 我可以打印网页的
浏览 7
提问于2015-04-22
得票数 1
回答已采纳
1
回答
用
python
获得美汤的具体路线
、
我看过这段视频,他在上从他的网站上抓取了一篇文章,但视频
中
缺少的是,他并没有解释我是如何在文章中用循环的方式把刮掉的。from
bs4
import BeautifulSoupimport csv source = requests.get('http://coreyms.com')
浏览 2
提问于2021-07-01
得票数 0
回答已采纳
2
回答
Python
BS4
美汤HTML.Parser在网站上不起作用
、
我有
Python
3.7代码,尝试从以下网站()
提取
足球统计数据。看起来我
在
BS4
美丽汤中使用的超
文本
标记语言解析器根本没有
提取
网站
中
的任何标签。我首先尝试
提取
特定的标签,比如表示主队和客队的两个不同的div标签,以及包含球员姓名的标签。当这呈现了一个空的标签列表时,我只是简单地尝试
提取
该网站上的所有div标签,但我仍然得到了一个空列表。下面是我使用的代码:from
bs4</
浏览 26
提问于2019-07-13
得票数 2
回答已采纳
3
回答
使用
Python
将维基百科
中
的数据
提取
到txt文件
、
、
、
、
我实现了以下代码来从维基百科页面
提取
数据import sysfor i in wiki.select('p'):这段代码按照我的要求从页面中
提取
所有数据但是,我想使用
Python
将其存储
浏览 0
提问于2020-05-16
得票数 1
1
回答
代码不会在使用BeautifulSoup的网站上显示所有剥离的、
提取
的
文本
、
对
Python
来说非常新。下面的代码只允许我显示从
提取
的网站
中
的单个p条目(第一个条目,0,是当前的示例)。from urllib.request import urlopen as uReqparagraph = paragraphs[
浏览 0
提问于2019-01-20
得票数 0
回答已采纳
1
回答
从html页面不显示数据的url读取数据
、
main__': import requests from
bs4
如何
提取
它们?
浏览 1
提问于2020-02-05
得票数 0
2
回答
BeautifulSoup - lxml和html5lib解析器之间的差异
、
、
、
、
我使用的是BeautifulSoup 4和
Python
2.7。我想从一个网站中
提取
某些
元素(数量,见下面的例子)。由于
某些
原因,lxml解析器不允许我从页面中
提取
所有想要的元素。它只打印前三个元素。/usr/bin/
python
data = """ <td class="size-price last first" cols
浏览 1
提问于2014-03-27
得票数 7
4
回答
如何使用
python
检测网页内容的语言
是否有任何方法可以通过使用
Python
语言返回网页
中
的内容语言?就像如果页面是中文的,那么它应该返回`“中文”。 我用langdetect模块检查了它,但是无法得到我想要的结果。内容显示
在
<releasehigh>下
浏览 13
提问于2015-06-25
得票数 1
回答已采纳
4
回答
BeautifulSoup查找特定
文本
的所有匹配项
、
、
、
我将分析许多网站与不同的BeautifulSoup,我试图找到所有行,其中包含特定的
文本
(
在
html内)使用html。) if "price" in text:这种方法不起作用(即使
在
html
浏览 0
提问于2015-10-17
得票数 2
1
回答
文本
提取
:使用了所有的方法,但仍然停滞不前。
、
、
、
、
我想从一个网页中
提取
几个
文本
。我搜索了StackOverFlow (以及其他网站),以找到一个合适的方法。我使用HTML2TEXT、BEAUTIFULSOUP、NLTK和其他一些手动方法进行
提取
,例如: NLTK不会处理我的波斯文
浏览 3
提问于2015-01-16
得票数 0
回答已采纳
4
回答
从包含其他标签的“a”标签中
提取
文本
的漂亮问题
、
我想从下面显示的HTML 'a‘标签中
提取
“气候8/17/2019下午2:00”。我编写了一些代码,我认为这些代码将从'a‘标记中
提取
所有
文本
,稍后,我将使用字符串操作来
提取
所需的子字符串。{"class": "class_a"}) 我检查了bar变量的类型是类bs4.element.Tag (不是字符串) from urllib.request import urlopen from
bs4
浏览 22
提问于2019-10-11
得票数 1
回答已采纳
2
回答
为什么我的网络抓取代码没有
提取
任何内容?
、
、
我正在写一个点燃的评论,并试图让我们,
Python
,web,抓取摘要等信息,关于其他研究
在
一个网站。例如,我想从这个网页中
提取
“Transcript”的内容,并编写了一个
Python
代码,但它似乎根本不起作用,也没有
提取
任何内容:importhtml.text,'html.parser') item = soup.find('span', {'data-id':
浏览 15
提问于2022-09-15
得票数 2
2
回答
(
Python
)
、
、
我正在使用BeautifulSoup完成
Python
中
的一个刮擦任务,并得到了一些奇怪的错误。它提到了脱衣舞,我没有使用,但我猜可能与BSoup的进程有关?在任务
中
,我尝试转到原始网址,找到第18个链接,点击该链接7次,然后
在
第7页上返回第18链接的名称结果。我试图使用一个函数从第18链接获得href,然后调整全局变量,每次使用不同的url进行递归。我将列出代码和错误:import urllib nameList = []
浏览 5
提问于2016-06-20
得票数 1
回答已采纳
4
回答
尝试使用
python
和
bs4
从特定td
中
抓取所有“a”
文本
、
、
、
我正在尝试抓取,以
提取
'a‘标记
中
包含的
文本
,特别是
在
带有类的表
中
," table -main",然后针对其中的每一行。第一个td包含两个团队名称的
文本
,带有一个td类“h- text -左侧”。不确定问题是否与我的循环有关,但我得到的错误消息似乎是我
在
循环的最后一行
中
错误地使用了
bs4
。我可以用类、" table -main“来刮表
中
的每个tr,然后再用类”h-text-左侧
浏览 1
提问于2019-04-08
得票数 1
回答已采纳
2
回答
用漂亮的汤擦网
、
我昨天
在
python
上开始了我的旅程,我正在尝试自动
提取
某些
页面的值。这是我的密码 from
bs4
import BeautifulSoup url = 'https://www.jpg.store/collection
浏览 10
提问于2022-04-12
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python在文本自动化处理中的应用
爬虫是什么
利用Python和BeautifulSoup进行网页爬取
说说正则表达式的使用
python爬虫初探:HTML解析器
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券