腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(468)
视频
沙龙
1
回答
如何将
网络
抓取
的
段落
与
维基百科
最新
的
抓取
标题
配对
python
、
python-3.x
、
web-scraping
、
beautifulsoup
我目前正在
抓取
维基百科
的
页面,以找到每一段,然而,我也
抓取
所有的
标题
,以便我可以把两者放在一起。然后,我将通过摘要程序发送它们,以获取重要信息。我正在尝试将每个
标题
与
相关
段落
配对
,但是,如果每个
标题
有多个
段落
,它就不会知道这一点,当我将所有信息写入文本文件时,它会将一个
标题
放入另一个
段落
,而不考虑它们是否相互关联。我不确定我需要
的
是不是很清楚,所
浏览 15
提问于2020-01-10
得票数 1
回答已采纳
1
回答
使用PHP cURL从
维基百科
API中提取
段落
php
、
parsing
、
curl
、
mediawiki
、
wikipedia-api
下面是我使用
维基百科
(MediaWiki) API - 试图做
的
事情我只能停留在#3上,我可以看到一堆JSON数据,这些数据在
段落
之间包括&qu
浏览 1
提问于2010-05-21
得票数 5
回答已采纳
1
回答
R: Webscraping
抓取
不规则
的
值块
r
、
web-crawler
、
rvest
因此,我试图在网页上刮起一个不规则数据块
的
网页,这些数据是以一种易于用眼睛识别的方式组织起来
的
。让我们想象一下我们在看
维基百科
。如果我从以下链接
的
文章中
抓取
文本,我将得到33个条目。如果我只
抓取
标题
,最后只得到7(参见下面的代码)。这一结果并不令我们感到惊讶,因为我们知道,条款
的
某些部分有多个
段落
,而其他部分只有一个或没有
段落
文本。我
的
问题是,我如何把我
的
标题
和我
浏览 2
提问于2015-07-21
得票数 2
回答已采纳
2
回答
如何在Python中获得两个div元素之间
的
HTML
python
、
html
我试图刮掉
维基百科
的
所有
段落
,这些
段落
介于页面的主
标题
和目录之间。我注意到它们总是介于两个div元素之间,如下所示: <p>...</div> 我想
抓取
两个div元素(不仅仅是文本)之间
的
所有HTML,寻找Python
的
解决方案。
浏览 3
提问于2016-11-03
得票数 0
回答已采纳
1
回答
Ruby Nokogiri订购
的
HTML标签
html
、
ruby
、
parsing
、
nokogiri
背景:我正在开发一个简单
的
网络
抓取
器,用于学习目的。我正在尝试从关于<h2>编程语言
的
维基百科
页面中
抓取
主
标题
<h3>和副
标题
Ruby元素。我可以单独访问其中
的
每一个,但我想以一种可以替换任何
维基百科
文章
的
方式来编写我
的
代码。 主要问题:我正在寻找一种方法来列出位于页面上<h2>元素之间
的
所有<h3>元素。基本上,我
浏览 6
提问于2020-10-28
得票数 0
回答已采纳
1
回答
使用mysql查询删除相似条目
mysql
我编写了一个从网站
抓取
新闻
标题
的
网络
抓取
器,但有时出版商会犯一些错误&编辑
标题
,但当时我
的
抓取
器已经在我
的
数据库中创建了以前
标题
的
条目,并为新
标题
创建了一个新条目,新
标题
与
旧
标题
相似(90-95%相同),所以我想从数据库中删除旧条目,只保留
最新
的
条目 我正在考虑用cron作业检查这一点
浏览 0
提问于2018-04-02
得票数 0
1
回答
忽略Python中用于web
抓取
的
特定标记
python
、
html
、
web-scraping
我对
网络
抓取
和HTML很陌生。我打算从一个随机生成
的
维基百科
文章中
抓取
第一段内容(其中包含文章
的
介绍)。etr=soup.find('div',class_='mw-parser-output')这没有显示某些
维基百科
文章
的
预期输出,这些文章包含一个额外
的
行。<p class="
浏览 4
提问于2021-05-26
得票数 1
回答已采纳
2
回答
获取浏览器
的
最新
版本
python
、
api
我想知道,有什么API可以用来获取浏览器
的
最新
版本号吗?(Chrome,Firefox,Opera,Safari)为了从
维基百科
获得每个浏览器
的
稳定版本,我在python中尝试了
网络
抓取
方法。然而,我正在寻找一种更有效
的
方式来检查客户端浏览器。如果有人能帮我解决这个问题,我会很感激
的
。
浏览 1
提问于2022-06-06
得票数 0
1
回答
PHP中
的
段落
比较
php
、
text
假设我有一个从
网络
上
抓取
文章
的
网页。我得到
的
都是纯文本
的
标题
和文章。是否有PHP脚本或them服务可以将它们之间
的
文章关联起来?或者..。有没有PHP脚本可以从
段落
中生成关键字?我已经用JAVA测试了一个可以工作
的
脚本,但也许有一个PHPclass可以帮助我…… 谢谢!
浏览 0
提问于2011-01-19
得票数 0
回答已采纳
1
回答
将大量
维基百科
表刮到MySQL数据库
的
最佳方法
mysql
、
sql
、
screen-scraping
、
wikipedia
什么是
抓取
维基百科
主要文章页面中所有HTML表格
的
最佳编程方法,其中页面
标题
与
某些关键字匹配?然后,我想把列名和表数据放到数据库中。 还会获取URL和页面名称以进行属性设置。我不需要细节,只需要一些推荐
的
方法或者一些教程
的
链接。
浏览 8
提问于2013-07-31
得票数 0
2
回答
请求nodejs获取不可读数据
node.js
、
utf-8
、
request
、
scrape
我正在尝试使用node.js上
的
库请求来
抓取
html。响应代码是200,我得到
的
数据是不可读
的
。下面是我
的
代码: uri: 'https://www.wikipedia.org', console.log(body
浏览 0
提问于2019-12-10
得票数 0
1
回答
网络
抓取
在反应-本机ios?
javascript
、
ios
、
iphone
、
react-native
我正在建立一个iOS应用程序
与
反应-本机,并希望做一些
网络
刮擦。根据我
的
理解,传统
的
npm包不起作用,因为它们依赖Node.js。我知道有一些用于web
抓取
的
目标C/Swift库,但我不明白
如何将
它们集成到一个react原生组件中。 谁有任何想法,如何从一个网站(
网络
抓取
)
的
反应-本地信息?
浏览 1
提问于2015-09-24
得票数 4
回答已采纳
1
回答
从Facebook页面
抓取
最新
10张照片
的
最佳方式是什么,拥有超过10,000个赞?
php
、
facebook
我需要用PHP创建一个脚本,自动从Facebook页面(例如:)
抓取
超过特定数量
的
赞(例如: 10,000)
的
最新
10张图片。我想每小时运行脚本,以确保我
抓取
所有的图片
与
他们
的
标题
。我不认为这是以前做过
的
事。在你看来,解决这个问题
的
最佳方法是什么?我想我有三个选择: 通过Facebook获取数据
浏览 2
提问于2013-03-21
得票数 0
回答已采纳
1
回答
带表头数据
的
烧瓶网刮板问题
python
、
beautifulsoup
我正试着制作一个
网络
刮刀来获取游戏
标题
信息。目前,我正在从
维基百科
的
ps4游戏列表中
抓取
。我这么做是因为我正在努力学习
如何将
脚本(如
网络
刮刀)合并到一个烧瓶项目中。我
的
工作非常好,但我无法获得<thead>数据。列名列在这里,我希望将这些列添加到我生成
的
csv文件中。我想,通过试图锁定<hr>标记,我可以得到我需要
的
东西,但它不能很好地工作。这是我
的
最新
尝试
浏览 3
提问于2020-11-12
得票数 0
1
回答
如何从url中
抓取
前n段
html
、
python-3.x
、
web-scraping
、
beautifulsoup
我对
网络
抓取
非常陌生,我真的很难从网址中提取一些
段落
。我正在尝试打印封面页和短摘要
标题
下
的
所有
段落
。但我
的
计划不起作用。这是我
的
代码:from urllib.parse import urlparse import bs4'p').get_text()) elif(x.get(id) == "Short Summary&
浏览 1
提问于2017-09-02
得票数 3
回答已采纳
1
回答
R中
的
XML :在存储祖先信息
的
同时提取节点
r
、
xml
、
web-scraping
我在一个
网络
抓取
项目中遇到了困难。我
的
问题是,我需要提取许多节点
的
信息,同时保存它们
的
祖先
的
信息。例如,如果我想获取
维基百科
页面中所有项目符号列表中
的
所有项目,我可以这样做: library(httr)par = htmlParse
浏览 8
提问于2019-01-23
得票数 0
回答已采纳
2
回答
来自子头
的
Webscraping
的
无关标记
python
、
regex
、
web-scraping
、
beautifulsoup
我在试着刮掉
维基百科
上
的
“基因组”页面我只想
抓取
像“术语
的
起源”,“测序和绘图”,“病毒基因组”,“原核基因组”,“真核基因组”之类
的
小
标题
,包括下面的子
标题
,基因组大小,等等。headers = read_page_soup.find_all(re.compile(r'h\d+')) return headers 问题是,无论我如何具体地过滤掉我
的
标签,我仍然可以从导航菜单中获得相同
的
结果当我将
浏览 30
提问于2021-03-17
得票数 1
3
回答
带有webview项目的listview是否适用于新闻应用程序?
android
、
listview
我正在构建一个应用程序,
抓取
某个网站,并在列表视图中呈现
最新
的
新闻,html格式
与
图像,
标题
和摘要。当用户单击一行时,将显示新闻文章。它
的
工作原理有点像CNet应用和类似的新闻应用。我对
抓取
部分没有问题,但我对如何管理摘要列表有疑问。 我最初
的
想法是有一个列表视图,其中每个项目都是一个webview。列表视图由填充了
抓取
的
html内容
的
自定义ArrayAdapter填充。每个屏幕将显示30篇
浏览 5
提问于2011-06-20
得票数 2
回答已采纳
1
回答
使用BS4
维基百科
文本(对每个
标题
与
相关
段落
对)-并将其输出为CSV格式
python
、
html
、
csv
、
web-scraping
、
beautifulsoup
我想把
网络
上刮过
的
段落
和
维基百科
最近刮过
的
标题
放在一起:举个例子,我选择了下面的
维基百科
--文章:。我目前正在刮
维基百科
的
网页,以找到每一段,然而,我也刮所有的
标题
,以便我可以把两者结合起来。我试图将每个
标题
与
相关
段落
配对
,但是,我想将其写入csv文件。注意:我们有以下(
段落
中
的
) h2
标题
:
浏览 6
提问于2022-04-30
得票数 1
回答已采纳
3
回答
html5中显示新闻列表
的
最佳实践
css
、
html
在我
的
页面中,我只需要列出
标题
的
最后一条新闻。
浏览 2
提问于2015-01-17
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券