js 抓取页面文字 - 腾讯云开发者社区

、、、

然后，我可以运行一个脚本来抓取它和它所链接的页面。我该如何开始用jQuery或javascript编写这个脚本呢？在jQuery/Javascript中是否有一个接口可以让我使用XPath来访问页面(以及它所链接的页面)上的元素？

浏览 3提问于2012-03-08得票数 4

2回答

如何使用文本html字符串来抓取一个没有id的表？

、、、、

我要抓取的表格没有特定的表格id，表格的高度/宽度级别与同一页面上的其他表格匹配，但文字html字符串是唯一的：那么"soup.find()“中的格式是什么来查找这个文字字符串呢？

浏览 1提问于2017-09-17得票数 1

1回答

基于一个模板创建多个动态内容的页面

我已经创建了一个页面，看上去与我想要的完全一样。例如，当我更改模板时，添加一个按钮。它必须在所有的页面上改变。有可能用wordpress吗？我甚至不知道该从哪里开始搜索。我正在考虑放弃wordpress，只需要一个静态html/css/js模板，直接从数据库中提取数据.

浏览 0提问于2020-02-15得票数 0

2回答

BeautifulSoup没有读取节标记中的html组件。

、、

url).read()print table [] or null<section class="h

浏览 4提问于2016-10-31得票数 0

回答已采纳

1回答

屏幕抓取JS页面

、、

我正在尝试抓取这个页面，但它不工作。我试过了 $html->load_file($url); 但是对于我想要抓取的问题(.trivia- found )却找不到。

浏览 3提问于2013-07-03得票数 3

回答已采纳

2回答

浏览器中的Html与Python中请求的Html不同

、、、

PapaGordsmack/", headers=headers)print(html_contents) 我试图从特定用户的sky.lea.moe网站上抓取网页，但当我请求并打印html时，它与浏览器中显示的不同(在chrome上，查看页面源代码)。

浏览 20提问于2020-02-09得票数 0

1回答

从html页面不显示数据的url读取数据

、

我正在尝试以下代码：if __name__ == '__main__': import requests r = s.get(link) print(sou

浏览 1提问于2020-02-05得票数 0

1回答

我已经阅读了一些关于抓取的文章，似乎NodeJS、ExpressJS、Request和Cheerio是我作为一个熟悉JS/jQuery的前端人员的首选方法。到目前为止，我读过的所有文章都集中在没有API的情况下从特定网站上抓取数据，而我想要实现的是一个工具，它可以获取任何给定的URL，并返回true/false来列出正在使用的通用库和链接的社交网络。由于CSS选择器，我选择的设置(如上)是合适的，还是仅限于抓取特定页面？

浏览 0提问于2014-08-07得票数 0

1回答

是否更容易抓取AMP版本的网页？

、、、、

我知道AMP协议要求Javascript的精简版本，我也知道Javascript (在一定程度上)使网站管理员能够检测/防止抓取。因此，从逻辑上讲，我认为抓取AMP网站会更容易一些。

浏览 11提问于2019-04-08得票数 0

2回答

抓取使用javascript注入html的网站

、

我试图用Node.JS抓取一个网站，但当抓取html文件时，出现的东西是注入JavaScript的脚本标签，在查看有问题的JavaScript文件时，我似乎是正确的，因为我发现了我试图抓取的文本。在这个脚本被注入到html之后，我如何抓取文档？有什么办法吗？谢谢

浏览 22提问于2020-11-04得票数 0

回答已采纳

1回答

使用Python从web xhr提要中抓取数据

、、、

我有两个问题： #these all return empty element sets 如何加载所有可见结果的页面编辑:在建议使用selenium之后，我构建了一个函数，它将使用Selenium/Chrome加载页面，然后将ht

浏览 1提问于2017-01-17得票数 1

回答已采纳

2回答

木偶人爬行器大规模爬行

、、

我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页，如约1,500 - 5,000，但是，当我们执行的网站超过5,000，如果它在中间由于一些错误或崩溃而中断，那么它需要重新开始。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头的chrome web爬行通过一个队列系统？

浏览 14提问于2020-12-05得票数 2

1回答

使用VBA从Yahoo拉取季度股票数据- 2020更新

、、

因此，我已经能够编写一个脚本，能够从Excel中提取股票基本面数据。耶。我知道这个更新已经难倒了很多人。这是我当前的代码。我希望与网页互动，以便我可以拉资产负债表和现金流数据以及。此外，我希望从季度而不是年度的角度来看待这些数据。为了便于参考：https://finance.yahoo.com/quote/AAPL/financials?p=AAPL 这将需要我按下屏幕上的一个按钮；但是，我不确定如何进行这项工作。 Sub importData() Chart.Delete Dim

浏览 21提问于2020-12-28得票数 0

1回答

如何在colly上启用Js

、

我正在尝试从一个网站中刮取数据，但它返回以重新获得访问，请确保在重新加载页面之前启用了cookie和JavaScript。fmt.Println("item is already crawled") }) 我在文档“自动cookie和会话处理”中看到了，所以问题可能是js首先，可以尝试如何在colly中启用js？

浏览 5提问于2020-10-04得票数 1

2回答

任何人在使用angular2时都会经历缓慢的加载时间

、、、、

我有一个有文字记录和系统an的两个角度的应用程序。我所有的js和css都很小/很小，总共有11个请求，几乎没有任何图像。下面的是文件和加载时间的屏幕快照：这是速度测试结果：

浏览 4提问于2016-12-05得票数 4

1回答

从页面抓取时遇到麻烦

、、、

参考我的一个，我必须抓取一个酒店的评论(所有评论)，例如这个我已经使用Selinium抓取了评论，但我的客户不想使用Selinium，因为它加载了整个页面<

浏览 0提问于2014-11-28得票数 1

1回答

具有单击处理程序和href属性的链接，哪个是由Googlebot调用的？

、

我的站点上有以下锚代码：对于人类用户，onclick将在不刷新页面的情况下使用它是否会忽略onclick，直接转到href中给出的页面，或者处理onclick，或者在索引我的网站时两者都做？雅虎和必应也面临同样的问题，但最重要的是谷歌。

浏览 0提问于2018-04-19得票数 1

2回答

除非启用了Javascript，否则使用php函数

、、

我有一个网站，将抓取新的数据在第一页访问。我想使用AJAX来做这件事，这样我就可以在抓取过程中向用户提供至少一些loading.gifs，但这只有在启用了Javascript的情况下才能实现。我的站点使用了一个PHP模板引擎，所以我想把抓取函数放在html模板的<noscript>标记中。因为这将在所有PHP代码之后发生，所以我必须重新加载页面，以便可以使用PHP呈现/解析抓取的数据。

浏览 0提问于2011-01-16得票数 1

2回答

查找带有字幕的一种特定语言的youtube视频

、、

我想抓取Youtube上包含字幕/封闭式字幕(CC)的特定语言的视频。我想抓取550马来人随机视频与马来字幕/(CC)。

浏览 3提问于2020-04-21得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何用jQuery和XPath抓取网页？

如何使用文本html字符串来抓取一个没有id的表？

基于一个模板创建多个动态内容的页面

BeautifulSoup没有读取节标记中的html组件。

屏幕抓取JS页面

浏览器中的Html与Python中请求的Html不同

从html页面不显示数据的url读取数据

有没有可能用NodeJS抓取任何给定的网址？

是否更容易抓取AMP版本的网页？

抓取使用javascript注入html的网站

使用Python从web xhr提要中抓取数据

木偶人爬行器大规模爬行

使用VBA从Yahoo拉取季度股票数据- 2020更新

如何在colly上启用Js

任何人在使用angular2时都会经历缓慢的加载时间

从页面抓取时遇到麻烦

具有单击处理程序和href属性的链接，哪个是由Googlebot调用的？

除非启用了Javascript，否则使用php函数

查找带有字幕的一种特定语言的youtube视频

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐