js可以写爬虫吗_js可以做爬虫吗_绕过JS写爬虫 - 腾讯云开发者社区

excel、数据

浏览 246提问于2020-07-23

1回答

从HTML中提取文章的标题(使用Boilerpipe)

java、html、html-content-extraction、boilerpipe

Boilerpipe允许从网页中只提取文章的文本，清理掉所有的HTML乱七八糟的东西。但是，我如何提取文章的标题？有一种只使用页面标题的方法，但有时是不正确的，并且包含不需要的单词(例如“title - sitename")。

浏览 2提问于2016-10-21得票数 0

1回答

如何保持网络爬虫运行？

javascript、node.js、web-crawler

我想用JS写我自己的网络爬虫。我正在考虑使用node.js解决方案，如var keeRunning = true; // fetch data and process it every然而，如果我关闭我的电脑，我可以想象它将不再工作了。那么，我应该考虑什么样的解决方案来让脚本一直运行，

浏览 3提问于2015-05-23得票数 5

回答已采纳

1回答

webkit crawler需要使用squid代理吗？

python、webkit、web-crawler、squid

我正在用webkit写一个爬虫，webkit会缓存东西吗？我需要使用squid作为我的基于webkit的爬虫的代理吗？

浏览 0提问于2012-04-20得票数 1

回答已采纳

4回答

如何用python获取get浏览器的源代码

javascript、python、browser

我正在用scrapy写一个爬虫，但是，我遇到了一些用js渲染的网站，因此urllib2.open_url不能工作。我发现我可以用webbrowser.open_new(网址)打开浏览器，但是我不知道如何用webbrowser获取页面的源码。有没有什么方法可以用webbrowser来做这件事，或者有没有其他没有webbrowser的解决方案来处理js站点？

浏览 1提问于2013-01-11得票数 2

1回答

Symfony DomCrawler如何单击执行js代码的链接

javascript、laravel、symfony、web-scraping、web-crawler

如何使用爬虫来点击执行js代码的链接，这个链接没有HREF属性。爬虫可以通过客户端在页面上执行js代码吗？

浏览 82提问于2021-02-03得票数 0

3回答

当Knockout可观察到的未定义的或JS禁用时显示默认值

javascript、razor、knockout.js

使用Knockout.js，是否有一种方法可以让元素的原始内容显示可观察到的绑定是否未定义？，每次写一次。沿着这条路走，如果JS被禁用，那么什么都不会出现。爬虫也是如此:他们只会看到一个空的<p>标记。然后，在浏览器中，如果启用了JS，我可以</

浏览 4提问于2014-11-20得票数 2

回答已采纳

1回答

编写可与任何服务器保持登录状态的crawler

c#、python、http、session、web-crawler

我正在写一个爬虫。一旦爬虫登录到一个网站，我想使爬虫“停留-始终登录”。我该怎么做呢？客户端(如浏览器、爬虫等)使服务器遵守此规则吗？当服务器在一天内允许有限的登录时，可能会出现这种情况。

浏览 0提问于2009-11-26得票数 0

回答已采纳

3回答

如何检测文本文档之间的重复，并返回副本的相似度？

algorithm、information-retrieval、text-analysis

我正在写一个爬虫从一些网站获取内容，但内容可以重复，我想避免这种情况。因此，我需要一个函数可以在两个文本之间返回相同的百分比来检测两个内容--可能是重复的示例：比较函数将文本2作为同一文本返回如果删除“一些文本”，那么文本2与相同的文本1(我需要检测情况).How我可以这样做吗？

浏览 2提问于2014-04-14得票数 5

5回答

Python中的多线程爬虫真的可以提高速度吗？

python、multithreading、gil

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？基本上我想问的是，用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

2回答

在网站和独立应用程序中使用Django框架

python、django

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

1回答

爬行url \如何在node.js中获取动态链接

node.js、web-crawler

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

3回答

高效网络爬虫的语言建议

javascript、asynchronous、node.js、web-crawler

我正在寻找一种语言来编写一个高效的网络爬虫。我所看重的东西：我试过node.js。您可以使用jQuery解析html。Node的异步特性允许我在不处理线程的情况下并行地爬行许多urls。V8对于解析来说是很好的和快速的。实际上，node并不适合我。我的过程经常崩溃。

浏览 6提问于2010-12-03得票数 2

1回答

Java/1.7.0_07作为用户代理

security、user-agent

我该担心吗？我应该用用户代理阻止任何包含"Java“的东西吗？谢谢

浏览 0提问于2012-10-17得票数 2

回答已采纳

1回答

如何在PHP中构建一个搜索引擎来搜索多个站点的实时内容？

php、curl、web-scraping、search-engine

我已经把谷歌自定义搜索引擎作为一个简单的选择，这很好用，但限制了我可以添加的页面数量。我已经查看了cURL，但似乎没有提供我正在寻找的东西，除非我遗漏了什么？

浏览 5提问于2013-02-21得票数 0

1回答

向机器人隐藏代码

javascript、html、css、seo、web-crawler

有没有一种方法只对爬虫隐藏页面的特定部分？那么，有没有办法对机器人隐藏某些部件，但在未来不会对用户隐瞒？不是整页，只是部分。但没有理由不让智能js阅读爬虫来隐藏它。麦芽酒

浏览 6提问于2014-10-16得票数 0

回答已采纳

1回答

为什么我的Crawler会得到错误的HTML代码？

java、web-crawler

我想用java写一个爬虫来做一些学校练习。实际上，用jsoup库实现的爬虫代码可以工作，因为我的请求的结果是一些HTML代码，但是当我搜索一个明确写在网站上的单词时，没有找到它，因为一些div的来自于空的爬虫。我能做些什么来获得包含全部内容的HTML代码吗？请求网址：

浏览 0提问于2019-09-12得票数 1

回答已采纳

1回答

使用无限滚动页面的爬虫

javascript、ajax、web-crawler、infinite-scroll

我正在寻找一个爬虫应用程序，扫描页面的javascript的AJAX请求，并寻找函数，执行AJAX调用，从而获得整个内容从头到尾。我会自己写一些东西，但我现在真的很忙，我想也许有人已经做了一个这样的爬虫。在那里吗?

浏览 2提问于2013-05-31得票数 0

1回答

禁用js时，在reactjs中设置动态元标记

reactjs、tags

我遇到了一些问题谷歌爬虫和元标签，我使用反应头盔(没有ssr)的反应ssr。反应头盔确实有效，但谷歌搜索似乎找不到我添加的标签。我知道爬虫在没有启用js的情况下运行网站，在测试时我可以看到，当js被禁用时，头盔不会呈现标签(启用时可以正常工作)。知道怎么做吗？谢谢你的帮助。

浏览 0提问于2020-12-28得票数 0

回答已采纳

1回答

我以前的站点版本是用JSF编写的，我注意到当我将它提交给google爬虫时，爬虫并没有从我的索引页面中找到我的站点的所有相关部分。1)我认为这是因为爬虫使用原始超链接锚在站点周围导航而不理解: h:outputlink？如果是这样的话，那么Facelets已经是一个改进，因为开发人员可以使用带有J证监会属性的原始锚点。有什么方法可以使站点元标签国际化吗？我只能认为要为每种语言写一个标签吗？您如何为爬虫和国际化优化这些？

浏览 0提问于2011-08-27得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么我用excel爬取的30多页数据，剩下的29页数据和第1页一样的？

从HTML中提取文章的标题(使用Boilerpipe)

如何保持网络爬虫运行？

webkit crawler需要使用squid代理吗？

如何用python获取get浏览器的源代码

Symfony DomCrawler如何单击执行js代码的链接

当Knockout可观察到的未定义的或JS禁用时显示默认值

编写可与任何服务器保持登录状态的crawler

如何检测文本文档之间的重复，并返回副本的相似度？

Python中的多线程爬虫真的可以提高速度吗？

在网站和独立应用程序中使用Django框架

爬行url \如何在node.js中获取动态链接

高效网络爬虫的语言建议

Java/1.7.0_07作为用户代理

如何在PHP中构建一个搜索引擎来搜索多个站点的实时内容？

向机器人隐藏代码

为什么我的Crawler会得到错误的HTML代码？

使用无限滚动页面的爬虫

禁用js时，在reactjs中设置动态元标记

Facelets SEO咨询意见

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐