php爬取js网页_scrapy 爬取js网页_爬虫爬取js网页 - 腾讯云开发者社区

、、、、

由于现在Twitter API 数据爬取付费，所以我想在不使用Twitter API的情况下使用python爬取到特定关键词的Twitter数据或者Reddit数据，有什么好办法吗？

浏览 459提问于2024-01-06

2回答

关闭浏览器或单击中止时，脚本不会停止

、、

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。有时因为脚本加载了很长时间，我在浏览器中遇到超时，但在后台，我继续说。我在我的数据库里看到了。我能防止这种情况吗？..现在，如果我停止webserver，这是可能的。谢谢你，并致以最良好的问候。

浏览 0提问于2010-01-22得票数 0

1回答

我的要求是使用图形apis在我的整个SharePoint Online (SPO)中搜索文件。我在MS Graph Explorer中使用的查询如下所示： domain'.sharepoint.com/_api/search/query?Querytext='res1a2b3c4d5e‘ 基本上，上面的查询是搜索标题/名称为'res1a2b3c4d5e‘的所有文档。如果我搜索任何现有的文档，这将很好地工作。如果我试图搜索在进行上述调用之前创建/上传的任何文档，我将不会得到结果。如果我在几分钟后搜索相同的内容，则请求成功。当我在我的客户站点上尝试相同的内容时，它有数百

浏览 2提问于2017-04-18得票数 1

3回答

如何判断一个网页在C#中是否有RSS

、、

我有个任务要做。我需要下载一个网页，看看该网页是否包含任何RSS馈送。我知道如何使用C#中的Http将网页下载为字符串，但如何确定http页面字符串中是否包含任何RSS？谢谢杰克

浏览 1提问于2009-11-19得票数 2

2回答

Scrapy没有拿起我的url

、、

我有一个破烂的代码，应该能够采取电话和地址从一个网页中的表格： import scrapy class PeopleSpider(scrapy.Spider): name="People" start_urls=[ 'http://canada411.yellowpages.ca/search/si/1/519-896-7080/', ] def parse(self,response): for people in response.css("div.person-search__table--row"): yield

浏览 0提问于2017-02-16得票数 0

1回答

系统自动更新SQL Server全文索引会导致阻塞和超时

、

自动更新目录中的全文索引的内部系统进程(change tracking = on)需要很长时间才能完成，从而锁定了希望同时访问同一个表的其他查询。除了将更改跟踪设置为关闭之外，是否可以采取其他措施来避免这些影响？保持较小的目录大小是否有帮助，即每个目录一个表？全文目录目前有34 GB大小，其中包含一些包含大量记录的非常大的表。

浏览 22提问于2019-02-22得票数 0

回答已采纳

1回答

Sharepoint 2010搜索不会为自定义字段建立索引

、

我正在尝试创建一个托管元数据字段，但它没有显示在我的爬网列中。它是一个自定义字段。我不确定哪里出了问题，但当我搜索时，我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。我不知道这是否相关。我将此列添加到我的视图中，以备需要时使用，但这并不起作用。

浏览 1提问于2010-06-15得票数 1

1回答

sharepoint 2007搜索爬网

我的问题是:我有sharepoint 2007 web应用程序和windows server 2008操作系统。我在SharePoint2007中做搜索，它工作得很好。最近我添加了一个新的网站页面，但它没有出现在搜索结果中。我也在爬虫日志中查找了它，但我没有找到页面的url。新信息当我切换到windows身份验证时，一切都很好，页面是在搜索process.but中找到的，切换回表单身份验证不会使网页出现在搜索结果中。我的问题是:如何让新页面出现在搜索结果中？

浏览 1提问于2013-01-31得票数 0

1回答

如何找到在不同的页面上是否实际需要包含的JavaScript文件？

、、、

我正在寻找一种方法来搜索站点(或顶级页面列表)，并确定是否实际需要包含在相关页面上的JS文件，或者哪些页面确实需要特定的JS文件。服务器端语言是PHP.页面的实际显示不会是个问题。我继承了一个非常大的网站。到目前为止，惯例是，如果在任何子页面上需要一个JavaScript文件，则通常会将其放在每个页面的模板中。没有条件。没有缩小。没有连接。展望未来，我们将推出require.js，但目前还需要在遗留页面上做一些工作。 30k+文件在网页目录中，Google索引域的350k+页面。

浏览 4提问于2013-12-10得票数 4

1回答

让Google知道生产、开发和测试环境之间区别的最好方法是什么？

、、

我们有三个域名非常接近重复的内容(Magento网站)。让我们称它们为production.com、development.com和staging.com。我在development.com和staging.com上有机器人无索引。我还启用了htpasswds。谷歌对这些域名的搜索显示，它们还没有被索引。然而，当我登录到该软件的后端时，我开始收到来自Chrome的网络钓鱼警告。我需要尽快停止这一切。如果警告扩散到前端，我们将看到相当严重的后果。最佳的行动方案是什么？

浏览 1提问于2013-12-07得票数 0

2回答

Facebook粉丝从何而来？

、

我想知道从什么时候起Facebook上的粉丝就是粉丝了？我想出的唯一办法就是抓取粉丝页面的整个feed，然后像墙上的帖子一样追踪第一个帖子。然而，这种方法并不十分准确。有什么想法吗？

浏览 2提问于2011-05-19得票数 0

回答已采纳

2回答

如何存储从网页抓取的数据

、

我想在我的web应用上建立一个教育搜索引擎，所以我决定使用PHP从我的网页上抓取大约10个网站，并将数据存储到我的数据库中以供以后搜索。如何检索此数据并将其存储在数据库中？

浏览 0提问于2011-05-07得票数 1

1回答

如何使用wget下载页面，但如果页面不存在，则忽略404错误消息？

有没有办法让wget在下载网址或爬取网页时忽略HTTP错误响应码？

浏览 5提问于2015-08-19得票数 6

回答已采纳

1回答

如何用python爬取数据并保存到excel？

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。 590859A8-9A1A-4E52-8E60-AD292B16B4A8.png 655C6D0E-4901-4369-AA98-452F9FEFB852.png 4E73A31E-C9C4-45C0-A34E-8EA9AE335A98.jpeg 91321020-9B32-4C77-910A-FA

浏览 330提问于2021-01-09

2回答

使用JavaScript获取新打开网页的URL

、

使用javascript，我需要做的一件事是，当我的索引页面上的一个按钮被点击时，一个新的网页(新窗口)就会打开。这个新网页重定向到另一个网页，使用setTimeout()函数，我关闭新窗口，并将焦点放回到原始索引上。我的问题是，是否有一种方法可以提取重定向网页的URL，以便我可以在我的原始索引中使用它。我试过了 winRef = window.open(url+param); winRef.focus(); loc = window.location; setTimeout("winRef.close()", 3000); 但是这将获得我的原始索引页

浏览 0提问于2011-05-18得票数 2

回答已采纳

3回答

如何从CS工作表中过滤不需要的CS样式？

、、

我有一个外部css表的网页2模板。我想更改它的布局，但保留文本/按钮样式/和布局的某些部分。我面临的主要问题是找出哪些是我需要保留在css文件中的类，哪些是删除它的类。实际上，样式表中定义了很多类。如何从样式表中删除不需要的类和id？？有没有更好的方法，而不是亲自去遍历每个类，并将其与网页源代码进行比较？我正在使用Adobe dreamweaver CS5进行网页设计。

浏览 2提问于2011-04-07得票数 1

回答已采纳

、、、

我正在使用SQL Server2008 R2全文索引。我注意到我搜索的一些结果没有包含在结果中。在进一步的调查中，我发现可疑数据包含ASC控制字符()。我的表是一个简单的平面结构，如果任何行包含这些字符中的一个，则不会显示结果。只要我替换数据中的字符，结果就会出现。我在查询中使用CONTAINS。我找不到一个可以证实这种行为的链接。我可以从数据库中删除这些字符，但如果能确认并了解原因会更好。任何帮助都将不胜感激。

浏览 0提问于2013-09-02得票数 0

2回答

Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢？

、、

请任何人让我知道，我如何才能识别更新的网址去重新抓取？当页面要重新爬行时，我只想抓取页面的更新内容，而不是已经抓取的旧内容。提前谢谢。普拉亚..。

浏览 0提问于2012-04-20得票数 0

2回答

如何查看我的网站上所有可公开访问的链接/页面的列表？

、、

我想在我的网站上看到所有公开访问链接的列表，这样我就知道用户可以访问哪些页面。是否有网站或应用程序可以抓取我的网站并显示此类信息？

浏览 1提问于2011-12-04得票数 0

1回答

php dom xpath从站点中的所有文件夹中提取所有链接

、、

我已经在stackoverflow和网络上搜索过了，一定是这里漏掉了什么。我还没有找到我要找的东西。也许它叫别的什么..我有下面的代码，它将抓取第一个文件夹中的所有内容，但不会从其他文件夹中抓取其他项目。例如，它会抓取第一个/前面的所有内容，但如果你有一个站点mysite.com/ folder2 /，它就不会抓取folder2。一切都是联系在一起的。它也会向后移动。如果你把最长的链接放在网站的前面就会一直走到网站的前面。我不确定我错过了什么任何指针将是伟大的。该网站是一个joomla网站，我正试图废止。 <?php function storelink($web,$taken) { $

浏览 0提问于2013-02-19得票数 0

1回答

有人能告诉我，一个网页的内容是如何发送到谷歌翻译和翻译，并再次显示在同一个网页上?我的意思是完整的工作流程的谷歌网站翻译。

浏览 0提问于2010-07-09得票数 0

回答已采纳

1回答

如何隐藏我的IP在python中进行网络抓取？

、、、

我正在用python在一些页面上做web抓取，我已经被其中的一些阻止了。当我试图通过TOR浏览器检查它时，我已经看到我无法访问页面，所以我认为这些页面已经能够跟踪我所有的IP或我没有很好地配置TOR (我认为不是因为我用Chrome和TOR检查了我的IP地址和TOR是不同的)，所以，有人知道为什么吗？此外，我正在尝试在我的python代码中执行一个函数或方法来自动更改mi IP。我所看到的是，最好的方法是通过TOR浏览器(将其用作从页面获取数据的搜索引擎)，但我无法使其工作。你对创建这个函数有什么建议吗？谢谢!

浏览 19提问于2020-05-21得票数 2

回答已采纳

1回答

正确的路径符号以从node.js中的另一个自定义模块访问自定义模块

、、、、

我的node.js项目中有一些自定义类模块。是否可以从另一个自定义模块访问自定义模块？如果是，我可以使用什么路径表示法？我似乎想不出一个不会产生错误的错误：Error: Cannot find module 'someModules/DB'。我可以从我的根require('./someModules/DB')脚本导出和index.js罚款。但是它不适用于someModules/Table。以下是我的目录结构： project root -index.js -someModules --DB ---index.js --Tabl

浏览 3提问于2017-09-11得票数 1

回答已采纳

2回答

TYPO3: indexed_search -索引所有页面而无需首先访问

、

通常，indexed_search只对已经访问过的页面进行索引。如果用户没有访问过该页面，则不会有搜索结果。有没有一种不需要访问就能索引所有页面的方法？或者我必须使用另一个扩展？ Typo3: v4.2.8 Indexed_search: v2.11.1

浏览 0提问于2012-01-16得票数 0

回答已采纳

2回答

最好的方法移动到一个新的网页与请求-承诺？

、、

我正在修改请求--答应我爬一个朋友的网页。我在他们的GitHub上使用了GitHub示例。到目前为止，我得到的是： var rp = require('request-promise'); var cheerio = require('cheerio'); // Basically jQuery for node.js var options = { uri: 'https://friendspage.org', transform: function(body) { return cheerio.load(body); }

浏览 4提问于2018-10-30得票数 0

回答已采纳

1回答

如何取消云社区的文章同步？

如何取消云社区的文章同步？或者，如何设置只同步原创的文章??????????????????????????????????????????????????

浏览 254提问于2020-10-24

2回答

使用shell脚本从网页的html文件中复制一个单词

、、、

我正在尝试编写一个shell脚本，它应该爬进一个网页，从它的html中获取一个特定的字符/短语并显示出来。特定字符意味着，例如，如果网页的html包含一个短语，比如password:blah，那么我想要将下一个字符/单词打印到password，也就是说，我想要脚本打印blah。我该怎么做？如果需要更多的解释，请询问。提前感谢！

浏览 0提问于2014-10-15得票数 2

1回答

、

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

浏览 5提问于2011-02-15得票数 0

回答已采纳

2回答

Nutch 1.4与Solr 3.4 -无法爬行URL，“没有URL来获取”

、、、、

我遵循了一个使用cygwin、tomcat、Nutch 1.4和solr 3.4进行网页爬行的教程。我已经可以抓取一个URL一次，但是无论如何，不管我尝试哪个URL，这都不起作用了。运行时/local/conf中的regex-urlfilter.txt如下所示： # skip file: ftp: and mailto: urls -^(file|ftp|mailto): # skip image and other suffixes we can't yet parse # for a more extensive coverage use the urlfilter-suffix

浏览 0提问于2017-05-18得票数 0

回答已采纳

1回答

如何导入SQL文件并彻底删除前一个文件

我有一段艰难的时间与buggy模块，需要做很多安装，卸载等。但是即使我卸载，模块也会将数据保留在SQL文件中，而从零开始的唯一方法就是每次重新安装. 如何保存导入时将删除所有旧数据的SQL文件？一个新的SQL文件，它不包含任何新安装和卸载模块的数据。我尝试过添加database和其他设置，但是似乎一旦安装了一个模块.它太late..it了，它不断地爬回到数据库中，有时还会形成依赖关系？

浏览 0提问于2015-08-23得票数 0

1回答

Angular:如果模式(弹出)中止，则不更新ngx-datatable-column中的值

、、

我有一个ngx-datatable，其中有几个列，如下所示： <ngx-datatable-column name="PLZ/Ort" prop="plzCity" [flexGrow]="1" > <ng-template let-column="column" let-sort="sortFn" let-sortDir="sortDir" ngx-datatable-header-template> <span (click)="so

浏览 0提问于2019-05-15得票数 0

2回答

如何使用solr和nutch自动索引数据？

、、、、

我想自动索引一个文档或网站时，它是馈送到apache solr。我们如何才能做到这一点？我见过使用需要通过php脚本调用的CRON作业的示例，但它们的解释不是很清楚。使用java api SolrJ，我们有没有办法自动索引数据，而不需要手动操作?？

浏览 1提问于2015-05-28得票数 0

1回答

为什么在Javascripts中有很多使用window.location.href的urls？

、

我需要获取当前网页的地址(URL)。我使用以下命令来实现： var PageUrl = window.location.href; console.log('Current URL'); console.log(PageUrl); 例如，在中，我想要获取此页面的url，但我得到了许多url： Current URL http://tpc.googlesyndication.com/safeframe/1-0-2/html/container.html Current URL http://static.ak.facebook.com/connect/xd_arbite

浏览 1提问于2015-08-19得票数 0

2回答

单击提交按钮时在后台运行PHP脚本，无需重新加载页面

我需要运行一个php脚本(网站爬虫)上提交按钮点击，而不是页面重新加载。后台脚本运行后，应出现确认/警报弹出窗口，表明站点爬网程序已结束。有什么想法吗？

浏览 0提问于2012-04-17得票数 0

1回答

谷歌网站地图和Robots.txt问题

、

在我们的网站上有一个网站地图网站管理员中心报告说，网站地图中的一些urls被我们的robots.txt屏蔽了，请看，！尽管这些urls在Robots.txt中并不是不允许的。还有其他类似的网址，例如，gamezebo.com/gamelinks出现在我们的网站地图中，但它被报告为“robots.txt限制的网址”。另外，我在站长中心有一个解析结果，上面写着：“第21行:爬行延迟: 10规则被Googlebot忽略”。什么意思？我很感谢你的帮助谢谢。

浏览 3提问于2009-09-28得票数 1

1回答