python爬虫实践_爬虫 python_python 爬虫 - 腾讯云开发者社区

、、、

我想知道是否流行的网络爬虫或机器人(谷歌机器人，宾博特等)能够模拟用户行为并对页面进行相应的索引。我还想知道爬虫是在等待document.ready还是window.load。请指点我。

浏览 0提问于2016-07-22得票数 0

1回答

ASP.NET MVC头动词与Selenium

、、、

问题：在编写单独的Get/Post动作方法时，处理Head动词的最佳实践是什么？我们还看到了使用HEAD动词的(非主流)爬虫的日志条目。我们创建了robots.txt条目来阻止这些爬虫对站点进行索引，但是现在我们想知道从SEO的角度来看最佳实践是什么。对于爬虫来说，对头部的响应重要吗？有使用它的主流爬虫吗？它会影响SEO排名吗？

浏览 2提问于2010-05-14得票数 2

回答已采纳

1回答

我目前正在用Python开发一个宠物项目，它可以为我所在地区的房地产提供一些类似ebay的网站。问题是，有些网站似乎在其网页中提供了更结构化的数据(即。然而，我的问题是，一个爬虫应该做多少处理呢？它应该只是基于某个xPaths提取原始文本块，这样您就不会在它们上浪费处理能力，让其他工作人员对这些数据进行进一步的分析，还是它本身就应该这样做呢？网上似乎有很多关于好的网络爬行实践的指导方针，但是还没有找到任何关于好的爬虫设计的指南。有什么建议或经验法则吗？

浏览 0提问于2016-06-17得票数 4

回答已采纳

1回答

没有目录列表索引页

、、、

我有一些音频资产目录在我的网站上。服务器允许目录列表。也就是说，如果用户访问example.com/assets/audio/nature/，将列出所有音频文件。我不想更改任何服务器的配置，因此，我将在每个资产音频目录中放置一个index.html，以防止出现清单。<!DOCTYPE html><head> <meta name="robots" content=

浏览 0提问于2020-07-01得票数 1

回答已采纳

1回答

弹性豆杆不运行的克隆约伯

、、、、

我在一个弹力豆茎应用程序上有一个抓取器，我可以像这样运行SSH：我想帮我安排一个任务来处理这个问题。Cron won't r

浏览 0提问于2015-04-13得票数 0

1回答

具有标签的动态url的社交共享

、、、、

我正在构建一个客户端插件，它的功能非常类似于第三方应用程序中的图像/文章图库。在尝试为每一张图片添加Facebook分享/点赞按钮时，我遇到了以下问题- Facebook (或Twitter)将抓取原始页面并获取父页面的元数据，但不会获取正在共享/点赞的图片/文章的实际内容。我也相信FB不会运行Javascript，所以即使我动态地替

浏览 0提问于2016-03-26得票数 0

1回答

将具有动态生成名称的DynamoDB表导出到S3

、、

我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 "，其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么？我在看AWS Glue，但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好？DynamoDB表的大小不大，存储了几百个数字。

浏览 4提问于2019-12-21得票数 0

回答已采纳

1回答

为什么Facebook不能正确解析Twitter URL？

、、、、

我在抓我的头将此链接粘贴到你的Facebook墙上或“你在想什么？”Facebook主页上的输入框。Facebook清楚地解析了这个url，并将其解析为不同的东西。如果它能做到这一点，它应该将url解析到正确的twitter页面。我在网上搜索，找到了谷歌链接，建议抓取这些AJAX urls，但与这个奇怪的异常无关: http://code.google.com/

浏览 2提问于2010-12-03得票数 0

2回答

使用scrapy python的.net框架

、、、

可以在Python 框架中使用.NET框架从不同的站点抓取数据吗？我正在做我的最后一年的项目，在这个项目中，我想使用C#作为前端语言，并使用Python来抓取数据。

浏览 0提问于2014-05-07得票数 4

3回答

单页应用程序Web爬虫和SEO

、、、

由于所有内容都是使用javascript代码呈现的，当爬虫访问我的博客时，它们看到的只是一个空页面。我正在考虑查看用户代理，每当用户代理来自爬虫时，我都会将页面的渲染版本提供给它，但我在实现上述方法时遇到了问题。为网络爬虫创建一个在后台SEO友好的rest API和Django的单页应用程序的最佳实践是什么？

浏览 0提问于2017-08-16得票数 1

3回答

将数据从PHP脚本传递到Python Web Crawler

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数

浏览 1提问于2011-03-31得票数 1

1回答

如何轻松地在远程github分支和本地分支/文件夹之间切换？

、、、

我用Python2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持Python 3，这种转换必须在1 go内完成。我只能在Python 3爬虫做好部署准备之后才能开始使用。现在，由于“所有操作都必须保持活动状态”，我需要一个单独的Python 3爬虫的远程分支。这个分支可以称为Remote-B。我手动创建了这个分支，所以整个存储库现在有两个分支: Master(Remote-A)和Python3爬虫(Remote-B)，后者是主分支的一个

浏览 3提问于2019-09-10得票数 0

回答已采纳

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

、、

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

动态内容网站的SEO

什么是搜索引擎优化策略，使谷歌爬虫了解这些新内容？会不会是某种“最新问题”页面，其中列出了新的链接？但是，google爬虫将不得不定期对其进行解析，以获取新问题。有没有一个最佳实践/行业标准的SEO方法来解决这个问题？

浏览 0提问于2011-04-23得票数 1

回答已采纳

3回答

阻止NodeJS程序退出

、、、、

我正在创建基于NodeJS的爬虫，它与node-cron包一起工作，我需要防止入口脚本退出，因为应用程序应该永远作为cron运行，并将在某些时间与日志执行爬虫。出于此目的，节点中的最佳实践是什么？提前感谢！

浏览 9提问于2017-05-23得票数 11

回答已采纳

1回答

我怎么能强制停止我的爬虫得到一个特定的网址抓取最后一次？

、、、、

我正在制作一个爬虫来找出最近添加的youtube视频，当我的爬虫到达旧视频(在前一个转弯中爬行)时，我想停止爬虫。我使用的不是scrapy和漂亮的汤，我使用的是python库。请给我推荐任何选项

浏览 9提问于2017-06-27得票数 0

1回答

Scrapy crawler -创建一个10,000个蜘蛛或一个蜘蛛爬行10,000个域？

、

我很想为每个网站创建一个独特的爬虫但这是最好的前进方式吗？我是否应该只有一个爬虫，然后添加start_urls和allowed_domains中的所有10,000个网站，编写抓取库并使用它？关于这一点，哪一项是最佳实践？

浏览 3提问于2015-07-25得票数 2

1回答

在ubuntu的后台运行时，爬虫停止。

、

我使用具有无限循环的python制作了一个简单的爬虫，所以它不能停止。随机延迟17 ~ 30，这个爬虫爬行相同的一个页面，并找到'href‘链接，定期更新，并存储到Mysql。因为我使用了Linux命令这个爬虫是在Ubuntu服务器背景下运行的。我想它已经运行了大约4个小时。但爬虫突然停止了。第二天我再试一次。

浏览 1提问于2014-05-20得票数 0

回答已采纳

2回答