python3网络爬虫开发实战pdf下载 - 腾讯云开发者社区

、、、、

500G python web、爬虫、数据分析、机器学习、大数据、前端实战项目视频代码免费分享在哪儿能下载到资料，在线等，挺急的~，感谢各位大佬~

浏览 232提问于2019-05-10

0回答

如何在Azure函数中保存HTML中的PDF

、、、

我正在开发一个应用程序，这将有一些网站的网络爬虫。应用程序将通过URL触发Azure函数，爬虫将从该URL开始工作。到目前为止，一切顺利，但是，我们必须保存一些爬虫通过该站点的证据。我们正在考虑用爬虫经过的屏幕保存一个PDF文件，但是，由于Azure函数没有GDI+，它不能与Selenium或PhantomJS一起工作。一种不同的方法是下载HTML内容并以某种方式将此HTML字符串(带有所有JS和CSS依赖项)保存到PDF文件中。我想要一些库，它可以与Azure函数一起工作，以制作一些URL (或HTML字符串)的屏幕截图，并保存为PDF。谢谢。

浏览 7提问于2018-07-16得票数 0

回答已采纳

1回答

如何使用WebRequest和/或HTML Agility Pack获取内容配置附件中的文件

、、、

我正在开发一个网络爬虫，将从网站下载一个PDF文件。我之前检查了网站的源代码，我发现下载PDF的按钮实际上是表单的提交输入。作为响应，该表单检索Content-Disposition标头中的文件。这是它的一张图片：我的问题是，如何使用web请求(或HTML Agility pack)获取此文件。我尝试过这种方式，但是监听器返回null。 HttpWebResponse response = (HttpWebResponse)req.GetResponse(); string file = response.Headers["Content-Disposition"

浏览 11提问于2018-08-16得票数 0

回答已采纳

1回答

Web Crawler -找不到对象

、、、

我正在用asp.net开发一个网络爬虫。我的网络爬虫有一个主页，它从HREF标签打开其他HTML页面，下载HTML页面并获取数据。现在的问题是，有时我会得到一个对象引用找不到的异常，有时代码运行得很好。

浏览 1提问于2014-01-06得票数 0

3回答

如何查找urllib2

、、、

我是python的新手(我正在使用python3)，我正在尝试使用urllib2来学习制作网络爬虫。我好像到处都找不到。我可以导入urllib2，但是urllib2和urllib不在同一个目录中，当我尝试导入urllib时，我在终端中收到一个错误。据我所知，urllib2应该是pythons标准库的一部分。我在哪里可以找到它？有没有什么地方我可以单独下载它，并把它放在urllib所在的目录下？

浏览 2提问于2013-01-12得票数 0

回答已采纳

1回答

从Javascript HREFS获取文档

、

我目前正在设计一个有重点的网络爬虫。我在一些网站上进行了测试，直到我遇到了下面的锚(“)： href="javascript: openDocument(‘DATA//DATA 200803.pdf’)；我的html解析例程结果为 javascript: openDocument('DATA//PCP200803.pdf')；有没有人知道如何下载所引用的文档？非常感谢。

浏览 0提问于2010-03-18得票数 0

回答已采纳

3回答

使用Chickenfoot保存PDF文件

我正在写一个网络爬虫使用鸡脚，并需要保存PDF文件。我既可以单击页面上的链接，也可以抓取PDF的URL并使用 go("http://www.whatever.com/file.pdf") 我看到火狐的“打开file.pdf”对话框，但不能点击“确定”按钮来实际保存文件。我尝试过使用其他方法下载这些文件(wget、python的urllib2、twill)，但是PDF文件都是门控的，所以这些方法都不起作用。任何帮助都是非常感谢的。

浏览 1提问于2010-12-04得票数 0

1回答

Web Crawler的功能

、、

网络爬虫是否只从网页中返回提取的文本？例如，如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬行它们并返回它们的内容吗？不管怎样，对于一个好的开源Java网络爬虫有什么建议呢？谢谢!

浏览 2提问于2011-06-26得票数 0

回答已采纳

1回答

是否在reCAPTCHA成功时激活链接？

、

我在一个WordPress网站上工作。基本上，我发布下载链接(PDF)，并希望阻止网络爬虫访问此内容。这让我想到了谷歌的reCAPTCHA。我是否可以单独使用它，以便当用户点击/回答正确时，页面上的链接将被激活？我在WordPress中编辑页面时遇到了问题。谢谢。 -Rudy。

浏览 15提问于2017-02-15得票数 0

1回答

如何阻止Web爬虫下载文件

、、

是否有可能阻止web爬虫在我的服务器上下载文件(如zip文件)？我应该创建一个PHP脚本，使用cookie跟踪访问者，特别是在下载3个文件后登录/注册的web爬虫。但我发现网络爬虫可以绕过cookie。有可能阻止网络爬虫吗？或者，在下载最多3个文件后，是否还有其他选项可以将文件隐藏在web爬虫上？我可以很容易地创建一个PHP脚本，使用cookie强制访问者登录/注册，但是web爬虫呢？顺便说一下，我用的是nginx和drupal CMS。如果这能帮上忙的话就给我这个信息。

浏览 0提问于2013-07-27得票数 1

1回答

可以完全下载pdf文件吗？

、、、

我想从由爬虫抓取的pdf网页链接中下载许多pdf文件，但是当我在filespipeline中使用scrapy.Request(pdf_url)抓取pdf网页时，最终它下载了不完整的pdf文件。除了前几个文件(它们是完整的)之外，所有的pdf文件都是1KB的。我不得不使用requests.get(pdf_url, stream=True)完全下载所有的pdf文件，但它太慢了。我想知道scrapy filespipelines是否有类似的方法？

浏览 19提问于2019-07-11得票数 0

2回答

使用Crawljax也可以从网页下载文件。

、、

我正在尝试用Java编写我自己的爬虫3.6插件。它应该告诉爬虫，这是一个非常著名的网络爬虫也下载文件，他发现在网页上。(PDF、图片等)。我不想要HTML或者真正的DOM树。我想访问他找到的文件(PDF，jpg)。如何告诉爬虫下载PDF文件、图像等？谢谢你的帮助！到目前为止，使用默认插件(CrawlOverview)的-a新类是这样的： import java.io.File; import java.io.IOException; import java.util.concurrent.TimeUnit; import org.apache.commons.io.FileUtils;

浏览 3提问于2015-01-11得票数 0

回答已采纳

3回答

Python Web Crawler和“获取”html源代码

、、

所以我弟弟想让我用Python语言(自学)写一个网络爬虫，我懂C++，Java，还有一点html。我正在使用2.7版本并阅读python库，但我有几个问题1. httplib.HTTPConnection和request的概念对我来说是新的，我不知道它是下载像cookie这样的html脚本还是一个实例。如果你同时做了这两件事，你会得到一个网站页面的源代码吗？还有什么是我需要知道的一些单词来修改页面并返回修改后的页面。只是作为背景，我需要下载一个页面，并用我有的替换任何img 如果你们能告诉我你们对2.7和3.1的看法就太好了

浏览 2提问于2010-08-21得票数 23

回答已采纳

1回答

网页抓取器的PyQuery代码

、

我对python有点陌生，但我正在尝试制作一个网络爬虫脚本，它可以下载网站上的所有图片。我使用的是requests和PyQuery，因为很多人都是经过研究后推荐的。这就是我现在所有的东西，我不知道该去哪里。 r = requests.get("some url") images = pq(r.text) for image in images.find("img"): 我知道我需要获取img的源代码，但是在找到img标记之后，我该怎么做呢？另外，我查看了一些htmls的页面源代码，一些图片存储在它们的数据库中，所以src以“/”某个扩展名开头，所以我想知道如何才

浏览 5提问于2015-01-22得票数 1

4回答

有已知的网络爬虫列表吗？

、、、

我正在尝试获取web服务器上某些文件的准确下载编号。我看了看用户代理，其中一些显然是机器人或网络爬虫，但许多我不确定，他们可能是也可能不是网络爬虫，它们导致了许多下载，所以对我来说知道这一点很重要。是否有一些已知的网络爬虫的列表和一些文档，如用户代理，IP，行为等？我对官方的不感兴趣，比如谷歌的，雅虎的，或者微软的，这些通常都是很好的表现和自我证明。

浏览 0提问于2009-11-14得票数 17

回答已采纳

1回答

使用wget从谷歌学者搜索结果下载所有pdf文件

、、

我想写一个简单的网络蜘蛛或者只是用wget从谷歌学者那里下载pdf结果。这实际上是一种很好的获取研究论文的方式。我已经阅读了下面关于stackoverflow的页面：最后一页可能是所有页面中最鼓舞人心的。我确实试过按照上的建议使用wget。我的谷歌学者搜索结果页面是，但什么都没有下载。鉴于我对网络蜘蛛的理解程度很低，我应该怎么做才能做到这一点呢？我确实意识到，编写一个爬虫可能是非常复杂的，这是一个我可能不想承担的项目。如果可以使用wget，那就太棒了。

浏览 5提问于2012-09-05得票数 8

回答已采纳

2回答

使用Web Crawler爬行Web数据

、

我想使用一个网络爬虫和抓取一个特定的网站。该网站是一个学习管理系统，许多学生在这里上传他们的作业，项目演示文稿等。我的问题是，我可以使用网络爬虫下载已经上传到学习管理系统中的文件吗？下载它们之后，我想为它们创建一个索引，以便查询文档集。用户可以使用我的应用程序作为搜索引擎。爬虫能做到这点吗？我知道webeater (用Java编写的Crawler )

浏览 1提问于2011-03-30得票数 1

回答已采纳

5回答

Googlebot是用哪种编程语言编写的(或任何其他高效的网络爬虫)？

、

有人知道谷歌机器人是用哪种编程语言编写的吗？或者，更普遍的是，高效的网络爬虫是用哪种语言编写的？我见过很多Java语言，但在我看来，它不是最适合开发网络爬虫的语言，因为它产生了太多的开销(尝试使用Heritrix网络爬虫，它非常重)。

浏览 0提问于2009-10-29得票数 1

回答已采纳

7回答

使用Python下载URL中未明确引用的文档

、、、

我用Python2.6编写了一个网络爬虫，使用Bing API搜索特定的文档，然后下载它们进行分类。我一直使用字符串方法和urllib.urlretrieve()来下载其URL以.pdf、.ps等结尾的结果，但当文档被“隐藏”在URL后面时，我遇到了麻烦，比如：所以，有两个问题。有没有一般的方法来判断一个URL是否有它所链接的pdf/doc等文件(例如www.domain.com/file.pdf)？有没有办法让Python抓取这个文件？编辑:感谢你的回复，其中一些建议下载文件，看看它的类型是否正确。唯一的问题是。我不知道该怎么做(参见上面的问题#2 )。urlretrieve(<

浏览 9提问于2010-10-21得票数 1

回答已采纳

5回答

Python中的多线程爬虫真的可以提高速度吗？

、、

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？会不会每个线程从套接字中提取一些数据，然后转到下一个线程，让它从套接字中提取一些数据，等等？基本上我想问的是，用python做一个多线程爬虫真的比单线程能给我带来更多的性能吗？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

2回答

使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？

、、

我有一份大概的清单。52个网站，这导致大约。150个我需要抓取的网页。基于我的无知和缺乏研究，我开始构建每个网页的爬虫，这开始变得难以完成和维护。根据我到目前为止的分析，我已经知道我想在每个网页上抓取什么信息，很明显，这些网站都有自己的结构。在积极的一面，我注意到每个网站的网页在其网站结构中都有一些共性。我的百万美元的问题，有没有一个单一的技术或单一的网络爬虫，我可以用来抓取这些网站？我已经知道我想要的信息，这些网站很少在其网站结构方面进行更新，而且大多数网站都有需要下载的文档。或者，有没有更好的解决方案，可以减少我需要构建的网络爬虫的数量？此外，这些网络爬虫将仅用于下载我针对的网站的新信

浏览 3提问于2019-04-29得票数 0

1回答

使用nodejs将html转换为pdf

、、

我是网络开发的新手。我有一个html页面，其中有一些文章有文字和一些图片。我想使该html页面的内容为pdf，并下载它使用“下载为pdf”按钮。如何将html页面转换为pdf并使用nodejs下载该页面。一个示例代码或演示将是非常有用的。

浏览 3提问于2014-02-19得票数 1

3回答

以编程方式打开PDF并打印到PDF C#

、、

我正在开发一个应用程序，它能够打开和显示PDF后，我打开它们，并使用CutePDF打印到另一个PDF，但原始文件是不可见的。我正在寻找一种方法，以编程方式打开一个PDF文件，并打印到另一个PDF文件(不一定使用CutePDF，只是打印到另一个PDF是所需的功能)。这将被集成到一个C# .NET项目中。有没有什么建议可以这样做呢？谢谢。

浏览 3提问于2011-03-29得票数 0

回答已采纳

1回答

Zigbee空中下载

我正在尝试使用CC2530实现zigbee OAD。谁能告诉我实现OAD功能需要遵循的所有步骤。附言:我已经看过了zstack文档提供的“空中下载download.pdf”和“开发人员注意-空中下载download.pdf”。但是ZOAD.exe无法加入网络..

浏览 1提问于2014-03-06得票数 0

1回答

python webcrawler下载文件

、

我有一个搜索某些文件并下载它们的网络爬虫，但当“另存为或打开”对话框提示时，我如何下载pdf文件。我目前正在使用python selenium进行爬行。这是我的代码。 from selenium import webdriver import time browser = webdriver.Firefox() # Get local session of firefox browser.get("http://www.tda-sgft.com/TdaWeb/jsp/fondos/Fondos.tda") # Load page link = browser.find_ele

浏览 0提问于2012-08-24得票数 2

回答已采纳

2回答

我可以抓取网站，下载特定的页面，并将呈现的版本保存为PHP中的PDF吗？

、、

我只需要在这里澄清一下这个概念是否可行，或者我是否误解了爬虫的能力。假设1有一个100个网站/博客的列表，每天，我的程序(我假设它是爬虫的东西)会在它们中运行，如果某些特定的短语(如“迈阿密热火”或“勒布朗·詹姆斯”)匹配，它将继续下载该页面->，将其转换成一个包含全文/图像的pdf格式，并保存该pdf。所以我的问题是；这种事是有可能的，对吧？请注意，我不想仅仅是文字片段，但我希望得到整个页面，就像它是打印在一张纸上？这种类型的程序被称为爬虫，对吗？我计划在代码的基础上构建

浏览 4提问于2012-11-26得票数 0

回答已采纳

2回答

编写脚本下载服务器上的所有内容

、、、

我想下载本网站上可公开访问的所有文件： https://www.duo.uio.no/ 这是奥斯陆大学的网站，在这里我们可以找到从大学档案中公开的每一篇论文/论文。我试过爬虫，但网站设置了一些机制来阻止爬虫访问他们的文档。还有其他方法吗？在最初的问题中没有提到这一点，但我想要的是服务器上的所有pdf文件。我试过SiteSucker，但这似乎只是下载网站本身。

浏览 6提问于2014-10-01得票数 0

回答已采纳

1回答

从网站下载pdf后提交一个表单与美丽的汤

、、

我目前正在写一个爬虫脚本与python.I。我知道美丽的汤包，并已做了一些简单的crawlers.currently写一个网站的爬虫有四个下拉菜单，选择后，如果我按下下载按钮，一个pdf将被下载。 post_data = { 'select name 1' : 'value 1', 'select name 2' : 'value 2', 'select name 3' : 'value 3', 'select name 4' : 'value 4', } r

浏览 16提问于2016-09-25得票数 0

2回答

网络爬虫的最佳数据库设计

、、、

许多数据库系统适合与网络爬虫一起工作，但是有没有专门为网络爬虫开发的数据库系统(在.net中)。我的经验告诉我，网络爬虫有许多部分和服务，每个部分都需要一些特定的功能。例如，要缓存网页，我们需要一些东西，比如sql server的。或者检查db中是否已经存在URL，最好的选择是。事实上，我有两个问题 1)与网络爬虫一起工作的最好的数据库系统是什么？ 2)是否有涵盖所有功能的数据库系统！

浏览 2提问于2011-07-05得票数 1

1回答

学习多线程Java爬虫的良好开端

、、

我正在用Java开发一个网络爬虫。我正在寻找一个很好的项目开发这个爬虫的基础上。然而，实际上有超过几百个用Java编写的爬虫程序。我要找的是一个相当简单的爬虫，它有：基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot许多不必要的特性(bloats)Ability很容易集成到我的项目中。

浏览 1提问于2012-04-16得票数 0

回答已采纳

3回答

如何将任何字符编码转换为UTF8

、、

我正在开发一个网络爬虫，它从世界各地的网站抓取数据，并处理不同的语言和编码。目前我正在使用以下函数，它在99%的情况下都有效。但有1%让我头疼。 function convertEncoding($str) { return iconv(mb_detect_encoding($str), "UTF-8", $str); }

浏览 0提问于2011-07-03得票数 4

回答已采纳

9回答

在创建网络爬虫时，需要考虑哪些关键问题？

我今天刚开始考虑创建/定制一个网络爬虫，对网络爬虫/机器人礼仪知之甚少。我发现大部分关于礼仪的文章都显得过时和笨拙，所以我想从web开发人员社区获得一些最新的(和实用的)见解。我想使用爬虫通过“网络”的一个超级简单的目的-“标记的网站XYZ满足条件ABC?” 这给我带来了很多问题，但我认为我首先需要回答的两个主要问题是：从一开始就感觉有点“不确定”--这类事情可以接受吗？爬虫应该采取什么具体的考虑来不让人心烦？

浏览 17提问于2008-08-28得票数 11

回答已采纳

4回答

如何在Python中每隔十分钟执行一个程序一整天

、、

我正在工作的网络爬虫应用程序下载股票价格每十分钟。我能够提取引用，但我不确定如何安排它在一整天每十分钟运行一次。请给我建议要么是时间循环的东西，要么是网络爬虫应用程序本身的解决方案。我需要一个在Windows上工作的解决方案。

浏览 1提问于2015-03-05得票数 2

1回答

商业上最好的网络爬虫？

、

我正在开发一个爬行数以千万计的网页的系统，它将继续运行。我宁愿不从头开始开发爬虫。哪些开源网络爬虫符合以下标准： customizedhighly 可以是可伸缩的可以轻松抓取ajax网站爬行intelligentlyobeys礼貌如果我错过了任何一个，请评估其他你认为重要的标准。我有以下开源爬虫的列表。他们是否具备上述特征？ ScrapyMechanizeNutchHeritrixflaxhttrackSpidherSearcharoo

浏览 1提问于2012-06-21得票数 1

1回答

如何从ScrapingHub中提取文件？

、、、

我部署了一些抓取蜘蛛来抓取数据，我可以从ScrapingHub下载.csv格式的数据。其中一些爬虫有FilePipeline，我用它来下载文件(pdf)到特定的文件夹。有没有什么方法可以通过平台或应用程序接口从ScrapingHub检索这些文件？

浏览 0提问于2017-06-15得票数 0

1回答

保存包含的文件

运行一个PhantomJS脚本，它运行得很好，我喜欢它！我用它来分析恶意Javascript的行为和后续的恶意下载。我唯一坚持的就是..。如果一个网页拉下了后续的文件，我如何也保存它们？保存html/js很容易，我可以把它作为一个新页面。但我对PDF/SWF和其他我不能解析的东西更感兴趣。我尝试过：，但我很难将动态名称添加到ajax函数中我所能看到的其他一切都在谈论保存图像(使用render)或html (使用page.open) 难道PhantomJS有办法保存所有其他文件吗？我敢说这不是一个网络蜘蛛/爬虫，但仍然？如果我错过了一些非常明显的东西，很抱歉！安迪

浏览 12提问于2016-07-23得票数 0

1回答

如何在facebook上发布指向PDF的链接时获得元数据？

、、

到目前为止，在我的研究中，似乎面板爬虫不支持PDF文件。共享指向PDF文件的链接时，没有可用的元数据。这一点在设置中很明显，PDF文件中的元数据没有任何影响。有什么办法可以绕过这件事吗？

浏览 4提问于2017-03-03得票数 1

回答已采纳

2回答

在哪里可以下载Dart的脱机文档？

有没有比使用网络爬虫更好的方式下载Dart文档以供脱机查看？我还没有找到任何东西！谢谢!

浏览 0提问于2013-03-29得票数 5

回答已采纳

5回答

有哪些好的基于Ruby的网络爬虫？

、

我正在考虑写我自己的，但我想知道是否有好的网络爬虫在那里是用Ruby编写的。除了一个成熟的网络爬虫，任何可能有助于构建网络爬虫的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了，但是一个适用于构建网络爬虫的宝石列表也是一个很好的资源。

浏览 2提问于2011-02-13得票数 21

回答已采纳

4回答

什么是一个好的网络爬虫来下载HTML页面？

、

我正在寻找一个网络爬虫/蜘蛛下载个别页面。支持这一点的好产品(最好是免费的)是什么？

浏览 1提问于2011-10-18得票数 3

回答已采纳

3回答

检查url是否为text/html或其他文件类型，如图像

、、

我正在写我自己的C# 4.0WPF特定的网络爬虫。目前我正在使用htmlagilitypack来处理html文档。现在按照下面的方法，我正在下载这些页面 HtmlWeb hwWeb = new HtmlWeb(); hwWeb.UserAgent = lstAgents[GenerateRandomValue.GenerateRandomValueMin(irAgentsCount, 0)]; hwWeb.PreRequest = OnPreRequest; HtmlDocument hdMyDoc; hwWeb = new HtmlWeb {

浏览 4提问于2012-02-03得票数 0

回答已采纳

1回答

C# -用网页爬虫下载网站ajax页面

、、

我用c# (使用Microsoft WebCrawler)编写了一个简单的网络爬虫项目，它可以下载特定站点的内容。我已经为DocumentCompleted注册了事件，并等待页面的ReadyState完成。当我使用任何浏览器导航到页面时，该站点运行得非常好。当我试图在代码中执行相同的操作时，页面的ajax部分没有正确加载。正如Marcom建议的那样，我从我的网页爬虫和网页浏览器上看到了小提琴的响应。当我的网页爬虫导航到网页时，他会在与网页相反的一个仿真器上接收假信息。有线索吗？

浏览 1提问于2011-03-11得票数 0

2回答

PhantomJS传递HTML字符串并返回页面源代码

、、、、

对于C#中的网络爬虫项目，我尝试执行Javascript和Ajax来检索爬行页面的完整页面源代码。我正在使用一个现有的网络爬虫(Abot)，需要一个有效的HttpWebResponse对象。因此，我不能简单地使用driver.Navigate().GoToUrl()方法来检索页面源代码。爬虫下载页面源代码，我想在源代码中执行现有的Javascript/Ajax。在一个示例项目中，我尝试了以下操作，但没有成功： WebClient wc = new WebClient(); string content = wc.DownloadString("ht

浏览 0提问于2014-04-03得票数 2

1回答

我可以在哪里下载google云数据存储的离线文档？

有没有比使用网络爬虫更好的方式下载google云数据存储文档以供离线查看？我还没有找到任何东西！谢谢!

浏览 0提问于2013-05-24得票数 0

回答已采纳

1回答

HTTP客户端被重定向，但旧地址显示在地址栏中。

、、

我有一个pdf文件可在www.example.com/pdf/什么。在httpd配置上，我可以重定向到www.example1.com/pdf/什么。在这两种情况下，pdf都在下载，但是重定向到example1域只能在开发者工具的网络选项卡中看到，在地址栏中，用户仍然可以看到www.example.com/ pdf /什么，尽管pdf是从www.example1.com下载的。更新:配置类似于 RewriteEngine On RewriteRule ^/$ https://www.example.com/en/ [R=301,L] RewriteCond %{HTT

浏览 0提问于2019-01-29得票数 0

回答已采纳

1回答

与VB.Net HTTPWebRequest相比，Python URLOpen的速度很慢

、、、

嗨，我正在编写一个网络爬虫，这将爬行网站，并有选择地解析网站的不同部分。我是一个.Net开发人员，所以我选择用.Net做这件事是显而易见的，但是速度非常慢，包括下载和解析HTMLPages 然后，我尝试先使用.Net下载内容，然后使用python下载相同的域名，但python在下载数据方面给人留下了深刻的印象。我已经使用python实现了下载，但是后面的部分并不容易用python编写，这显然不是我想要做的。同一批域名在Python中需要100秒，而在基于.Net爬虫中需要20分钟我尝试下载，在Python语言中用了8秒，在.Net crawler中用了100秒有人知道为什么这在.Net

浏览 0提问于2011-02-12得票数 0

回答已采纳

5回答

WebClient的替代方案

、

我刚刚看到一个网络爬虫在我的电脑上运行，它在短短几分钟内就下载了几千条元标签信息。当我使用WebClient下载页面，然后在本地解析它们时，为什么WebClient仅下载一个网页就需要大约40秒？有没有替代下载网页的方法？谢谢：)

浏览 0提问于2009-12-20得票数 3

1回答

如何在IOS中以编程方式将PDF转换为PNG

、、、、

我正在开发一个iPhone应用程序来显示大图像(S)和PDF(s)。PDF和图像可通过网络下载或通过iTunes导入。我正在使用一种平铺方法，在下载/导入后，一组PNG/JPEG平铺会以编程方式生成并保存到iPhone。看着前面的问题，我找到了一种方法来做大图像的平铺，但它不适用于PDF文件？我想知道是否有可能在运行平铺例程之前将PDF文件转换为PNG/JPEG，或者是否有更好的方法来做到这一点。

浏览 0提问于2011-03-02得票数 1

1回答

使用Python的Web爬行器

、、

感谢您对我的问题感兴趣。我目前在大学学习计算机科学，我相信我对Python编程有很好的掌握。考虑到这一点，现在我正在学习全栈开发，我想用Python开发一个网络爬虫(因为我听说它很擅长这一点)，在Manta和Tradesi等网站上浏览，寻找没有网站的小企业，这样我就可以与他们的所有者取得联系，做一些公益工作，开始我的web开发生涯。问题是，我以前从来没有用任何语言制作过网络爬虫，所以我认为Stack Overflow的那些有帮助的人可以给我一些关于网络爬虫的见解，特别是我应该如何去学习如何制作它们，以及如何在那些特定的网站上实现它的想法。任何意见都是值得感谢的。谢谢，祝你有一个愉快的一天/晚

浏览 17提问于2018-02-13得票数 0

1回答

下载、保存(本地)并从链接中显示PDF

、、、、

我正在开发Windows 8应用程序。在我的应用程序中，我必须在应用程序中以脱机(无网络连接)模式显示PDF文件。为此，我必须做以下几点，从服务器端提供的链接( URL )下载PDF文件。将下载的PDF文件保存在本地存储中。从本地存储打开并显示PDF文件。在搜索过程中，我发现了使用ComponentOne Studio的工具集“”的建议。不幸的是，它并不是免费的。有什么办法可以免费实施吗？如有任何参考、样品或想法，将不胜感激。

浏览 0提问于2013-09-10得票数 2