多线程抓取_多线程web抓取_php多线程抓取网页 - 腾讯云开发者社区

、、、

HTML Agility Pack for .net线程对于跨并行线程使用单个HtmlDocument实例的只读访问安全吗？我正在抓取单个页面，但抓取页面的某些部分以获取所需数据的速度可能会很慢，因此我希望使用并行c#库一次抓取页面的多个部分。

浏览 2提问于2012-07-14得票数 0

4回答

构建web爬虫

、、

我目前正在开发一个内置网络爬虫的自定义搜索引擎。由于某种原因，我不喜欢多线程，因此到目前为止，我的索引器是以单线程的方式编写的。现在，我在构建爬虫时遇到了一个小难题。有人能建议一下，先抓取1个页面再索引，还是先抓取1000+页面和缓存，然后再索引，哪个更好？

浏览 2提问于2009-05-14得票数 1

1回答

我终于设法从我们的相机里抓取了一段视频。在Windows下抓取fullHD的摄像头有几个问题，唯一的方法是使用一个抓取原始的巨大文件的工具。所以我找到了ubuntu下的方法： dvgrab -format mpeg2 -buffer 300 - | ffmpeg -deinterlace -f mpegts -i - -f flv -vcodec flv -s 1920x1080 -aspect 16:9 -qscale 3.5 -acodec libmp3lame -ab 32k -ar 22050 Videoname.flv 这抓取我的凸轮(佳能XHA1)，并将其保存为flv。很管用。有

浏览 0提问于2013-01-25得票数 0

2回答

如何在多线程时分别抓取项目？

、

我对多线程是个新手(就像我今天晚上开始学习的那样)，而且我刚刚写了一个我自己制作的多线程的刮板。但它只在两个线程上抓取相同的数据两次，而不是单独抓取，这就是我将其设为多线程的原因(为了提高时间效率例如，如果我正在抓取： 1 2 3 4 5 6 7 8 我将程序设置为使用2个线程，输出类似于： 1 2 1 2 3 3 4 5 5 4 6 7 6 8 7 8 基本上，与多线程抓取数字列表的速度不同，它为每个线程抓取整个列表一次，这会导致输出中的重复(我非常确定抓取速度是相同的) 抱歉，如果这一切不清楚或者听起

浏览 1提问于2014-04-26得票数 0

2回答

使用Hadoop流进行线程处理

、、、、

我正在利用Hadoop流编写一个基于python的HTML抓取器。我发现运行单个线程的python脚本很慢。我想把它修改成多线程版本。有谁知道将映射程序中的线程数设置为什么才是一个好数字吗？我不确定集群每个节点的规范，但我假设它至少支持两个线程。

浏览 2提问于2013-08-06得票数 0

回答已采纳

2回答

使用多线程时，请关闭所有使用selenium的浏览器

、、、、

我正在用selenium做web抓取。我使用的是多线程库。我的脚本同时打开3个firefox浏览器和抓取。完成抓取后，我想关闭所有的浏览器，我尝试了很多方法，但是Browser.quit()和browser.close()关闭了1个浏览器，另外2个浏览器没有关闭。 def get_links(): some code here... def get_driver(): global driver driver = getattr(threadLocal, 'driver', None) if driver is None: chromeO

浏览 31提问于2020-07-20得票数 1

回答已采纳

1回答

NSArrayController是否可以限制核心数据在后台线程中运行获取？

、、

我将NSArrayController绑定到核心数据，并将UseLazyFetching设置为TRUE。当然，NSTableView与NSArrayController绑定在一起。所有这些都是以编程方式进行设置的： @implementation MainWindowController { NSArrayController *_arrayController; } - (void)windowWillLoad { _arrayController = [[NSArrayController alloc] init]; [_arrayController setMa

浏览 0提问于2013-11-20得票数 1

1回答

去同步Ajax查询？

、、、

我正在开发一个报表应用程序，它可以从我制作的aspx中抓取数据。为了显示数据，它对该页面使用ajax查询。根据传递的参数，任务可能需要很长时间，也可能需要很短时间。在这一点上一切都很好。以下jquery代码出现问题： <script type="text/javascript"> $(document).ready(function () { $('.preload').preload(); $('.preload').each(function () { var o

浏览 1提问于2013-01-25得票数 0

3回答

如何在python中并行抓取多个html页面？

、、、、

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： for url in websites: r = requests.get(url) soup = BeautifulSoup(r.content) links = soup.find_all("a", {"class":"dev-link"}) 实际上，网页的抓取是按顺序进行的，我想以并行的方式运行它。我对Python中的线程化不是很了解。谁能告诉我，我怎样才能并行抓取？任何帮助都将不胜感激。

浏览 0提问于2017-05-29得票数 2

1回答

这是在Python中同时抓取多个URL的正确方法吗？

、、

我是Python的新手，我正在创建一个用于抓取torrent站点的网络抓取器。为了获得磁铁链接，我让它抓取了每一个torrent的网址。问题是在每次搜索中有大约20个链接需要抓取。这需要很长时间才能完成。因此，我使用numpy将URL抓取列表一分为三，并尝试使用线程同时抓取所有这三个列表。它看起来更快，但我不确定这是不是正确的方法。这是一次抓取多个urls的正确方法吗？谢谢 from bs4 import BeautifulSoup import re import np import pandas as pd import sys import cfscrape import threa

浏览 27提问于2020-09-12得票数 0

回答已采纳

1回答

Python BS4抓取脚本计时器

、、、

我一直在尝试让这个网络抓取脚本正常工作，不确定下一步该怎么做。希望这里有人知道我该怎么做。我使用的是BS4，问题是，每当一个网址需要很长时间加载时，它就会跳过该网址(在页面加载时间较高的时候，输出文件只有较少的输入)。我一直在尝试添加一个计时器，以便只有在x秒内没有加载url时，它才会跳过url。有谁能给我指个方向吗？谢谢!

浏览 0提问于2016-11-29得票数 0

1回答

如何在Django中使用BeautifulSoup？

、、、

我试图用Django创建一个网站，它基本上是从谷歌新闻中抓取数据并将其放到我的网站上。但我不知道如何在我的Django HTML文件中使用从google新闻中提取的数据。我有没有办法做到这一点。而且，这会大大降低网站的速度，所以这是最好的方法吗？ web抓取代码： from bs4 import BeautifulSoup import requests url = "https://news.google.com/?hl=en-IN&gl=IN&ceid=IN:en" headers = { "User-Agent": 'Mo

浏览 1提问于2019-09-01得票数 2

1回答

HtmlAgility包并行化与Winforms HtmlDocument速度

、、、

我有一个程序，我正试图让它尽快开始工作。这个程序加载了许多不同的网站，并对它们进行了一些抓取。我过去常常使用Forms.HtmlDocument执行抓取(我基本上是使用WebRequests下载它，然后使用WebBrowser控件将其推入文档中)-然而，这是不可能干净地并行的，因为当它不是主线程时，无法强制WebBrowser更新。所以我决定尝试一下HtmlAgilityPack，我想也许我可以将其并行化。然而，然后我读到了下面的帖子：这表明它并不能很好地并列。转换所有的代码将需要一些时间(由于所有的怪癖和复杂性)-但是我想知道它是否值得。如果我避免使用WebGet (而是使用Web

浏览 1提问于2012-05-21得票数 0

回答已采纳

2回答

当我需要抓取一个网站时，我应该使用BackgroundWorker还是Thread？

、、

我要在一个游戏网站上截取一些数据。我希望能够发送多个请求，以便我可以一次屏幕抓取几个页面。我已经给网站管理员发了电子邮件，并获得了以中等速度(每秒几个请求)进行抓取的许可。据我所知，BackgroundWorker使用线程池，我认为这是可取的。对于这种用例，使用BackgroundWorker还是使用实际的线程有意义吗？

浏览 0提问于2009-09-09得票数 1

回答已采纳

1回答

集成Crawler、Twitter和HBase

、、、

我有一个推特爬虫，通过HBase本地java客户端集成到HBase。当爬行过程开始时，tweet中的每条推文都将被发送到HBase表。我的问题是，集成Crawler和HBase是最佳实践吗？我担心在抓取过程中继续将tweet保存到表中时的性能。(我之所以这样做，是因为在将数据从crawler插入到HBase之后，这些tweet将被Solr索引)

浏览 0提问于2015-06-23得票数 0

2回答

想要PHP中自动化作业的解决方案吗？

、

我想用PHP做一个脚本。我的脚本必须激活客户帐户。我的第一个函数将从管理面板中获取客户端的所有登录详细信息，大多数是100个登录或更多。下一步，我必须去第三方网站，登录后，我的客户用户名和密码，他们会给我一个链接，我必须抓取该链接，并获得激活码。之后，我必须放置激活码和提交。我只想知道如何让这件事变得自动化和基于队列。我可以制作脚本，但我希望在这个脚本中有一个队列系统。在得到no之后。从管理面板的作业，它开始做作业，但我必须同时运行10个或更多的作业(并行)，如果任何作业完成，它启动另一个类似于IDM (互联网下载管理器)。完成所有作业后，它将从admin抓取新的登录并启动作业，依此

浏览 1提问于2011-04-17得票数 0

回答已采纳

2回答

使用多线程卷曲

、、

我正在使用cURL从URL抓取数据。 for ($i = 0; $i < 1000000; $i++) { $curl_handle = curl_init(); curl_setopt($curl_handle, CURLOPT_URL, 'http://example.com?page='.$i); curl_exec($curl_handle); curl_close($curl_handle); // some code to save the HTML page on HDD } 我想知道有没有什么方法可以加速这个过程

浏览 1提问于2014-11-05得票数 0

2回答

抓取蜘蛛从链接中随机抓取数据为什么？

、

首先，我从网站上抓取了所有的硬币链接，并要求那些链接。但是scrapy没有串行地请求从链接list.after请求这些链接抓取数据成功，但当保存到csv文件时，它使一个完整的抓取项目后每一次都是一个空行。我期待它将从链接列表中串行请求，它不会使任何空白row.how我能做到吗？我使用的是python 3.6和scrapy版本1.5.1 我的代码： import scrapy class MarketSpider(scrapy.Spider): name = 'market' allowed_domains = ['coinmarketcap.com

浏览 3提问于2018-12-02得票数 0

1回答

AppEngine定价和IO等待

、、、

对于单核心实例，AppEngine定价与亚马逊EC2定价相似 AppEngine - $0.08 / hour Amazon EC2 - Small (Default) $0.080 per Hour 但是，当我的脚本等待IO时，我似乎不得不为时间付费。我希望为实际的CPU周期付费，而不是等待。当我的脚本等待DataStore或URL抓取时，其他脚本可能会在同一内核上执行。在我的测试用例中，97-99%的时间是等待IO的脚本。那么，如果我在EC2或专用服务器上运行，我是否需要支付比我预期的多70-100倍的费用？我认为AppEngine对应用程序的可伸缩性很好，但是如果我会有很高的流

浏览 2提问于2012-09-24得票数 2

回答已采纳

2回答

线程化是否违反了robots.txt？

、、、

我刚接触抓取，最近我意识到线程可能是快速抓取站点的一种方法。在我开始讨论这个问题之前，我想这可能是明智的，以确定这是否会最终让我节流。所以问题是，如果我重写我的程序，使用线程来更快地爬行，这会违反大多数网站的robots.txt吗？

浏览 0提问于2011-06-07得票数 3

回答已采纳

2回答

是否使用线程从网络下载文件

、、

我需要下载大量的文件从网络上基于一个关键字。我所遵循的步骤是使用抓取找到到文件的链接使用WebClient.DownloadData()下载byte[]将arr保存到一个文件. 创建一个线程来下载每个文件以获得更好的性能是一个好主意吗？任何建议。谢谢 foreach (string each in arr) { Thread t = new Thread( new ThreadStart( delegate

浏览 4提问于2010-07-21得票数 2

1回答

python中的多线程https请求

、、、、

我试图在python中使用多线程web请求来进行web抓取。我想用多线程发送多个请求到同一个网站，但是不管我是否使用多线程，完成脚本所需的时间是相同的。这是我正在使用的代码： import queue import urllib.request from threading import Thread def perform_web_requests(addresses, no_workers): class Worker(Thread): def __init__(self, request_queue): Thread.__init__

浏览 13提问于2022-08-18得票数 0

1回答

在Python中将数据从工作文件导入到Excel文件

、

我有一个很长的代码，用于web抓取数据到一个临时工作文件，然后生成一个Excel文件，这些数据将被导入其中。我想把代码分成两部分，这样如果我的工作文件已经创建好了，我就不必每次都运行网络抓取。如何在生成Excel文件的代码的第二部分引用工作文件("data")？我的当前代码行导致现有工作文件中的所有数据消失： data=eval(open('data','r',encoding='utf8').read()) 应该是这样的吗？ data=open('data','r',encoding=

浏览 18提问于2020-12-22得票数 0

2回答

如何提高多线程python程序的性能？

、、、

我制作了一个python程序，它定期(间隔1秒)从大约700个文件和查询中获取一些数据，然后用抓取的数据发送给服务器。对于单个查询，响应时间通常约为2~3 msecs，但在某些情况下，可能需要200 msecs。该方案包括：一个提取线程:每1秒迭代700多个文件，抓取数据，然后将抓取的数据分派到一个所谓的查询池的共享队列中。 N个线程池:每个线程从共享队列中选择数据并向服务器发送查询。当N为4时，程序显示出最佳的性能。如果我增加N=8，那么性能就会显著下降。我想这是因为巨蟒的吉尔。大多数情况下，程序运行良好，但是如果有一个查询需要很长时间(由于服务器响应晚)，那么整个后续

浏览 0提问于2018-06-01得票数 0

回答已采纳

1回答

OpenCV VideoCapture在OS X上不会被阻止

、、、、

简而言之:在OS上，如果我从main()线程以外的线程调用VideoCapture::read()，调用会立即返回，而不是阻塞到新的帧。这个可以像预期的那样工作： void main() { VideoCapture vc(0); Mat img; While(1) { vc.read( img ); // blocks till new frame arrives } } 这个不会阻塞： void run( VideoCapture& vc ) { Mat img; While(1) { vc

浏览 0提问于2013-05-22得票数 1

回答已采纳

1回答

蜘蛛网，什么最快的方法，除了wget

我使用wget --spider -l4 -r --delete-after选项。我意识到爬行速度相对较慢。我的网页有第2页、3页、4页、5页等(链接自第1页)。如果我只想点击网页一次，但不检索html，我应该使用什么来做它最快的方式。通常是能够触摸所有内部链接，使它们只加载一次(生成我的缓存)。我不需要爬行html。你知道怎么用最快的方法来做吗？这个网站都是相互连接的。 Main site > Category > Different Posts of Category > Pages of Post 我希望能够抓取网站本身的所有链接，以最快的方式

浏览 1提问于2015-08-30得票数 0

回答已采纳

1回答

使用Selenium为未停止加载的页面拍摄快照

、

我正在使用Selenium来捕获网页的屏幕截图。它在像stackoverflow这样的网站上工作得很好，但我正尝试在一个永远不会停止加载的页面上使用它。有没有办法在x秒后抓取截图，不管是否完成？当前代码： import os from selenium import webdriver def main(): driver = webdriver.Chrome() with open('test.txt', 'r') as f: for url in f.readlines(): driver.

浏览 0提问于2018-09-04得票数 1

1回答

同时检查多个URL的内容更改

、、、

我如何让这个脚本从一个列表(URLS=[])中抓取URL并同时检查所有的URL？我试过使用for i in range(len(URLs)):范围循环，但它只是一个接一个地测试，我想让它同时运行多个URL。 PrevVersion = "" FirstRun = True url="" while True: # download the page response = requests.get(url, headers=headers) # parse the downloaded homepage soup = Beautiful

浏览 6提问于2021-06-10得票数 0

1回答

网络操作的多进程与多线程

、、、

我正在构建一个同时发出多个请求的web抓取器。我目前正在使用multiprocessing模块来做这件事，但是由于它是在一个数字海洋液滴上运行的，所以我遇到了处理器/内存瓶颈。由于这是一个web刮板，大部分时间都花在脚本上等待网络，那么使用线程来减少资源使用不是更有效率吗？线程是否检测到阻塞的网络调用并释放锁？将多进程和多线程交织在一起是否可行？

浏览 12提问于2017-07-26得票数 1

回答已采纳

2回答

运行多个独立代码的Python

、、、

我在代码中遇到了一个小问题。我有一个主函数，它在给定特定条件的情况下，必须启动一个或多个不同的函数来处理web抓取，特别是它们使用Selenium。问题是，我只是想启动这个web抓取“任务”，这只是一个简单的python函数，而不是等待它终止，而是让它独立于我的其余代码继续运行，这样我就可以独立运行同一函数的5个不同实例，而不是等待它们终止。一些伪代码： while True: condition = SomeComputation() if(condition): IndependentFunction( some_parameter ) 一旦调用了Inde

浏览 57提问于2021-02-25得票数 0

回答已采纳

1回答

通过用python发送并发请求来抓取

、、

我有python3.4，我安装了一些请求和一些其他必要的程序来进行网络抓取。我的问题是，我想刮大约7000页(仅仅是html/text)，并且不想一次做所有的事情，我希望有一些延迟，这样我就不会用太多的请求访问服务器，并且可能会被禁止。我听说过grequests，但是很明显它们没有用于python3.4(实际的错误说它找不到vcvarsall.bat，但是在文档中我没有看到对3.4的任何支持)。有人知道可以管理url请求的替代程序吗？换句话说，我并不是想尽可能快地抓住每件事，而是要慢慢来，稳扎稳打。

浏览 0提问于2014-08-14得票数 1

回答已采纳

1回答

如何使此代码仅用于检查200报头响应和快速工作？

、

我发现这个python代码是为了检查网站的漏洞。它工作得很好，但我需要一些修改。此脚本获取所有HTTP响应(可能是200、301、302和其他响应，但不包括404)。但现在我只想抓取200OK响应，而不是301或其他。我怎么能做到这一点。这个脚本运行速度也很慢。有没有办法在python中加速这个线程的脚本？ # -*- coding: utf-8 -*- #Follow Me For More If You Like It Give It A Star import requests def FindAll(): headers = {'User-Agent': &

浏览 14提问于2020-08-25得票数 0

1回答

为什么在本地通过的Selenium测试在指定完全相同的浏览器的Browserstack上失败？

、

我有一个测试，可以打开一个网页并进行抓取。它起作用了。这是毫无疑问的：-每次在我的机器上运行时，都能在Phantomjs/Chrome/Firefox上运行。然而，当在Browserstack上运行时(我想涵盖5个最流行的浏览器，几个操作系统，甚至移动设备，目前我指定了与我的机器上完全相同的浏览器和平台，以确保首先测试在Browserstack上正确运行)，测试有时通过，有时失败，出现不同的错误：- Stale元素-缓存中没有这样的元素-提交后页面无法加载-等等而且几乎不会有相同的元素或提交。这让我想知道Browserstack是否有一些我没有意识到的内在不稳定性。有没有人在Brows

浏览 4提问于2015-06-12得票数 2

3回答

MySQL多行插入是否抓取顺序自动增量ID？

、

我想这是真的，但我还没有在网上找到任何可以证实这一点的东西。我可以使用last_insert_id()获得为自动增量字段生成的第一个id，但是我可以假设下一个记录将具有连续的id吗？或者，另一个用户是否可以抓取一个id，以便得到的id不是连续的？示例:插入到mytable (asdf，qwer)值(1,2)，(3,4)，(5,6)，...，(10000,10001)；如果mytable有一个自动增量列，并且如果两个用户同时运行这条语句，那么一个用户会抓取10000个顺序ID，而另一个用户会抓取下一个10000个顺序ID吗？那么对于数百个用户呢？谢谢。

浏览 0提问于2011-12-13得票数 13

回答已采纳

3回答

如何使用python同时下载网页？

、

我正在用Python编写一个web抓取应用程序。我正在抓取的网站有www.someurl.com/getPage?id=x表单的urls，其中x是标识页面的编号。现在，我正在使用urlretrieve下载所有页面下面是我的脚本的基本形式： for i in range(1,1001): urlretrieve('http://someurl.com/getPage?id='+str(i) , str(i)+".html) 现在，我的问题是-可以同时下载网页吗？因为，在这里，我阻塞了脚本，等待页面下载。我可以要求Python打开多个到服务器的连接吗？

浏览 14提问于2015-05-18得票数 1

回答已采纳

1回答

GUI挂起，直到创建了所有线程

、、、

我已经创建了一个GUI抓取器(Qt和Python)，它运行在多个线程上。GUI似乎挂起，直到所有线程都派生完成。我正在运行大约200-300个线程的刮刀..创建所有线程后，GUI将响应..有没有办法阻止应用程序在创建线程时不响应。我在主线程中创建了一个新的Python线程，然后在QThread类中的以下代码中调用tempthread def tempthread(self): self.tempt = threading.Thread(target=self.spawn) self.tempt.daemon=True self.tempt.st

浏览 2提问于2013-09-13得票数 0

1回答

Python中的线程，线程之间的“通信”

、、、

我有两个功能：def is_updated_database():检查数据库是否更新，另一个def scrape_links(database):正在抓取一组链接(它从前述数据库下载)。所以我想要做的是，当def is_updated_database():发现更新被下载时，我想停止def scrape_links(database):，并用一个新的函数参数(database，这将是一个新链接的列表)重新加载它。我的尝试:我知道如何运行两个线程，但是我不知道如何“连接”它们，所以如果一个线程发生了什么事情，那么另一个线程也会发生一些事情。

浏览 0提问于2020-06-02得票数 0

3回答

使用USB RFID读取器输入并进行后台处理

、、、、

我有一个校队项目，我必须在后台使用RFID读取器来跟踪员工的签到/签到。前台winform图形用户界面处理日常事务，如订单，报价等。因此，我需要能够在不中断的情况下使用该程序，同时跟踪员工的来去。我已经调查了后台工作者，一些新的踏步和输入抓取。但我就是找不到任何有用的东西。RFID阅读器就像一个键盘，我可以知道它的名字。使用 RFID详细信息：为了澄清，用户必须能够不间断地使用程序(多种形式)，而来自RFID读取器的任何输入都必须记录在背景列表中。我是新的后台工作者，多线程和输入抓取，所以我将感谢一些详细的帮助。另外，请询问您是否需要从我的方面更多的细节。

浏览 0提问于2016-08-09得票数 2

2回答

我如何计算一个页面有多少出站链接？

、、

使用Ruby学习抓取。我正在尝试计算给定页面的出站链接数量，但我不确定如何告诉Ruby我只想要计算出站链接。我当前的代码： require "open-uri" # Collect info puts "What is your URL?" url = gets.chomp puts "Your URL is #{url}" puts "Loading..." # Check keyword count page = open(url).read link_total = page.scan("</a>&

浏览 2提问于2012-04-11得票数 1

回答已采纳

1回答

Python web爬虫多线程和多处理

、、、、

简单地说，我的网络爬虫有两个主要的工作。收集器和Crawler，收集器将收集每个站点的所有url项，并存储非重复的url。爬虫将从存储中获取urls，提取所需的数据并将其存储起来。 2台机器 Bot机器-> 8内核，物理Linux (这台机器上没有VM ) 带有群集的存储机-> mySql (VM用于集群)，2个数据库(url和data)；端口1和数据端口2上的url数据库目的:抓取100个站点，尽量减少瓶颈情况。第一种情况:收集器*请求(Urllib)所有站点，收集每个站点的url项，如果它不是重复的url，则插入端口1上的存储机器。爬虫*从存储端口

浏览 2提问于2013-07-11得票数 0

1回答

Python -使用多处理加速Web抓取

、、

我有以下功能来刮网页。 def parse(link: str, list_of_samples: list, index: int) -> None: # Some code to scrape the webpage (link is given) # The code will generate a list of strings, say sample list_of_samples[index] = sample 我有另一个脚本，它为列表中的所有URL调用上面的脚本 def call_that_guy(URLs: list) -> list:

浏览 1提问于2021-12-29得票数 0

回答已采纳

2回答

在刮伤蜘蛛中使用线程

、

在刮伤蜘蛛中可以使用多个线程吗？例如，假设我已经构建了一个爬行器，它可以抓取博客主题并保存其中的所有消息。我想将每个主题从一个池中耦合到一个线程中，然后这个线程将抓取所有所需的信息。每个线程都会以这种方式爬行不同的主题。

浏览 5提问于2015-04-06得票数 3

回答已采纳

1回答

AssetsLibrary和ImageView -setImage速度缓慢

、

所以这是一个相当奇怪的广告，我不确定是不是AssetsLibrary应用程序接口出了问题，但我不知道还会发生什么。我使用ALAssets在ALAssetsGroup上使用-enumerateAssetsUsingBlock方法加载一个数组。当它完成时，我正在加载一个自定义的图像滚动条。滚动结束时，我使用NSInvocationOperations从磁盘上的图片库加载当前可见视图(页面)的图像。一旦图像被加载和缓存，它就会通知代理，然后代理从缓存中抓取图像，并在滚动条的图像视图中显示它。一切正常，但是从实际调用-setImage:到它实际显示在屏幕上所花费的时间是无法忍受的--有时需要10秒

浏览 0提问于2010-07-14得票数 0

回答已采纳

1回答

Groovy中的爬虫(JSoup与Crawler4j)

、、

我希望在Groovy中开发一个web爬虫(使用Grails框架和MongoDB数据库)，它能够抓取网站，创建站点URL及其资源类型、内容、响应时间和重定向次数的列表。我正在就JSoup对Crawler4j的问题进行辩论。我读过他们的基本做法，但我不明白两者之间的区别。有人能建议哪一个更适合上面的功能吗？或者将两者进行比较是完全不正确的？谢谢。

浏览 2提问于2014-06-23得票数 8

回答已采纳

2回答

构建一个使用Node.js在浏览器中刮RSS的网页

、、、

我有一些编码经验，但对Javascript和web开发来说几乎是全新的。我试图构建一个网页，其主要功能包括从国家气象局(如)抓取RSS提要，然后解析输出以显示各种参数(温度、湿度等)。作为文本。我已经研究过了，似乎Node.js有几种不同的方法来抓取外部网页，并将源代码作为一个对象返回。然而，据我所知，Node.js是为服务器端应用程序设计的，而我想在人们可以访问的实际网站上使用它。我被困在以下几个方面：如何将Node.js功能集成到网页的代码中？Node.js脚本和其他依赖项是通过浏览器中的浏览器自动“工作”来打包的，还是还有更多？是否有一个自我包含的Javascript编辑器，允许我

浏览 3提问于2020-07-26得票数 1

回答已采纳

4回答

从XmlDocument对象线程读取数据安全吗？

、

我想知道是否可以安全地从多线程使用SelectNodes()和SelectSingleNode()读取XmlDocument对象，而不会出现任何问题。MSDN表示，不能保证它们是线程安全的。如果SelectNodes()和SelectSingleNode()确实存在从多线程运行的问题，我是否可以使用适当的锁定来避免任何问题？我有一个WCF服务设置，需要从数据库中抓取一块xml，并从这个xml中选择一些信息。我希望缓存xml以避免频繁访问数据库，但我担心线程安全和性能。有没有更好的方法来做这件事？谢谢

浏览 0提问于2009-11-10得票数 4

回答已采纳

1回答

用Promise.all实现木偶类多线程

、、、

我想请教一下我的想法。编写抓取机器人或在网站上执行某些活动的机器人(使用Puppeteer)时，我经常需要“某种”多线程功能，以便能够同时接近多个页面并在它们上执行某些操作，最好是同时进行。为此，我按照以下模式使用Promise.all()： const runInParallel = async(len) => { // create an array with a number of elements corresponding to required number of functions // to be performed at the same tim

浏览 35提问于2020-07-29得票数 3

1回答

多线程Spring-boot控制器方法

、、、、

因此，我的应用程序(spring-boot)运行非常慢，因为它使用Selenium抓取数据、处理数据并显示在主页中。我遇到了多线程，我认为让它运行得更快对我的应用程序很有用，但是教程似乎显示在具有main的普通java应用程序的设置中。我如何在我的控制器中多线程这个单一的方法？这些方法得到..都是selenium方法。我希望同时运行这4行代码 @Autowired private WebScrape webscrape; @RequestMapping(value = "/") public String printTable(

浏览 1提问于2020-07-17得票数 5

1回答

如何让PHP在使用代理后将其从.txt中删除

、

好的，所以我基本上想要的是，一旦"proxies.txt“的代理被使用，它就会被移动到像"used.txt”这样的文件中，所以只有新的未使用的代理保留在"proxies.txt“中，因为我的id抓取程序每次启动时都从列表的最顶端开始，并且每24小时只能从每个代理中抓取一次ID。 { switch(@$argv[1]) { case '0': default: $list = fopen('proxies.txt', 'r'); while(!feof($list))

浏览 1提问于2013-05-30得票数 0

1回答

如何同时运行两个for循环并根据输出做出决定

、、、

我试图在中同时运行两个for循环，并从每个循环中做出决定。循环在sql文件中搜索并抓取每一行进行比较。我试着把循环编织在一起，但没有成功。如果有人有关于如何做到这一点或如何实现多线程方法的建议。(我从未尝试过多线程) for row in rows: print(row) KnowNextRow = nextrowfinder(str(row)) print(KnowNextRow) for perrow in perrows: PerfectNextRow = perrow print(str(PerfectNextRow)) Search_Pr

浏览 17提问于2019-02-05得票数 4

回答已采纳