如何编写代码来读取输出文件，以计算出它在抓取网站上走了多远，然后从它停止的地方开始

python、for-loop、web-scraping、http-error

我正在编写一个程序，从这个网站的存档和导出到csv文件中的每一篇文章的标题，日期和正文。这个网站似乎在某个时候屏蔽了我，我得到了这个错误: HTTPError:服务不可用。我相信这是因为我试图在短时间内访问他们的网站太多次了。我希望我的代码能够读取错误发生的地方，并从它停止的地方继续。我试着在看完10篇文章后添加延迟2秒。我还

浏览 13提问于2019-07-02得票数 0

1回答

解析并与混淆的javascript进行交互

python、screen-scraping、mechanize、web-scraping、deobfuscation

我正在尝试与一个HTML4.0网站交互，该网站使用高度模糊的javascript来隐藏常规的HTML元素。我想做的是填写一张表格并读取返回的结果，这比预期的要困难。当我使用Firebug阅读页面时，它给了我去模糊处理的源代码，然后我可以用它来完成我想要完成的任务。Firebug输出显示网站的所有常规元素，如-t

浏览 2提问于2011-10-22得票数 1

1回答

在spark scala数据帧中迭代时，如何存储指向“从您停止的地方开始”的指针？

scala、apache-spark

假设我有一些正在读入的数据帧，每次我都想按排序的列显示前2行。下一次我读取该数据帧时，我不想从头开始，而是从上一次停止的地方显示下两行。我想我需要创建一些二进制指针列，告诉它在哪里开始/停止，当它到达结束时，它应该回到开始。在第一次遍历时，输出应该是前两行Mike和Kevin： ? 在第二次遍历时，输出应该是下

浏览 15提问于2020-11-06得票数 0

1回答

libusb笔驱动器中的批量传输

linux、linux-device-driver、libusb、usb

dev_handle，unsigned char端点，unsigned char * data，int length，int * transferred，unsigned int超时)r = libusb_bulk_transfer(dev_handle, (2 | LIBUSB_ENDPOINT_OUT), data, 4, &actual, 0); //my device's

浏览 3提问于2012-11-22得票数 0

2回答

LZW (Limpel-Ziv-Welch)字典编码分隔符问题

dictionary、compression、encoder、lzw

我之所以这样做，是因为我不能假设输出直接流到解码器，并可以存储在压缩文件中稍后解码(在这种情况下，解码器将需要某种方法来检测是什么分隔码字-分隔符)。我最近被告知这是不必要的，解码器应该能够动态地“计算出”每次读取多少压缩文件，假设是基于以前读取的代码。这将消除在每个代码后插入一个额外字节的(代价高昂的)需求。我只是不确定解码器是怎么弄明白的。

浏览 0提问于2011-04-20得票数 3

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

python、beautifulsoup、scrapy、web-crawler

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

3回答

关于读取50 to文件(并将其重写为16K文件)的建议！

perl

为了避免读取内存中的所有内容，我只编写了一个Perl脚本，该脚本打开15K个文件(矩阵的每一列一个文件)，然后读取输入文件的完整行，并将每个数字写到其相应文件的末尾(第一个数字表示输出文件column事情看起来很有希望:代码只使用恒定的178MB的RAM，最初的测试只使用了输

浏览 1提问于2011-05-03得票数 4

3回答

有时候，Xcode会遇到一个错误--但与其抛出一个正确的“程序结束”并给我一个描述，我所得到的只是一个“暂停”视图，就像我设置了一个断点。我看到的只是一个巨大的堆栈跟踪，我可以按几百万次“执行程序”函数，每次向前移动一次。它所做的就是让我沮丧，磨损我的履带。我想知道是否有任何方法可以使用这个Stack跟踪，或者我是否可以将跟踪向前移到“真正的”问题，或者从它中提取一个人可用的描述。有时，异常断点有助于防止堆栈跟踪，

浏览 5提问于2014-03-31得票数 3

回答已采纳

3回答

如何标记文件中的行？

tcl

我有一个文件test1：Par2 Par4 Par5 我制作了这个Tcl来过滤它： set is_Par3 0 }close $thefile我有这样的结果：Par5但我想要这样的<

浏览 0提问于2012-07-26得票数 1

回答已采纳

6回答

如何将多个员工博客中的条目合并到单个RSS提要中

sharepoint、rss

我们当前的SharePoint环境将Mysites设置为单独的站点集合，用户可以在其中创建自己的博客。了解这些个人博客是一个真正的挑战，我通常在第一次访问时抓取RSS提要，然后在Outlook中查询。为了帮助非技术人员，我们希望能够将我们门户上一些顶级(常规)博客作者的条目合并到一个提要中，然后可以用来从Outlook订阅或在门户上的页面上显示。任何关于如何做这件事的想法都将非常

浏览 2提问于2009-03-24得票数 5

回答已采纳

2回答

是否需要为每个目标站点编写抓取器？

python、html、web-scraping、beautifulsoup、html-parsing

我是个刮东西的新手。我写了一个刮板它将擦伤 Maplin 商店。我使用Python语言和BeautifulSoup来抓取存储。我想问的是，如果我需要清理一些其他的eCommerce商店(比如亚马逊、Flipkart)，我是否需要定制我的代码，因为它们具有不同的HTML ( 和名字是不同的，另外还有其他东西)。所以，我写的刮板不适用于其他eCommerce商店。我想知道比价网站是如何从所有在线

浏览 40提问于2014-12-28得票数 7

回答已采纳

1回答

Google :同一个应用程序项目中不止一个HTML或脚本文件？

google-apps-script

场景:开发一个简单的应用程序来解决我在接触一种新语言时经常使用的一些编程问题。将每个问题放在一个单独的页面上。将css和javascript放在单独的文件中。这在一开始很好。第一个问题是均值问题的统计平均值。我找到了他们从电子表格中读取数据的初始模板，修改了模板以显示数据，然后从那里开始。CSS很简单，并且包含在文件中。<em

浏览 2提问于2013-06-02得票数 1

1回答

使用来自其他页面的内容更新Google网站

python、google-apps、google-apps-script

我想在我的Google网站上包含一些来自我们内部网页面的内容，我可以想出两种可能的方法来做到这一点。理想情况下，由于它只是我想要从内联网页面抓取的文本，我想编写一个Google应用程序脚本来从我的内联网上的站点读取HTML，并解析HTML以提取我想要在该站点上拥有的文本。我已经有了从内联网中提取所需内容的本地脚本，我只需要找到一

浏览 0提问于2012-02-11得票数 0

回答已采纳

1回答

Scrapinghub: Dict_key错误处理|检查密钥是否存在

python、python-3.x、dictionary、scrapinghub

利用Scrapy，我列出了多个网络抓取器，唯一的功能是创建m3u播放列表。从不同的视频托管网站，我刮标题，视频源流URL，如果网站特别是被刮还需要它的类别是部署到抓取集线器。然后，我使用一个for循环来获取每个项目的job.keyfor item in job.i

浏览 0提问于2017-04-18得票数 0

1回答

使用HDFS在不同python进程之间共享资源(文件)

python、hdfs、race-condition、ioerror

因此，我有一些代码试图在HDFS...if上找到一个资源--它不在那里--它将计算该文件的内容，然后编写它。下一次访问它时，读者只需查看文件。这是为了防止昂贵的重新计算某些功能。希望这个时间表能证明我认为我的问题是什么显然，我希望进程BB会

浏览 5提问于2015-08-06得票数 5

回答已采纳

1回答

双向popen()在C中的Mac上工作吗？

c、pipe、popen

我的C程序不得不反复地：读取外部程序标准输出的结果。如果我使用一个实际的文件来存储输入/输出，然后使用system()或类似的文件，我可以很容易地做到这一点，但是

浏览 0提问于2017-05-18得票数 5

4回答

如何始终如一地读取间歇硬盘？

c#、c++、c、hardware、hard-drive

我有一个错误的硬盘，间歇性地工作。冷启动后，我可以访问它大约30-60秒，然后硬盘驱动器失败。我愿意写一个软件来备份这个驱动器到一个新的更大的磁盘。为了更好地兼容API/库，我愿意用C/C++编写这篇文章。我需要对我的文件处理程序进行一些控制，以检查它们是否仍然有效，我需要一些东西来返回坏数据，但是如果驱动器在复制过程中失败，则返回。也许C#会给我最好的结果，如果我滥用“硬编码”

浏览 4提问于2009-09-20得票数 2

回答已采纳

4回答

如何在行尾添加文本

c、csv

例如，我将test.txt与test2我的代码是： if (ch == '\n')我的输出是：newTexttest1newText test2newText

浏览 0提问于2017-10-22得票数 3

1回答

使用正则表达式和libgit2搜索模式

c++、regex、git、libgit2

我有一个应用程序，该应用程序生成一个进程，以便通过运行以下命令在git存储库中的特定提交中查找特定正则表达式的出现：这是很好的工作，但问题是，我是在一个循环，这是非常缓慢的。我在Linux上分析了代码，仅对__libc_fork的调用就占用了94%的运行时间。显然，我想避免这种不必要的开销。我可以想象手动遍历与提交相关的所有文件并执行搜索，但我希望有一个更

浏览 4提问于2016-04-27得票数 1

回答已采纳

1回答

Python:如何将两个空行之间的文本读入字符串

python、text、subtitle、srt

我的问题是，我不知道如何:读取一个文件，首先分析文本在文本开头和第一行之间，然后在空行和下一行之间，直到文件的末尾(例如，通过计算其中一部分的长度，将另一个部分转换为数字等)。从文件的开头开始，每个字幕(包含其编号、持续时间信息和文本)与下一个字幕用空行分隔( "\n"，我可以用if "\n" in line and len(line) ==

浏览 11提问于2014-10-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

解析并与混淆的javascript进行交互

在spark scala数据帧中迭代时，如何存储指向“从您停止的地方开始”的指针？

libusb笔驱动器中的批量传输

LZW (Limpel-Ziv-Welch)字典编码分隔符问题

BeautifulSoup和Scrapy crawler有什么区别？

关于读取50 to文件(并将其重写为16K文件)的建议！

在Xcode中堆栈跟踪的意义是什么？

如何标记文件中的行？

如何将多个员工博客中的条目合并到单个RSS提要中

是否需要为每个目标站点编写抓取器？

Google :同一个应用程序项目中不止一个HTML或脚本文件？

使用来自其他页面的内容更新Google网站

Scrapinghub: Dict_key错误处理|检查密钥是否存在

使用HDFS在不同python进程之间共享资源(文件)

双向popen()在C中的Mac上工作吗？

如何始终如一地读取间歇硬盘？

如何在行尾添加文本

使用正则表达式和libgit2搜索模式

Python:如何将两个空行之间的文本读入字符串

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐