我需要一个强大的Web Scraper库

文章/答案/技术大牛

发布

4回答

c#、.net、web-crawler、web-scraping

我需要一个强大的网络挖掘库从网络上挖掘内容。既可以付费，也可以免费，两者对我来说都很好。请建议我一个图书馆或更好的方法来挖掘数据并存储在我喜欢的数据库中。我已经找过了，但我没有找到任何好的解决方案。我需要专家的好建议。请帮帮我。

浏览 2提问于2010-12-07得票数 29

1回答

使用Web::Scraper从.onion站点中刮取

perl、proxy、scrape、tor、torsocks

问题:使用网站：：刮刀从tor .onion站点上刮走现行守则：my $piratelink=$PIRATEBAYSERVER.'/search/' .'/0/7/0';

浏览 1提问于2016-04-17得票数 1

回答已采纳

2回答

分离Subversion存储库并创建部署策略

linux、svn、model-view-controller、repository

我的网站有两个独立的组件:网站(MVC)和基于php cli的scraper。这两个组件共享公共模型文件，但部署在不同的服务器上。现在，它们都使用相同的存储库。我期待外包的刮板开发，但我希望保持在房子的网站发展。因此，我认为最好的方法是为网站、scraper和共享文件建立单独的存储库。但是，我

浏览 2提问于2011-08-20得票数 0

3回答

我想从playstore获得应用程序的版本号

flutter、web-scraping、jsoup、html-parsing

在android中，我们使用JSOUP依赖项从playstore获取版本号，但在颤栗中无法找到备用版本。

浏览 3提问于2020-03-26得票数 0

1回答

在Moose中创建一个Web::Scraper对象作为class属性

perl、moose

我正在尝试具体地模仿，这个属性：has 'worker' => ( isa => 'Web::Scraper', scraper(sub { });); 但是，当我将相同的代码放入我的</e

浏览 16提问于2017-02-01得票数 4

回答已采纳

2回答

用于访问和检索信息的Perl或MySQL

html、mysql、perl、parsing

我试图检索几个网页以便我可以操纵他们的信息。我正在寻找什么是最好的工具和软件包来做这件事。最好是使用Perl来解析表，但是我也可以使用MySQL，尽管我必须学习它。(我相信它们是HTML表，尽管页面是用Java编写的。) 我要求的不是任何代码，而是关于我如何做到这一点的意见、建议和建议。目前，我的意图是解析这些表，合并它们，并构建一个表，其中包含

浏览 1提问于2014-06-05得票数 0

回答已采纳

1回答

winform not浏览器未被替换

c#、winforms、class、browser、webbrowser-control

在我的Form1中，我初始化了一个类scraper。在scraper类中有一个函数login。其思想是，该类将用户登录到网站上，并返回web浏览器，以便在Form1中可以使用登录的webbrowser控件。到目前为止，我已经掌握了以下代码：Form1{ Scraper sc

浏览 0提问于2013-08-07得票数 0

回答已采纳

1回答

如何在函数返回0之前禁用PyQt4中的按钮(或整个主窗口)

python、pyqt、pyqt4

我有一个web刮刀脚本，让我们称它为scraper.py，它将数据写入数据库。我用显示数据库内容的tableWidget制作了gui。现在，我添加了一个按钮，它将从scraper.py脚本调用main()函数。由于scraper正在使用selenium，并且花费了大约20秒来完成所有操作(从打开浏览器到关闭它)，我希望在scraper.py完成之前禁用该按钮(或者

浏览 2提问于2015-11-22得票数 0

回答已采纳

4回答

Python - Cloudflare阻止的请求

python、python-3.x

我正在尝试登录一个网站。当我查看print(g.text)时，我得到的不是我期望的网页，而是一个cloudflare页面，上面写着“访问前检查您的浏览器”。

浏览 1提问于2018-03-04得票数 10

回答已采纳

3回答

在rails中返回数组并存储它

mysql、ruby-on-rails、arrays

我知道这听起来可能是一个“简单的问题”，但我是rails的新手，我不知道我的应用程序结构是否正确。 class JPG < ActiveRecor

浏览 1提问于2013-08-30得票数 1

1回答

如何修复无法加载这样的文件- Nokogiri (LoadError)在c9.io中？

ruby、rubygems、nokogiri、cloud9-ide

我正在为Ruby使用Cloud9 IO。我运行了包安装。甚至安装了宝石。但我还是会发现这个错误。猩红花：~/workspace/nokogiri_ ruby (主)$ruby web_scraper.rb web_scraper.rb require': cannot load such fileusr/local/rvm/rubies/ruby-2.3.0/lib/ruby/2.3.0&

浏览 0提问于2016-10-03得票数 0

2回答

我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API？

java、database、json、screen-scraping、data-mining

我要做的是创建一个美国所有酒吧的数据库。我需要这个数据库半定期更新(大约每周)，以包括新开的酒吧。 yelp api的问题是他们只返回20个结果。在我周围5英里的范围内有800多家酒吧。我如何才能现实地实现我的目标？

浏览 0提问于2011-01-18得票数 1

2回答

使用Web::Scraper提取javascript

javascript、html、perl、parsing

我在使用Web::Scraper提取javascript时遇到了问题。下面是我的测试脚本：use Modern::Perl;use Data::Dumper; my $scraper = scraper { process &quo

浏览 1提问于2013-05-22得票数 1

2回答

Heroku和Web抓取

ruby、web-services、api、heroku、sinatra

我有一个nokigiri网络爬行器，它发布到一个数据库，我正试图发布到heroku。我有一个sinatra应用程序前端，我想从数据库中拉入它。我是Heroku和web开发的新手，不知道处理这种事情的最好方法。我是不是必须将上传到数据库的web scraper脚本放在sinat

浏览 1提问于2013-07-12得票数 7

3回答

如何使用Web::Scraper仅从一个表中进行选择？

css、html、perl、css-selectors

我想从网页中提取只用于标题节点对象方法的文本。： process "table.reference > tr > td > a", 'renners[]' => 'TEXT'; print $res2->{renners}[$i];} 我得到了所有标签的<

浏览 0提问于2013-02-01得票数 1

2回答

为什么"context.Apify“没有定义

javascript、node.js、apify

我正在学习如何在Apify Web-Scraper中使用request，我不明白它是如何工作的。我首先用Postman做了这件事，我确实得到了我想要的结果，现在我想在Apify上做同样的事情。headers: { Accept: 'application/json' }, payloa

浏览 20提问于2019-09-02得票数 0

回答已采纳

2回答

如何在python可执行文件中使用os.system()？

python、shell、cmd、pyinstaller

我需要在python可执行文件中运行这个命令instagram-scraper "+ username +" --media-metadata --media-types none，正如您所看到的，下面是我用来这样做的代码，当我像py test.py那样运行它时，它运行得很好，但是当我使用PyInstaller命令：pyinstaller -F test.py、将它转换成一个可执行文件之后，它不工作，并且它不会返回任何错误import os def

浏览 7提问于2021-08-01得票数 0

回答已采纳

3回答

从网站中存储信息

c#、web

我想创建一个应用程序，以保存在网页上提供的一些信息的历史记录。一个页面会是什么样子的例子：所以我想的是，把浏览器放在表单中，然后导航到一个页面，然后点击一个按钮将信息保存在页面上，在反代码中，它将选择选定的页面，查看源或其他东西，并选择适当的数据并将其存储。我想要获得的数据是: Team1、Team2、每个团队的胜利者和百分比以及赌注的

浏览 0提问于2015-08-14得票数 1

回答已采纳

1回答

Selenium“无法连接到HTTPS URL，因为SSL模块不可用

selenium、selenium-webdriver、anaconda

我有一个安装了selenium的anaconda环境。当我尝试运行时，我得到这个错误： Traceback (most recent call last): File "c:\Users\Nick\Desktop\Code\product-scraper"C:\Users\Nick\anaconda3\envs\web-scraper\lib\site-packages\webdriver_manager\chrome.py", lin

浏览 158提问于2021-02-28得票数 0

回答已采纳

1回答

如何从URL域调用正确的类

python、python-3.x、class-variables

目前，我一直在创建一个web爬虫，在这里我想调用正确的类，从给定的URL中抓取web元素。目前，我创建了：import tldextract scrapers = {} scraper.scrape(reque

浏览 1提问于2021-05-24得票数 0

回答已采纳

点击加载更多