爬虫导入mysql数据库_mysql爬虫数据库_mysql储存爬虫数据库 - 腾讯云开发者社区

、、

我有一个码头-撰写文件如下所示，它有2个容器。一个是Python，另一个是MySQL爬虫应用程序，它可以读取/写入数据库。当我做docker-compose up时，我看到：数据库容器构建，然后构建应用程序容器，然后运行app容器上的CMD (例如启动爬虫)，然后根据停靠-组合文件中的环境变量在DB容器中初始化数据库。<code>g 210</code> 我的问题是，为什么在DB容器中创建数据库之前，我的爬虫脚本还在运行？如何确保在运行爬虫脚本之前已经创建了数据库？ version: '3.7' services: db:

浏览 5提问于2020-02-05得票数 1

3回答

Python web crawler与MySQL数据库

、、、、

我想创建或找到一个用Python编写的开源网络爬虫(爬虫/机器人)。它必须找到并跟踪链接，收集元标签和元描述，网页的标题和网页的网址，并将所有的数据放入一个MySQL数据库。有谁知道可以帮助我的开源脚本吗？此外，如果有人能给我一些关于我应该做什么的建议，那么他们将非常受欢迎。

浏览 4提问于2011-08-11得票数 6

回答已采纳

2回答

在两个共享数据库的独立程序中使用ORM

、

我有一个应用程序，分为两个主要部分：用Python编写的网络爬虫用Golang编写的REST 他们共享一个MySQL数据库，该数据库主要由web爬虫填充/更新，然后通过REST读取。我想在双方都使用ORM，以使与数据库的交互更容易，但现在我不确定这是否是一种好方法。在Python方面，我考虑使用小淘气，而对于Golang，我将使用戈姆。维护两组ORM模型文件似乎不是个好主意，每当我想要更改数据库的某些属性时，都必须更改每组文件。此外，我担心两个or在争夺数据库的结构时，可能会出现冲突，或者模型可能与实际的db结构不同步。在这种情况下，使用ORM会带来比其价值更大的麻烦吗？或者我应该

浏览 0提问于2015-10-13得票数 2

1回答

如何将Python Scrapy扩展的数据插入到MySql数据库表中？

、、、

我正在为Python Scrapy构建一个扩展，以获取爬虫相关的详细信息，如开始时间、结束时间、爬虫状态(打开、关闭或活动)。现在我需要在我的MySql数据库表中存储当前的时间戳。有人能帮我吗？我需要一个代码来连接MySql数据库从剪贴画代码，并做数据库相关的查询，如插入，选择等。谢谢..

浏览 3提问于2013-10-14得票数 0

2回答

AWS Glue爬虫如何排除oracle模式或oracle表？

客户计划使用Glue爬虫排除oracle模式或oracle表？ Glue爬虫不支持Oracle和MySQL数据库的/数据库/模式/表，我尝试了许多不同的模式来排除oracle模式或oracle表，但结果并不是预测的。如何设计Oracle数据库或MySQL数据库的排除模式？包括-模式:测试/% 测试是oracle服务的名称。我添加了以下模式以排除模式APEX_030200和WWV凝视表： APEX_030200.WWV* APEX_030200* test_apex_030200_wwv* test.APEX_030200.WWV_* test.APEX_030200.

浏览 10提问于2020-12-25得票数 1

2回答

在网站和独立应用程序中使用Django框架

、

我计划为它写一个网络爬虫和一个基于网络的前端(或者至少是它找到的信息)。我想知道是否可以使用Django框架让网络爬虫使用与网站相同的MySQL后端(而不是让网络爬虫本身成为“网站”)。

浏览 1提问于2009-06-04得票数 1

回答已采纳

1回答

Python -无法导入本地库

、

我有一个刮擦的爬虫，我想在我的爬虫中使用当地的图书馆。下面是我的目录模型：有两个重要文件db/base.py和/爬虫/蜘蛛/adilisik.py 这是base.py from sqlalchemy import create_engine from sqlalchemy.ext.declarative import declarative_base from sqlalchemy.orm import sessionmaker Base = declarative_base() engine = create_engine("mysql+pymysql://xxx:

浏览 1提问于2017-01-28得票数 1

1回答

向远程MySQL提供数据的模式

、、

我想从社区中听到一个很好的模式来解决下面的问题。我有一个“无所不包”的服务器，它是were服务器，mysql，爬虫服务器。由于使用监视工具的两三周时间，我发现当我的爬虫运行时，我的平均负载总是超过5(一个4核心服务器，可以一直使用到4.00作为负载)。所以，我有另一台服务器，我想把我的爬虫移到那里。我的问题是。一旦我在我的爬虫服务器中爬行数据，我必须插入我的数据库。我不想打开远程连接并将其插入数据库中，因为我更喜欢使用Rails框架，顺便说一句，我使用rails，以便更容易地创建所有关系，等等。有待解决的问题：服务器，有爬行的数据(一堆csv文件)，我希望将它移动到远程服务器，并使用ra

浏览 2提问于2011-05-01得票数 0

1回答

防止在mySQL中选择同一行

、、、

我的任务是创建一个“海量爬虫”，它完全依赖于数据库中的代理。以下是我试图实现的目标的一个简单概述： 1 x CronJob引导文件-这个文件发送50个并行curl请求到单个爬虫文件。 1x单个的Crawler文件-这应该是从数据库中获取一个唯一的行(代理)，而另一个进程还没有选择。我已经看过TRANSACTIONS和mySQL，但我仍然认为这样做不会有帮助，因为查询将在每个单独的爬虫进程完全相同的时间执行。以下是我在脑海中对个人爬虫文件的想法： $db = new MysqliDb("localhost", "username", "

浏览 1提问于2015-02-03得票数 1

回答已采纳

1回答

如何为带有boto3的AWS爬虫指定胶水版本3.0？

、、、

我有一个现有的AWS胶水爬行器，它的胶水连接器连接到一个成功运行的MySQL数据库。我需要将它移动到胶合v3，以便它使用更新的MySQL JDBC驱动程序(Glue 2.0作业使用MySQL JDBCDriverVersion5.1，而AWS 3.0使用MySQL JDBC驱动程序8.0.23)。爬虫是用boto3 3的glue_client.update_crawler创建/更新的。爬行器设置为使用JDBC胶水连接器，该连接器也是用boto3创建的，并且没有glue_version参数。关于boto3 3的胶水客户端爬虫函数的文档不包括GlueVersion选项。我在控制台中也没有看到任何

浏览 8提问于2022-12-02得票数 1

1回答

如何使用perl存储和显示ISO-8859-1和UTF8字符

、、、、

我对此很陌生，对大多数人来说，这可能很容易，但我已经为此挣扎了好几天。我正在使用perl编写一个web爬虫，web爬虫将使用LWP和一些简单的正则表达式提取某些信息。这些信息保存在mySQL数据库中，该数据库将在安卓设备上使用。然而，当我测试网页爬虫时，我意识到有些信息是用HTML数字编码(&# 20856；&# 33775 ;)用中文(典華)，而有些信息是使用iso-8859-1编码(Zhífú)。我使用PERL：：Entities库解决了中文部分，当我将控制台设置为utf8时可以显示该库。然而，其他字母(Zhífú)只能显示在iso-8859-1中。如果我试图在utf8

浏览 4提问于2011-09-09得票数 3

回答已采纳

1回答

如何从网站的数据库中抓取链接？

、、

我是搜索引擎新手，我发现googlenews非常有趣。我想写一个简单的爬虫只解析三个不同新闻网站的文章链接。将链接保存在数据库(mysql)中，并使用链接在网站上公布的时间戳(而不是爬虫检测到链接的时间)。如您所知，新闻网站每天都会生成链接(我想基本上解析它们的所有链接(不仅仅是今天打印的链接，还包括生成before...and的所有链接--所有这些链接都保存在新闻网站数据库中)。我不知道我想爬的新闻网站使用的是哪个数据库，我也没有访问它的权限。那么googlenews如何能够解析所有新闻网站的所有文章链接，包括很久以前生成的链接呢？googlenews可以访问

浏览 4提问于2014-06-06得票数 3

回答已采纳

3回答

Cassandra、Hadoop Hive或MYSQL？

、、、

我正在开发一个网络爬虫，它对存储数据有好处吗？我在我的MySQL数据库中有1TB的过去6个月的数据，我需要索引它们，我需要尽快在我的搜索中输出数据，我认为，它将存储更多的数据，比如10Peta Byes，因为我的爬虫运行得很快，我需要快速获得读/写操作，我需要将其集成到我的PHP中

浏览 0提问于2010-08-18得票数 3

回答已采纳

1回答

控制台中的AWS Glue控制列顺序

、、、

我刚刚开始尝试AWS glue，我已经能够成功地将数据从我的Aurora MySQL环境拉到我的PostgreSQL DB中。当爬虫程序为我正在试验的表创建数据目录时，所有列的顺序都打乱了，然后当作业创建目标表时，列再次打乱了顺序，我认为这是因为它是根据爬虫程序生成的内容创建的。如何使目录中的表结构与源数据库中的表结构相匹配？

浏览 0提问于2018-07-27得票数 2

3回答

无法连接到数据库

、

可能重复：我正在尝试用于网站的PHP爬虫。我一步一步地完成了每一件事，并为MySQL创建了用户和数据库。然后也与用户连接到数据库，但它显示了一个错误。 Warning: mysql_connect() [function.mysql-connect]: Access denied for user 'switsolu_kll'@'localhost' (using password: YES) in /home/switsolu/public_html/crawler/_db.php on line 43 Cannot connect to dat

浏览 2提问于2012-07-15得票数 0

1回答

GCP (Google ) VM停止工作。我该怎么补救？

、、、

我有一个，我正在运行一个网络爬虫。不幸的是，爬虫在一段时间后不会向数据库添加任何条目。如果我想连接到VM以了解问题所在，我就无法连接(通过Putty和Google自己的界面)。但是在GCP接口上，它说服务器仍然在运行。如果我停止VM并再次启动它，就好像什么都没有发生一样，但是过了一段时间，同样的错误再次出现。有人有解决办法吗？

浏览 0提问于2020-01-15得票数 1

1回答

是否有一种工具或任何快速方法可以从我的php代码中自动提取db表？

、、、、

我最近开始重新设计一个PHP-mysql项目，这个项目是大约7年前创建的。我只有php和html代码，没有mysql数据库或任何显示数据库结构的文档。有什么工具可以帮助我使用php文件提取我的数据库表吗？在php文件中，我有插入查询和选择查询以及更新。我想到了一个工具(这样的爬虫)，它将我的php文件作为输入，并创建一些sql创建表查询作为输出。

浏览 9提问于2022-06-04得票数 2

回答已采纳

2回答

MySQL中可以存储多少数据？

、

我只是MySQL的初学者，我需要知道在MySQL中可以存储多少数据。我正在开发一个网络爬虫，我可以将所有的数据存储在MySQL中吗，或者我需要使用另一个数据库？哪个更快？我的意思是，哪一个具有最高的写作/阅读速度？是否需要重新配置才能添加更多数据？

浏览 0提问于2010-08-06得票数 9

回答已采纳

2回答

Scrapy Piplines处理数据

、

我想用scrapy编写一个爬虫，在我写完爬虫文件，项目文件，管道文件等后，我想将数据保存到数据库中，但我发现项目‘’url‘的数据类型实际上是字符串类型，字符串包含列表，我无法获得里面的数据，我找不到问题所在。 import pymysql from . import settings class JumiaspiderPipeline(object): def __init__(self): self.conn=pymysql.connect( host=settings.MYSQL_HOST, db=settings.MYSQL_DBNAME,

浏览 22提问于2018-09-05得票数 0

回答已采纳

1回答

将结果投到mysql中的站点爬虫/蜘蛛

、、

有人建议我们使用mysql进行站点搜索，因为它将运行在承载web服务器(nginx)和db (mysql)的同一台服务器上。因为并不是所有的页面都是从数据库中创建的，所以有人建议我们有一个爬虫，可以抓取站点，并将页面url和数据丢到mysql中，并在上面有sphinx索引。有没有人知道开放源码蜘蛛，它有一个mysql存储选项。谢谢。

浏览 0提问于2010-02-22得票数 4

回答已采纳

2回答

如何在mysql或phpmyadmin中导入(.dmp)数据库格式？

、

如何在mysql或phpmyadmin中导入(.dmp)数据库格式？我正在使用phpmyadmin mysql工具进行数据库管理。我已经收到了.dmp格式的数据库备份，我已经要求导入数据库在phpmyadmin作为mysql数据库格式。

浏览 8提问于2013-10-24得票数 3

1回答

码头-撰写:只发送一些流量通过另一个容器(vpn)

、、

我有一个应用程序，包括一个爬虫和一个MySQL数据库。我想通过VPN时，我做我的爬虫，但然后不使用VPN时，我连接到我的DB。我设法让我的应用程序容器通过我的VPN容器发送所有流量，但现在我无法连接位于本地主机的DB。我尝试过使用主机地址localhost、127.0.0.1和db的容器名，但它们都不起作用。我如何通过我的VPN容器路由一些流量，和一些流量只是正常的？这是我的对接者撰写文件： version: '3.7' services: db: image: mysql:8 restart: always en

浏览 0提问于2020-02-06得票数 1

3回答

检查MySQL表中是否已经存在URL的最快方法是什么？

、

我有一个在MySQL数据库中存储varchar(255)的URL列。此列具有唯一索引。当我的爬虫程序遇到URL时，它必须检查数据库以查看该URL是否已经存在。如果该条目存在，crawler将选择有关该条目的数据。如果该url不存在，则crawler将添加该url。我目前使用下面的代码来做这件事： $sql = "SELECT id, junk FROM files WHERE url = '$url'"; $results = $this->mysqli->query( $sql ); // the file al

浏览 1提问于2011-12-07得票数 0

1回答

Opensearchserver数据库爬行

、、

我有一个MySQL表(tbl_test)，包含4列-- id、url、title & description。表中有39409行。我想把这个表索引到Opensearchserver v1.5.3中，我用'web爬虫‘模板创建了一个新的索引，我的数据库爬虫设置如下： General settings 名称： test_crawl 驱动程序类： com.mysql.jdbc.Driver JDBC url: jdbc:mysql://localhost/test_db 隔离级别： TRANSACTION_READ_COMMITTED 用户：根密码：··· 语言：英语缓冲区大小：

浏览 3提问于2014-06-09得票数 0

回答已采纳

1回答

Python web爬虫多线程和多处理

、、、、

简单地说，我的网络爬虫有两个主要的工作。收集器和Crawler，收集器将收集每个站点的所有url项，并存储非重复的url。爬虫将从存储中获取urls，提取所需的数据并将其存储起来。 2台机器 Bot机器-> 8内核，物理Linux (这台机器上没有VM ) 带有群集的存储机-> mySql (VM用于集群)，2个数据库(url和data)；端口1和数据端口2上的url数据库目的:抓取100个站点，尽量减少瓶颈情况。第一种情况:收集器*请求(Urllib)所有站点，收集每个站点的url项，如果它不是重复的url，则插入端口1上的存储机器。爬虫*从存储端口

浏览 2提问于2013-07-11得票数 0

1回答

自动增量ids中的MySql间隙

我写了一个爬虫，它在mysql中保存了大量的记录。偶尔会有一些自动增量is丢失，并且有1到200个is的缺口。我没有从数据库中删除任何东西，因此我有点惊讶。有人知道为什么会发生这种事吗？

浏览 3提问于2014-08-10得票数 0

回答已采纳

5回答

使MySQL表唯一

、、、

嘿，我创建了一个爬虫来爬行PDF文档，并将文档中的每个单词记录到MySQL数据库的表中。显然，'the'，'and'，'or‘等词在一本书中出现了很多很多次。我想知道从表中删除重复值最快的方法是什么？

浏览 0提问于2009-09-30得票数 0

回答已采纳

2回答

带有最佳可定制爬虫和抓取器的建议

、、、

我有一个网站，这是相当好，但与非常少的信息。所以我想添加一些信息，比如关于特定领域的新闻(比如政治、好莱坞等)。我相信爬虫是最好的方法吗？如果我的理解是正确的，请建议您是否有任何其他方法来获取信息，而不使用来自各种来源的爬虫。其次，我正在做过去两天的研究，但我找不到一个特定的来源能够做到这一点。现在我希望爬虫找到信息，规范化并存储在mysql数据库中。听起来很简单哈。但这不适合我。因为这非常耗费资源和时间。在选择爬虫之前，我应该考虑哪些因素。我也希望定制它，所以任何工具，这是开源的，很好地被定制将是伟大的。任何提供信息和研究因素的来源在创建爬虫或教育爬虫时都需要考虑，这将是很棒的。我更喜

浏览 0提问于2010-11-11得票数 0

3回答

crawlers是否可以更新AWS Glue中导入的表？

、

我正在熟悉AWS Glue中的爬虫。我从Athena导入了一个数据库目录，并希望每天爬行这些表的数据位置，以便在添加数据时自动更新它们的分区。然而，我的爬虫似乎只创建新的表，与从Athena导入的表是分开的。它们似乎不会更新我现有的表。有没有办法做到这一点？在他们的文件里没看到任何提及。

浏览 0提问于2017-10-27得票数 1

1回答

设置crawler4j指南

、、

我想建立爬虫爬行一个网站，让我们说博客，并只获取我在网站中的链接，并粘贴在文本文件中的链接。你能一步一步地引导我安装爬虫器吗？我在使用Eclipse。

浏览 4提问于2011-02-16得票数 5

2回答

如何连接到MySql数据库以创建移动应用程序？

、、、

我有一个java脚本，它像爬虫一样工作，并将数据保存在MySql DB中。我想做的是建立一个移动应用程序(Andriod/ios)，这将连接到mysql数据库检索结果，并只是显示给用户。实现这一目标的最佳方法是什么？我尝试使用Flex UI和PHP作为我的服务器客户端，但希望知道是否有更好的解决方案？

浏览 3提问于2014-02-23得票数 0

3回答

导出和导入mysql数据库的最佳实践是什么？

、、

我一直在一个涉及Mysql和PHP的项目中工作。在创建测试包时，我将mysql数据库作为sql文件从MySql工作台导出，并使用以下命令导入到linux机器的mysql服务器 mysql>source mydatabase.sql; 这是导出和导入mysql数据库的正确方式吗？数据库文件还包含创建模式、插入数据和创建索引脚本。导入此文件需要很长时间。我的直接经理建议我不使用索引导出，然后导入数据库，然后执行索引创建脚本。这是正确的方式吗？导入数据库时索引是否需要很长时间？提前感谢！

浏览 5提问于2014-09-05得票数 0

1回答

如何将外部数据存储添加到AWS Glue Crawler

、、

对于新的爬虫程序，我希望从外部MySQL数据库中提取数据，我可以使用主机、用户名和密码远程访问该数据库。在Glue中，我不得不配置数据存储。JDBC似乎很接近，但它需要VPC安全组和子网，而我没有，因为数据库是外部的(不在我使用的同一个AWS帐户中)。有没有办法绕过这件事，或者我可能做错了什么？

浏览 68提问于2020-04-06得票数 0

4回答

获取搜索关键字周围的div (file_get_contents('url') )

、、、

所以我创建了一个网络爬虫，一切都正常，只有一个问题。使用file_get_contents($page_data["url"]);，我可以获得网页的内容。当我的关键字之一出现在网页上时，将扫描此网页。 $find = $keywords; $str = file_get_contents($page_data["url"]); if(strpos($str, $find) == true) 当我想要将数据插入到mysql数据库中时，我只需要关键字在其中的div中的信息。我知道我必须使用DOM，但我是domdocument领域的新手。示例：

浏览 1提问于2010-09-09得票数 0

回答已采纳

4回答

AWS GLUE数据导入问题

、

这里有一个excel文件testFile.xlsx，如下所示： ID ENTITY STATE 1 Montgomery County Muni Utility Dist No.39 TX 2 State of Washington WA 3 Waterloo CUSD 5 IL 4 Staunton CUSD 6 IL 5 Berea City SD OH 6 City of Coshocton OH 现在我想将数据导入到AWS GLUE数据库中，AWS GLUE中的爬虫已经创建，运行爬虫后AWS GLUE数据库中的表中没有任何内容。我猜应该是AWS

浏览 1提问于2017-11-29得票数 2

1回答

MYSQL连接大字符串

、

我有一个网络爬虫，它在抓取网络时将信息保存到数据库中。在执行此操作时，它还会将其操作及其遇到的任何错误的日志文件保存到mysql数据库的日志字段中(字段将变为64kb到100kb之间的任意位置。它通过连接(使用mysql CONCAT函数)来实现这一点。这似乎工作得很好，但我担心它对mysql数据库的cpu使用率/影响。我已经注意到，web爬行的执行速度比我实现将日志保存到数据库之前要慢。我从一个管理网页上查看了这个日志文件，除了加载速度慢之外，当前的实现似乎工作得很好。有没有什么加速的建议，或者实现的建议？

浏览 3提问于2012-07-18得票数 1

回答已采纳

6回答

如何锁定对MySQL表的读/写，以便在没有其他程序读写数据库的情况下选择并插入？

、、、

我正在并行运行许多many爬虫实例。每个爬虫从表中选择一个域，将url和启动时间插入到日志表中，然后开始对域进行爬行。其他并行爬虫在选择自己的域之前检查日志表以查看哪些域已经被爬行。我需要阻止其他爬虫选择刚刚被另一个爬虫选择但还没有日志条目的域。我对如何做到这一点的最佳猜测是，当一个爬虫选择一个域并在日志表中插入一行(两个查询)时，锁定来自所有其他读/写的数据库。一个人是怎么做到的？恐怕这是非常复杂的，而且依赖于许多其他的东西。请帮我开始。这段代码似乎是一个很好的解决方案(但是，请参阅下面的错误)： INSERT INTO crawlLog (companyId, timeStar

浏览 10提问于2011-07-08得票数 38

回答已采纳

2回答

访问通过web crawler存储的.lck和jdb文件

、、、

我目前使用作为我的网络爬虫的选择，我试图自学网络爬虫是如何工作的。我已经开始爬行了，我希望它能在下面的根目录(/ crawlStorageFolder / crawl /crawlStorageFolder)中快速返回爬行过的数据 public class Controller { public static void main(String[] args) throws Exception { /* * crawlStorageFolder is a folder where intermediate crawl data is

浏览 1提问于2012-09-23得票数 0

2回答

与多个小脚本相比，使用一个大脚本更好吗？

、、

我在学习爬行着巨蟒的网络。我有一个有很多URL的CSV文件。使用python2.7和selenium，我目前正在抓取这些网站的数据，如:车身宽度(以像素为单位)、HTTP响应、页面加载速度和meta name="viewport"标记。然后，我将脚本的结果导出到CSV文件中，每个列都包含提取的数据类型(参见下面)。我计划通过编写新的爬虫来提取更多类型的数据。我的当前脚本如何将数据导出到CSV文件-> CSV文件，如下所示： Website | body width | HTTP response | load speed (in secs)

浏览 2提问于2017-03-10得票数 1

回答已采纳

1回答

MySQL -更新与我是SELECTing相同的记录

、

我正在编写一个网络爬虫。所有链接都存储在MySQL数据库中。因为我将在多个节点上运行爬虫程序，所以我需要尽可能快地将URL设置为“正在爬行”，以保持高效。我的网络爬虫是用C#编写的。现在，它下载URL和ID，然后将URL设置为使用ID爬行。问题是它需要两个不同的查询。有没有办法把它们结合在一起呢？下面是我当前的代码： string stm = "SELECT * FROM pages WHERE IsCrawled = 0 LIMIT 1;"; MySqlCommand cmd = new MySqlCommand(stm, conn); cmd.ExecuteScalar

浏览 1提问于2014-03-02得票数 0

1回答

是否将Wordpress条目从MS SQL迁移到MySQL？

、、

我有一个旧的WordPress博客，是与MS数据库后端运行。不再支持用于WordPress的MS SQL数据库提供程序。我们设置了一个全新的WordPress安装，并将其指向一个新的MySQL数据库。我需要将博客条目从旧的MySQL数据库迁移到新的MySQL数据库。有没有能做到这一点的插件？我做过的唯一一件事就是把一个MySQL数据库迁移到另一个。

浏览 19提问于2016-08-30得票数 0

回答已采纳

1回答

用于有效导入的Django ImportError

、

我认为最好用一点代码来解释这一点。请注意，数据之间稍微有点奇怪的关系是一种黑客攻击，可以让内联处理多到多个关系。应用程序"data“具有以下models.py： from crawler.models import CrawlJoin class Website(models.Model): hack = models.ForeignKey(CrawlJoin, null=True, blank=True, editable=False) 该应用程序“爬虫”有以下models.py： from data.models import Website class CrawlJ

浏览 3提问于2016-11-05得票数 0

回答已采纳

2回答

爬行时管理URL的常见方法是什么？

我正在尝试编写一个网络爬虫程序，但现在我想知道:存储所有urls的最佳方法是什么，这样爬虫就可以一起工作，但不会干扰。示例：爬虫1找到一个包含100个URL的页面。爬虫2找到一个没有任何URL的页面。爬虫1和2共享爬虫1发现的100个URL 我的想法(两种不同的方法) 让Crawler扫描页面寻找新的URL 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue( Crawler )中一旦Queue变得太大(例如，最大大小的80% )，就将URL外包给数据库让Crawler保存Analyzer，并在之后

浏览 5提问于2011-12-28得票数 0

回答已采纳

1回答

如何将AWS RDS与AWS胶连接？(VPC)

、、、、

我已经创建了一个进程，将数据从我的MySQL数据库导出到AWS，然后再导出到AWS。因此，我能够创建一个爬虫，并通过AWS Glue Studio修改数据。现在，我想将数据写回我的MySQL数据库。MySQL数据库位于VPC网络中。但是，在阅读了教程和文档之后，从10多个小时开始，我就很难将MySQL数据库连接到AWS。我所做的：跟随跟随 self-security-group 创建一个安全组，分配给与其关联的 ID : All TCP，目的：将新的安全组分配给我的RDS实例向S3添加了一个VPC端点使用以下权限创建了一个新的IAM角色： AWSGlueServiceRole A

浏览 5提问于2022-01-11得票数 2

1回答

抓取大容量插入

、

我有一个爬虫，从多个网站获取数据，并更新到mysql表的信息。我使用scrapy编写的crawler.The爬虫将插入/更新大量的列。是否可以批量插入/更新scrapy中的项目？

浏览 0提问于2015-02-07得票数 0

1回答

用于爬虫应用的数据库系统

、

我在一个基于java的爬虫上工作。我想在我的爬虫恢复功能，用户可以在任何时候暂停爬虫，在他想要的情况下，爬虫崩溃的情况下，他应该能够开始从爬虫停止的点上一次爬行。为此，我必须在数据库中存储所有outlink (在任何页面找到的链接)。我不确定哪个数据库是最好的这类系统，因为它需要非常快的插入和检索的链接从数据库和频率插入和检索将非常高。很少有人建议我像mongodb那样使用no-sql，但我只想确保它是这类系统的最佳选择。

浏览 2提问于2012-01-06得票数 1

回答已采纳

1回答

Rails会为网络爬虫和机器人创建会话吗？

我想知道会话是否是由网络爬虫和机器人请求的页面创建的。我使用MySQL作为会话存储，并希望防止网络爬虫和机器人的请求创建不必要的会话条目。

浏览 0提问于2011-04-03得票数 3

1回答

Google Crawl错误-无法访问的错误

、

我的网站已经成功通过了谷歌站长的验证。我对robot.txt的爬虫访问也是200次(成功)。然而，当我检查“爬行错误”时，几乎每个页面都是“无法访问的”，包括域主页本身。唯一没有错误的页面是附件/文件页面(例如pdf、xls、jpg等)。这真的很奇怪。我的网站是由Ruby on Rails使用MySQL数据库创建的。

浏览 0提问于2011-03-07得票数 0

回答已采纳

2回答

使用用户登录从其他网站导入用户帐户数据

、、、

和从和其他日常交易网站访问用户帐户及其日常交易。这些网站要求用户提供他们的凭据以登录到各自的网站，然后导入帐户详细信息。LivingSocial和其他交易网站不提供对用户帐户的应用编程接口访问。我也想这样访问其他网站，并从那里导入数据。但是我找不到和从Groupon和LivingSocial等导入数据的后端进程。到目前为止，我能够发现网络爬虫/蜘蛛可以用来从网页上删除数据。但我不确定网络爬虫在我们需要用户登录并且页面urls是加密的，或者至少是动态生成的urls的情况下是否有用。请帮助我，并建议我做这件事的方法。如果爬虫是这个问题的解决方案，请提供一些我可以在我的.net应用程序中使用的

浏览 4提问于2011-09-09得票数 0

回答已采纳