在Redis中插入5000万条记录的快速方法_在Postgresql中创建一百万条记录的最快方法？_在oracle pl/sql中，有没有更快的方法来每周合并12万条记录？ - 腾讯云开发者社区

erlang、redis

在尝试从Redis排序集读取100万条记录时，我突然遇到了性能问题。我使用ZSCAN与光标和批处理大小5K。代码是在承载Redis的同一台计算机上使用Erlang R14执行的。接收5K元素批处理需要近1秒。不幸的是，我未能在这台机器上编译Erlang R16，但我认为这并不重要。比较而言，Node.js代码与node_redis (hiredis解析器)在2秒内完成1M。Python和PHP的结果相同。也许我做错了什么？提前谢谢。这是我的Erlang代码： -module(redis_bench). -export([run/0]). -define(COUNT, 5000).

浏览 5提问于2014-03-22得票数 2

回答已采纳

3回答

大型MySQL数据库--该做什么，不该做什么？

mysql、database、linux、ubuntu

我有兴趣使用MySQL构建一个巨大的数据库(1亿条记录)，以包含1分钟间隔的股票数据。该数据库将包含5000只股票的数据，比如10年的数据。两个问题： (1)在过去，我遇到了“慢插入”的问题--意思是，一开始插入的速度是好的，但是当表被数百万条记录填满时，插入变慢了(太慢了！)。当时我用的是Windows，现在我用的是Linux --这会有什么不同吗？ (2)我知道索引技术可以帮助查询(数据检索)更快。问题是，有没有一种方法可以加速插入？我知道有人可以在插入时关闭索引，但是在插入后“建立”索引(对于上千万条记录！)也需要大量的时间。对此有什么建议吗？还有什么其他的注意事项吗？提前感谢您的帮

浏览 1提问于2011-02-12得票数 3

回答已采纳

3回答

读和写的基本概念

php、mysql、caching、nosql、redis

我有一个mysql数据库，里面有数百万条记录。我想用Redis来提高性能。我已经读过关于Redis和其中一些命令的文章。但我搞不懂瑞迪斯是怎么工作的。据我所知，我可以使用Redis缓存MySQL数据。但是自从最后一次缓存时间以来，Redis将如何了解新的记录。(我认为Redis也会从mysql获取数据来缓存它们--因此它是mysql的一个选择) 在mysql中插入foreach时，redis也应该更新，我不知道直接从mysql中选择是什么，而Redis也是从mysql中选择更新自己。(我不知道Redis是如何工作的，但我认为它是这样工作的) 有人能解释一下Redis缓存是如何工作的吗？

浏览 6提问于2013-11-24得票数 1

回答已采纳

2回答

如何使用StackExchange.Redis删除与指定键模式匹配的所有键？

redis、stackexchange.redis

我在Redis缓存中有大约15万个密钥，并且需要删除超过95%的密钥--所有匹配特定密钥前缀的键--作为缓存重建的一部分。据我所见，有三种方法可以做到这一点：使用server.Keys(模式)提取匹配我的前缀模式的整个键列表，并迭代每个键调用KeyDelete。在Redis集中维护一个键列表--每次我插入一个值时，我也会在相应的键集中插入键，然后检索这些集合，而不是使用Keys。这将避免昂贵的Keys()调用，但仍然依赖一个一个地删除数万条记录。将所有易失性数据隔离到特定编号的数据库中，并在缓存重建开始时将其完全刷新。我使用的是.NET和StackExchange.

浏览 4提问于2016-04-07得票数 3

4回答

Spring JDBCTemplate与Plain JDBC在插入大量记录方面的比较

spring、jdbc、jdbctemplate

我们必须在多个表中插入两百万条记录，现在我们正在写入CSV文件，并使用db2导入将其加载到数据库中。我们希望将此逻辑更改为某种JDBC。在研究多个选项时，我混淆了Spring JDBC模板和普通JDBC。假设我想要将100万条记录插入到10个表中，每个表将有10万条记录，并且所有这些都是简单的JDBC语句(不是准备好的语句，因为我不知道在运行时处理的是哪个表)。无论我们选择哪种系统，都需要为峰值请求插入多达1500万条记录。哪个框架会更好？

浏览 8提问于2010-12-14得票数 2

1回答

插入到已分区的表中需要很长时间

mysql、mysqli、bulkinsert、partitioning、load-data-infile

我的表结构如下： CREATE TABLE IF NOT EXISTS `dnddata` ( `numbers` varchar(10) NOT NULL, `opstype` char(1) NOT NULL, PRIMARY KEY (`numbers`) ) ENGINE=MYISAM DEFAULT CHARSET=latin1 /*!50100 PARTITION BY KEY (numbers) PARTITIONS 20 */; 当我将数据插入到这个表中时，花费了很长时间。插入300万条记录需要50分钟。我用过load data和insert into dndd

浏览 1提问于2012-07-18得票数 0

1回答

MongoDB如何在插入后管理数据？

mongodb

在将数据插入数据库后，我知道MongoDB将数据存储在文件中，但是，我对内存感到困惑。假设我将在db中插入5000万条记录--这些数据会加载到内存中吗？如果不是，MongoDB如何表现以保持其性能？

浏览 1提问于2016-06-16得票数 0

回答已采纳

1回答

将JSON数据插入Laravel文件

php、json、laravel

我用Laravel将JSON数据插入到一个文件中，我有30万条记录，我想用5000条记录来插入它们。 public function fileput($start,$end,$n) { $final = []; $res = DB::table('company') ->Where('company_id', '>',$start) ->Where('company_id', '<',$end)

浏览 0提问于2016-06-10得票数 0

回答已采纳

1回答

Liferay使用服务API导入数百万数据

liferay、liferay-service-builder、liferay-6.2

我有一个遗留的表，其中有大约170万条记录。根据建议，我正在使用Liferay的服务构建器api将这些记录插入到Liferay的表中，以使用Liferay的服务api来处理Liferay的表。最初，我使用(实体)LocalServiceUtil.getEntities(-1，-1)来获取所有记录并逐个插入，我意识到一次读取170万条记录是愚蠢的。然后我从数据库中读取增量为5000的记录。虽然这是有效的，但它也有自己的甜蜜时光。有没有其他方法可以让这个过程更快？或者，不同的delta值可以解决这个问题吗？

浏览 4提问于2015-05-18得票数 0

1回答

如何在mysql中管理每日5000条记录插入更新？

php、mysql、database、android-sqlite

我正在创建使用PHP MYSQL的出勤率项目，学校里有5000名学生。日5000条记录被插入数据库，因此每年(500x365) = 1825000条1年的记录。每天mysql数据库记录的大小都在增加，所以如何管理更多的数据。每天喜欢缺席，现在，离开等。状态正在插入。因此，请帮助我如何使用PHP MYSQL来实现这一最佳方法，并轻松地管理数百万条记录。

浏览 3提问于2016-10-10得票数 2

回答已采纳

1回答

将失败的记录复制到发电机数据库

hive、amazon-dynamodb

我使用配置单元脚本将5000万条记录复制到amazon dynamodb。脚本在运行2天后失败，出现项目大小超出异常。现在，如果我再次重新启动脚本，它将从第一条记录再次开始插入。有没有办法让我说“只插入那些不在发电机数据库中的记录”？

浏览 2提问于2015-02-11得票数 1

2回答

如何解决Redis的性能问题？

c#、redis、stackexchange.redis

我使用C#客户端"StackExchange.Redis“对Redis进行基准测试。dataset是一个包含近1600万条记录的文本文件。每个记录有六个条目，其中三个是双项，其余三个是整数。当我使用LPush (LPushRight in api)时，将所有数据添加到Redis需要将近4分钟的时间。之后，当我使用(LRange in api)检索数据时，检索所有列表几乎需要1.5分钟。我使用以下代码：连接： ConnectionMultiplexer redis = ConnectionMultiplexer.Connect("localhost"); IDataba

浏览 1提问于2017-08-21得票数 1

1回答

用于存储API用法的NoSQL或MySQL

mysql、mongodb、nosql、elasticsearch

我需要能够跟踪API的使用情况，以便在以后生成报告或图表。我一直在努力决定是否使用常规的MySQL，或者像MongoDB或Elastic之类的东西，因为我根本没有任何经验。我要插入的记录将是 user_id (int) request_time (datetime) ip_address(varchar) 我将需要计算每个user_id每一给定时间的总记录。我需要在给定的时间内从user_id获取所有的ips。我将每天插入约40万条记录。我需要确保这将能够处理每天至少一百万次的插入记录。插入被发送到队列服务器(Redis)，它将对我们决定使用的任何系统执行单个插入。您认为什么将是这

浏览 0提问于2018-11-13得票数 1

回答已采纳

2回答

可以快速插入300,000条记录的.NET数据提供程序？

.net、sql

我正在制作一个应用程序，能够显示日志文件和通过它们搜索，在C#中。我需要数据提供程序，可以插入30万条记录真的很快。有人有什么建议吗？我目前使用的是Microsoft Compact server3.5，运行速度非常慢。我尝试了sqlite，但它的执行速度很慢，因为我不能进行批量插入。

浏览 0提问于2009-07-15得票数 2

2回答

插入新记录的SQL脚本

sql、sql-server、stored-procedures

浏览 2提问于2014-03-04得票数 1

1回答

京都内阁/伯克利DB:哈希表大小限制

java、database、nosql、hashmap、berkeley-db

在我的SSD上，我很难用散列数组存储数亿16/32字节的键/值对。京都内阁的：当它正常工作时，它插入70000条记录/秒。一旦下降，它会下降到10到500条记录/秒。在默认设置下，这个下降发生在大约一百万条记录之后。查看文档，这是数组中存储桶的默认数量，因此这是有意义的。我把这个数字增加到2500万，实际上，它可以正常工作，直到大约2500万个记录。问题是，一旦我把桶的数量推到3000万或以上，插入率从一开始就下降到10-500个记录/秒。京都内阁的设计并不是为了增加数据库创建后的桶数，所以我不能插入超过2500万条记录。 1/为什么KC的插入率在桶数超过25M时会变得非常低？与伯克利DB

浏览 3提问于2012-10-24得票数 7

1回答

来自java的Redis基准测试

java、redis、jedis

我正在尝试比较Redis，Cassandra和MongoDB的NoSql数据库的性能。我使用java中的jedis来创建和读取records.Now，我插入了一千万条记录，并使用java System.currentTimeMillis()来获取读/写之前和之后的时间，以获得时间taken.Is。有没有其他方法可以获得这些操作所用的确切时间？

浏览 1提问于2014-06-09得票数 0

1回答

CPU 100%由于数以千计的待定压缩

cassandra、jvm

最近，我们从一个表中插入了数百万条记录并删除了数百万条记录，一个大小为10 GB的表被截断。我们使用SizeTieredCompactionStrategy运行两个节点，目前CPU利用率为100%，待定压缩正在增加，当前待定压缩为293144。任何用于降低CPU利用率和快速完成压缩的指针。

浏览 0提问于2015-08-07得票数 1

1回答

大型Redis设置

java、redis、jedis

我需要在Redis 3.0.1中存储3200万条记录，每个记录需要422 to左右。总共制作了大约13 of的信息。这些信息存储在压缩哈希列表中的光盘中，并以微笑杰克逊的形式序列化。我正在使用Java 6、Jedis和AIX。我有几个问题：这是否意味着Redis进程需要13 or或RAM？对于单个实例来说，这是一个可管理的大小，还是要进行集群设置？我想我们最多可以有4台服务器。这将意味着重新审视整个项目和日期，因此请考虑对此问题的其他管理影响。有更好的方法来存储这么多的数据吗？谢谢卡洛斯

浏览 4提问于2016-01-01得票数 1

回答已采纳

2回答

在gen_server中引发的Redis异常

erlang、redis

我试图使用gen_server在erlang的redis中插入10000条记录。但是，我得到了以下异常 exception exit: {connection_error,{connection_error,eaddrnotavail}} 注：- 在redis服务器上的端口范围就足够了。 Redis被配置为同时接受10000个连接。我还试着使用计时器:睡眠排除连接变得满的可能性。我正在启动连接，立即启动查询和关闭连接。从gen_server到redis的同步调用我正在使用eredis作为图书馆。我在redis中得到了大约200到500个插入错误。

浏览 3提问于2013-07-12得票数 0

回答已采纳

1回答

如何在插入数百万条记录时阻止Server中的日志增长

sql-server-2008

我有一个insert查询，需要插入5000万条记录，但是当我执行这个查询时，我的数据库日志文件会增长到100 of，并因为磁盘满而停止。如何防止日志文件的增长？

浏览 5提问于2015-11-16得票数 0

回答已采纳

1回答

ActiveRecord:：StatementInvalid: Mysql2:：Error:关闭MySQL连接

mysql、ruby-on-rails、delayed-job

我试图在MySQL中批量插入500万条记录，但得到了ActiveRecord::StatementInvalid: Mysql2::Error: closed MySQL connection错误。我正在使用延迟的作业来批量插入500万条记录到数据库中。出于测试目的，我点击了5个HTTP请求，每个请求都包含将100万条记录批量插入数据库的请求，因此总共有500万条记录将被插入到数据库中。我正在运行5个延迟作业的实例来执行批量插入。

浏览 1提问于2015-12-07得票数 0

4回答

在Oracle和MSSQL之间移动数百万条记录

sql-server、database、oracle、data-migration

我有一个Oracle数据库，它有一个表(30列，没有BLOB或LOB)，大约有。5000万条记录。我需要将数据移动到MSSQL中。MSSQL端的表结构将保持不变。移动大量数据的首选方法是什么？导出然后导入或写一个小应用程序来做加载？或其他方法(免费或商业工具)？

浏览 0提问于2013-01-10得票数 0

3回答

在Postgresql内存表空间中缓慢的插入速度

postgresql、insertion

我有一个需求，我需要以每秒10,000条记录的速度将记录存储到数据库中(在几个字段上建立索引)。一个记录中的列数为25。我正在一个事务块中批量插入10万条记录。为了提高插入率，我将表空间从磁盘更改为RAM.With，这样每秒只能实现5,000个插入。我还在postgres配置中完成了以下优化：索引:无fsync:false日志记录:禁用其他资料：表空间:RAM在一行中的列数: 25 (大部分为：4核心，2.5 GHzRAM : 48 GB ) 我想知道，当数据库没有在磁盘上写入任何东西(因为我使用的是基于RAM的表空间)时，为什么一个插入查询平均占用0.2毫秒。我做错什么了吗？帮助感

浏览 9提问于2010-05-28得票数 7

回答已采纳

1回答

从文件合并查询时，雪花query_history视图中的row_produced计数代表什么

snowflake-cloud-data-platform

我正在执行MERGE query来执行CDC操作。我有一个目标表，其中包含大约5000万条记录，而作为MERGE源的传入文件包含230条记录。表的ID和文件数据中的id列有一个简单的连接。执行之后，History视图显示插入的记录200和更新的记录30。然而，它显示的rows_produced为5K。我需要了解rows_produced在这种情况下做了什么。它是否显示作为join的一部分返回的行？如果是，那么它应该与文件的行数匹配。

浏览 18提问于2020-05-18得票数 0

1回答

插入数以百万计的行:索引是否与插入操作一起进行？

sql-server、index、update、bulk-insert

我正在用主键和非聚集键将5000万条记录插入到现有的表中。我的问题是，对这些现有索引的索引是否会随着insert操作一起发生。或者，是否必须在insert之后进行索引重建/重新组织，以保持索引的更新。我的假设是，当新记录出现时，数据页将得到更新，索引页也会更新。也许这是一个愚蠢的问题，但对于我在表中执行的大容量插入/更新之类的其他活动，我必须知道这一点。

浏览 0提问于2019-07-16得票数 1

2回答

从Server插入100万条记录到BigQuery表，并通过CDATA驱动程序链接

sql-server、database、sql-server-2008、odbc、google-bigquery

我需要将100万条(甚至更多)记录从Server表插入到BigQuery表中，该表作为“链接服务器”存在于Server中，通过中的远程处理守护进程作为“链接服务器”存在。此外，源表可能没有行数、Id等数的列。现在，我可以使用此驱动程序将每秒1记录插入到BigQuery中，使用以下查询： INSERT INTO [GBQ].[CDataGoogleBigQuery].[GoogleBigQuery].[natality] SELECT * FROM [natality].[dbo].[natality] GO 但是对于这么多的记录，比如一百万甚至更多，这是一个非常低的性能

浏览 6提问于2015-10-29得票数 0

1回答

在最终表中按时间和数量在PL/SQL中插入

oracle、plsql、plsqldeveloper

你好我正在将逻辑开发到PL/SQL中的应用程序，遇到了一个我无法解决的问题。我有一个阶段，将经常通过另一个应用程序。我需要将这个阶段的数据插入到最后一个表中，但是，有一些规则：规则1 ->I需要在一个时间窗口内发送具有此阶段的所有记录(不超过20万)，也就是说，如果该阶段在下午2时至3时之间有15万条记录，那么在下午3:01PM时，将在Oracle的最终表中进行数据插入；如果在此时间窗口内该阶段添加了20万条记录，则规则2 ->，即使时间窗口尚未结束，我们也将在这20万条记录的最后表中插入数据；例如，Rule 3 ->可能会发生这样的情况:舞台同时接收30万条记录。在这种

浏览 3提问于2021-11-22得票数 0

回答已采纳

1回答

在通过TTL过期密钥之前，redis是否可以检查条件？

redis

假设我在redis中有一个非常大的数据记录(键值)，TTL是根据某些业务规则(也存储在redis中)设置的，假设业务规则被更改了，因此记录不应该在以前设置的时间过期，而是应该根据新的时间过期。每次更新规则时，我不能简单地更改数百万条记录的ttl。我怎么能做到这一点？在redis中是否有一种方法，它允许我们提供一个脚本，以便在TTL满足时删除记录时运行。

浏览 4提问于2022-07-04得票数 1

1回答

Pentaho:恢复转换

pentaho

最近我遇到了一个问题。导致它的转换有一个“插入/更新”步骤，该步骤在一个包含超过2亿条记录的表上进行操作。在与数据库服务器的连接断开后，我手动重新运行了转换，在日志窗口中可以看到，该步骤重新检查了在连接断开之前已经下载的记录。我理解这是一步的逻辑行为。但是我没有机会下载所有的记录。有时这个过程会在1500万条记录之后停止，有时会在5000万条记录之后停止。如何处理这个问题？我考虑了自动递增主键值，并在连接丢失后保存最后一个主键值。或者在主键上对目标表的记录进行排序，找出空位，并用空位中的值恢复加载。但是，在Pentaho中是否有一些机制可以完成这项工作？

浏览 24提问于2019-03-13得票数 0

3回答

PHPMyAdmin / MySql -添加ID字段并自动填充ID编号

php、mysql、phpmyadmin、wampserver

我有一个非常大的数据库表--将近2000万条记录。这些记录没有唯一的ID号。所以，我插入了新的字段。现在，我想用ID号填充它，从第一个ID号10,000,001开始，递增1。仅供参考-我在一台本地机器上使用WAMP，我已经拨出了我所有的最大次数，直到5000秒，并拨出了php.ini和mysql.ini中的其他几个变量，以便在第一时间完成上传(这花了10多个小时！！)。在过去，或者使用其他DB时，我可能会将数据导出到excel中，然后生成一些文本粘贴回phpmyadmin中以更新记录。在处理5K记录，甚至100K记录时，这是可以接受的，但是对于2000万条记录，这似乎是难以管理的。提

浏览 1提问于2011-09-09得票数 8

回答已采纳

1回答

排序和过滤存储在Redis中的JSON文档

json、mongodb、clojure、redis

我正在考虑用Redis替换MongoDB来代替更新非常频繁的JSON数据存储(大约50000 upd/秒)。它可以包含多达一百万条记录。数据存储客户端现在正在使用MongoDB的查询语言来启用结果排序/过滤。结果集可能包含成千上万条记录。过滤后，可能只返回存储的JSON的特定子部分。 Redis提供了哪些功能来简化转换任务？我是否必须在应用程序代码本身中实现排序/过滤(我们将使用Java/Clojure)？

浏览 2提问于2015-09-03得票数 0

3回答

List的性能问题

c#、performance、list、for-loop

我在我的数据库中得到了一亿条记录，我需要随机更新所有有20个值的行。因此，每随机5000万条记录，就需要更新一个值。所以，我想要生成一个一亿个数字的列表，然后从这个列表中随机选择5000万条记录，然后从这个列表中删除5000万条记录等等。我的代码：列表创建： List<long> LstMainList = new List<long>(); for (int i = 1; i <= 999999999; i++) { LstMainList.Add(i); } 新空列表: List<TableData> Table1 = new Lis

浏览 0提问于2014-08-08得票数 1

回答已采纳

1回答

循环通过Laravel集合并使用Redis存储到键

php、arrays、json、laravel、redis

作为一个redis的业余爱好者，我可能用完全错误的方式来处理事情，人们确实怀疑我在给自己制造麻烦。话虽如此，我正在学习基础知识，并试图以我认为的方式实现结果。我在MySQL中有一个相当大的数据库，其中包含4000万条记录。由于我还不知道Redis的全部要点、导入方法和正确的数据结构，所以我想了一个基本的方法：使用laravel eloquent查询MySQL，循环遍历结果并调用redis set将值存储到键中。事情是这样的，数据库是OK邮政编码和地址，每个邮政编码包含许多地址。到目前为止，我的代码如下： $addresses = UkAddresses::where('

浏览 0提问于2016-12-09得票数 1

1回答

SQL server索引创建与启用索引

sql、ssis、sql-server-2008-r2、non-clustered-index

在sql server 2008 r2中有一个表，其中有大约5000万条记录。通过SSIS插入到表中需要花费很多时间，因为我在该表上有5个不能删除的非聚集索引。我想在ssis包运行之前和之后删除并创建索引，但这也需要很长时间。我想知道禁用和启用索引是否会给我带来更好的性能。

浏览 6提问于2015-07-21得票数 0

10回答

MySQL中的UUID性能如何？

mysql、performance、innodb、sequence、uuid

我们正在考虑使用UUID值作为MySQL数据库的主键。要插入的数据是从数十台、数百台甚至数千台远程计算机上生成的，并且以每秒100-40,000次插入的速度插入，并且我们永远不会进行任何更新。在我们开始剔除数据之前，数据库本身通常会达到5000万条记录，所以不是一个庞大的数据库，但也不是很小。我们也计划在InnoDB上运行，但如果我们正在做的事情有更好的引擎，我们愿意改变这一点。我们已经准备好使用Java的Type4UUID，但在测试中看到了一些奇怪的行为。首先，我们存储为varchar(36)，我现在意识到使用二进制(16)会更好--尽管我不确定会有多好。更大的问题是:当我们有5000

浏览 8提问于2010-03-03得票数 92

回答已采纳

1回答

如何训练具有大数据量和有限内存的模型？

python、tensorflow、machine-learning、data-science

这个问题很简单，但不知道如何在实践中实现它。我想用数据集训练一个tensorflow LSTM模型，它非常大(5000万条记录)。我可以将数据文件加载到本地机器，但由于内存有限，机器在预处理阶段崩溃。我尝试删除未使用的文件和垃圾回收来释放内存，但没有帮助。有没有办法，我可以单独训练一个tensorflow模型例如，该模型将被训练5次，每次只使用1000万条记录，然后在训练后删除1000万条记录，以释放内存内存。相同的过程将重复5次，以训练tensorflow模型。谢谢

浏览 21提问于2021-07-27得票数 0

1回答

如何确保内存消耗不会随着redis数据库的大小而缩放

mysql、memory、redis、jedis、nosql

我目前正在使用Jedis从redis数据库服务器获取数据。我需要把这些数据推到MySQL上。redis服务器中有数百万条记录。使用以下语句，我可以将数据复制到一个集合中： String pattern = "users*";//All keys starting with users Set<String> users = jedis.keys(pattern)//Read all the keys in to set 现在我的users集拥有所有的记录。但在redis数据库中可能有上百万条与我的模式相匹配的记录。这最终会消耗掉我所有的记忆。我怎么能做下面这样的事？

浏览 5提问于2015-04-27得票数 0

回答已采纳

7回答

当在MYSQL中输入约400万条记录时，浏览器崩溃。

php、mysql、insert、fopen、mysql-connect

我下载了一个导出为TXT格式的数据库，该数据库大约有700 to，记录为700万条(每行1条)。我制作了一个脚本将数据导入mysql数据库，但是当插入大约400万条记录时，浏览器就会崩溃。我已经在Firefox和IE中进行了测试。有人能给我一个意见和一些建议吗？脚本是： <?php set_time_limit(0); ini_set('memory_limit','128M'); $conexao = mysql_connect("localhost","root","") or die (mysql_

浏览 4提问于2009-08-22得票数 1

回答已采纳

1回答

一种适合海量数据的存储方法

mapreduce、rdbms、bigdata

对于非常大量的数据，您建议使用哪种类型的存储？(≈每天5000万条记录)。对于Hadoop或RDBMS这样的系统，这种情况是否仍然足以达到此目的？

浏览 0提问于2012-08-29得票数 0

回答已采纳

3回答

如何用excel从python数据框架中写入不超过100万条记录

python、pandas

我有一个有超过5000万条记录的python数据框架。我想把它们写到excel表中，每个工作表中不应该有超过100万条记录。

浏览 1提问于2018-07-09得票数 0

回答已采纳

1回答

在Orient DB中加速图形编辑器

orientdb

我正在使用orientDB (从2.2.0到2.2.6)我已经创建了图表模式并插入了大约5000万条记录(E和V)，我的问题是从web管理控制台编辑图表时的性能，问题渲染非常慢，缩放也很慢，也有很多次我得到 java.lang.OutOfMemoryError 当我查询大量记录时，例如。(从V限制10000中选择)，我的问题是是否有需要设置的配置或是否有任何错误。

浏览 2提问于2016-07-31得票数 0

1回答

在这种情况下，将数百万行插入到SQL表中的最快方法是什么？

c#、sql-server、sqlbulkcopy

案例场景如下。通过C#，我被迫调用外部服务器上的存储过程，每次调用它都会返回5000万条记录。每条记录都由几个用逗号分隔的字段组成，我必须将这些字段拆分并插入到另一台服务器上的数据库的表中。由于记录必须在插入之前进行处理，因此我认为应该排除使用SqlBulkCopy，因为它将按原样将数据写入到达表，而不是拆分。禁止将所有记录保存在一个数组上，因为运行.exe的计算机的内存不足以满足此目的。有什么想法吗？

浏览 0提问于2019-04-09得票数 0

1回答

如何从Azure SQL server大容量读取并在Camel中批量插入Cassandra

spring-boot、cassandra、apache-camel、spring-data-cassandra、camel-sql

我希望从Azure表中读取5+百万事件，并执行对Cassandra的大容量插入。该表有2列。我看到可以从Azure SQL DB读取的SQL组件。问题:使用Azure SQL DB 有没有更好的方法来读取所有的行，并将其存储在一张考虑到500万条记录的地图中？是否有可能分批读取消息？卡桑德拉有一个cql组件可用。问题:制作给卡桑德拉我们能分批插入吗？我能用骆驼做这个用例吗？

浏览 6提问于2021-08-17得票数 0

回答已采纳

1回答

火花驱动程序中的蜂巢记录处理

apache-spark、hive

在我的用例中，我有一个包含10万条记录的单元表。每个记录表示必须处理的原始数据文件。每个原始数据文件的处理将生成一个csv文件，其大小将在10 as和500MB.Ultimately之间变化，然后将这些CSV文件作为单独的进程填充到HIve表中。在我的企业集群中，在hdfs中生成大量数据仍然是不可取的。因此，我更喜欢把这两个单独的过程合并成一个过程，这样它们就可以处理，比如说，5000条记录和5000条记录。我的问题：- 考虑到我的rdd引用整个hive表，如何对每5000条记录执行原始数据处理步骤？(类似于每次增加5000条记录的for循环)

浏览 1提问于2017-08-28得票数 0

回答已采纳

1回答

如何提高Javascript的性能

javascript

我知道这个标题是相当通用的，但是我正在将100万条记录插入到一个AWS DynamoDB中，目前它采用了~30 minutes to load。我有100万条记录在内存中，我只需要提高插入项目的速度。AWS只允许发送25条记录的批次，但我所有的代码都是同步的。通常，我的数据在对象中有非常少量的数据(例如，具有数字id的3-5属性)。我从CSV读取了100万条条目，并将其存储在data数组中，然后执行以下操作： await DatabaseHandler.batchWriteItems('myTable', data); // data length is 1 Million

浏览 2提问于2022-11-10得票数 0

回答已采纳

1回答

MySQL vs Redis存储关注者/关注用户

mysql、redis、scalability、social-networking、event-driven

我正在尝试找到存储关注者/关注用户数据的最佳候选者，我最初考虑将其存储在Redis中，其中user ->用户ids集，但后来我想到了这样的场景，一个用户有超过100万甚至1000万关注者，Redis如何处理如此庞大的集合？此外，我也没有办法在redis中对集合进行分页，我必须检索整个集合，如果用户想要浏览跟随他的人，这将不起作用。如果我将它存储在MySQL中，我肯定可以进行分页，但是当我必须构建用户提要时，可能需要很长时间才能从数据库中获取1000万条记录，我可以以旧的批量方式做到这一点，但当有许多追随者的用户发布内容时，这听起来仍然非常痛苦，然后处理这1000万条记录将永远花费时间来获

浏览 1提问于2013-03-25得票数 0

2回答

WSO2企业服务总线6.1.0批处理

wso2、wso2esb、wso2-am、wso2carbon、wso2dss

我有一个要求处理1000万条记录在MS SQL数据库中使用WSO2企业服务总线。输入文件可以是XML或平面文件。我已经创建了WSO2企业服务总线中提供的数据服务。现在，我启动了从XML读取并插入到MS SQL数据库的过程，我希望在处理过程中通过ESB提交每5000条记录，这样如果5001记录失败，我可以从5001记录而不是0重新开始处理。第一个问题是，所有记录都会同时提交。我想以这样的方式配置它，它应该处理5000条记录，在数据库中提交，然后继续下一组记录。此外，如果批处理作业在处理10000条记录后失败，我希望批处理作业从100001条记录开始处理，而不是从0开始请提出一些想法。谢

浏览 0提问于2018-07-12得票数 0

5回答

如何从mysql数据库中添加arraylist中超过5000万条记录

java、out-of-memory

从数据库添加到数组列表中的记录超过5000万条。我添加了30,000,000条记录，显示堆内存不足错误。

浏览 0提问于2014-01-16得票数 2

3回答

如何在规模上进行数据去重复？

database、algorithms

我需要开发，或至少概念化一个模块，以进行有效的数据去重复。比如说我们已经有上百万的数据记录了。插入另外100 mn记录，确保在结果数据集中没有重复记录，这是模块需要做的，在顶层。现在，这可能意味着在决定记录是否重复的字段(S)上进行比较。但是当我们谈论数百万条记录的时候，这种方法，连续地采取，实在太天真了。你认为可行的方法是什么？哈希？利用分而治之的算法开发并行性？我脑子里有这些东西，但是在这么大的比例下，它真的会让人头晕。另外，请在我可以使用的Web上发布任何指向资源的指针--我只能找到辩论和供应商在谈论他们数据库的“最高数据去重复功能”。

浏览 0提问于2011-09-12得票数 7

回答已采纳