C++在文件中拆分记录？_在nifi中使用拆分记录处理器拆分xml文件_在多种产品风格之间拆分c++文件 - 腾讯云开发者社区

hadoop、pipe、mapreduce

我正在尝试使用map/reduce来处理大量的二进制数据。这个应用程序的特点如下:记录的数量可能很大，因此我并不想将每个记录作为单独的文件存储在HDFS中(我计划将它们全部连接到一个二进制序列文件中)，并且每个记录都是一个大的连贯(即不可拆分)的blob，大小在1 MB到几百MB之间。这些记录将由C++可执行文件使用和处理。如果不是因为记录的大小，Hadoop Pipes API应该没问题:但这似乎是基于将输入作为连续字节块传递给map/reduce任务，这在本例中是不切实际的。我不确定做这件事的最好方法。是否存在任何类型的缓冲接口，允许每个M/R任务以可管理的块形式提取多个数据块？否则，我

浏览 0提问于2010-10-26得票数 1

回答已采纳

1回答

如何在SSIS中将1个平面文件导入多个表

ssis

我在Server 2008和SSIS (投标)中工作。我有一个平面文件，我想通过键入其中一个列将其导入到几个表中。每个键的列数各不相同。例如，假设我有一个平面文件，其中有两种不同的记录类型--记录类型A和记录类型B。所有“记录类型A”的记录都有5列。所有记录类型B的记录都有10列。第1列保存所有记录的记录类型标志(例如，'A‘或'B')。因此，在导入这个1平面文件时，我希望所有'A‘记录都进入我的'A’表，而我希望所有'B‘记录进入我的'B’表。如何在SSIS中实现这一点？如果1平面文件被分割成两个单独的平面文件，那么我可以为每个文件

浏览 2提问于2014-12-25得票数 0

回答已采纳

1回答

Camel LoadBalancing和故障转移处理

jboss、apache-camel、jbossfuse

我在一个项目中工作，我们需要解析一个大小大于2 2GB的文件，并将数据加载到DB中。我计划使用Camel拆分器将文件拆分成50个不同的文件，然后使用Apache camel处理每个文件。我的问题是：如果在处理其中一个文件时，camel路由失败，那么我如何停止camel路由并使用文件名在DB中对其进行审计。可能会发生这样的情况:一些记录被处理并上载到数据库，而对于特定的记录，它无法加载到数据库中。因此，我们需要将此特定记录记录到其他文件中。此外，在处理过程中，如果由于网络故障而停止支持数据库操作，则在这种情况下，文件处理将不完整。那么如何处理这种不完整的文件处理场景，因为只有剩余的记录应该

浏览 4提问于2014-12-05得票数 0

9回答

Node.js -获取当前文件名

node.js

如何获取当前文件名、函数名、行号？我想将它用于日志记录/调试目的，相当于c++中的__FILE__、__LINE__。

浏览 2提问于2013-01-08得票数 142

1回答

在Hadoop中使用Avro输入格式控制拆分大小

hadoop、mapreduce、avro

我必须读取在HDFS的Avro文件中序列化的avro记录。为此，我使用了AvroKeyInputFormat，因此我的映射器能够使用读取的记录作为键。我的问题是，我如何控制分割大小？对于文本输入格式，它包括定义以字节为单位的大小。在这里，我需要定义每个拆分将包含多少条记录。我想像管理一个大文件一样管理输入目录中的每个文件。我必须使用CombineFileInputFormat吗？它可以和Avro一起使用吗？

浏览 1提问于2013-06-12得票数 0

1回答

SSIS:如何确定条件拆分中的列数

ssis

我在SSIS工作。我分裂一个管道分隔的，引号限定的平面文件为单独的平面文件.平面文件是粗糙的，也就是说，由于记录类型不同，列的数量也会有所不同。我有三种记录类型-- A，B和C。A有2列，B有3列，C有4列。平面文件连接管理器只有1列定义了[Column 0] (在该列中，我将整行读取为1列)，以便进行列计数。在平面文件源之后有一个条件拆分，它确定每种记录类型是否有正确的列数。那些有缺陷/多余列的记录被写入一个错误的平面文件中。对于每种记录类型，我的条件都非常简单： LEN([Column 0]) - LEN( REPLACE([Column 0], "|", "

浏览 6提问于2015-10-30得票数 0

回答已采纳

1回答

如何使用Hadoop处理大型XML文件？

xml、hadoop

我有一个包含600K记录的3 GB XML文件，我需要使用Hadoop每天处理该文件。基本上我需要将这些记录存储在Hbase中。执行此操作的有效方法是什么？我是否应该拆分文件并让多个映射器处理这些文件？你能推荐一种快速拆分的方法吗？谢谢。

浏览 2提问于2013-09-20得票数 0

3回答

使用c++在unix上打开文件

c++、unix

我试图在c++中打开一个文件，运行程序的服务器是基于tux的。 string filename = "../dir/input.txt"; works but string filename = "~jal/dir1/dir/input.txt"; fails 当提供的文件名是第二种格式时，有没有办法在c++中打开文件？

浏览 0提问于2009-05-31得票数 8

回答已采纳

1回答

当数据库中已经存在任何记录时，PutDataBaseRecord不会插入任何记录。

apache-nifi

我使用PutDataBaseRecord在NIFI中将CSV文件的数据插入到数据库表中。在第一次执行时，一切都进行得很顺利，因为表中没有数据。然后修改文件，使其包含新记录和现有记录。PutDataBaseRecord由于现有记录(主键约束)而失败，但它没有插入新记录。是否有任何方法来配置处理器来指示它插入新的记录而忽略那些失败的记录？我附上了我的处理器配置的图片。提前感谢！

浏览 2提问于2019-05-09得票数 1

回答已采纳

1回答

SparkContext.newAPIHadoopFile应用编程接口是否并行读入和处理单个文件？

apache-spark、pyspark

我需要使用Spark将一个巨大的未压缩文本文件(>20 to )读取到RDD中。文件中的每条记录都跨越多行(每条记录不超过20行)，所以我不能使用sc.textFile。我正在考虑使用带有自定义分隔符的SparkContext.newAPIHadoopFile。然而，由于文件相当大，我很好奇读取和解析是分布在多个Spark executors上，还是只在一个节点上发生？文件内容如下： record A content for record A content for record A content for record A record B content for record B

浏览 29提问于2019-08-06得票数 0

2回答

SSIS =-如何根据记录类型(头、细节、拖车)处理带有可变列数的CSV输入文件

ssis

我需要能够处理一个输入文件，其中有3种类型的记录由第1列(RecordType)中的值指定： H=header record D=Detail T=Trailer 我想我想将所有的详细记录转换到一个dest db表中。我认为头记录和预告片记录，其中包含指定文件创建时间的控制信息(头信息)和记录计数/检查和信息(在预告片中)也应该转移到单独的表中。 H,2011-06-02 D,value1,value2,value3,1 D,value1,value2,value3,2 D,value1,value2,value3,3 D,value1,value2,value3,4 T,4, 10 作为一个

浏览 4提问于2011-06-09得票数 2

回答已采纳

2回答

将多条记录加载到marklogic服务器

rest、marklogic

如何使用RESTapi将一个文件中的多条记录上传到marklogic服务器。我尝试插入简单的json格式的文件。 [{"Id":100000,"Name":"Dennis"}, {"Id":100001,"Name":"Andrea"}, {"Id":100002,"Name":"Robert"}, {"Id":100003,"Name":"Sara"}] 但是，它给了我一个单一的记录。如何将其转换为

浏览 3提问于2014-11-25得票数 2

1回答

如何从c++项目生成标记文档？

markdown、doxygen

我正试图为一个复杂的c++项目创建文档。为了做到这一点，我开始使用DO2，这对我的使用是合适的，因为我只需要注释我的项目的标题就可以获得HTML中的完整文档。这个文档工作得很好，风格也很好。但这是我的问题，我想把这个文档放在一个Markdown文件中，以便能够把它推到Gitlab上。我尝试使用moxygen将xml文件转换为md文件。它可以工作，但不像我想的那样正确:由moxygen自动生成的锚不起作用。表示也是一个问题，例如，它将定义列表放在文件的顶部，这是非常长的，在文档中并不是最有用的。那么，我想知道是否有一种方法来记录我的代码，就像使用DO2一样，但是得到一个适当的标记文件(锚

浏览 0提问于2018-04-03得票数 2

回答已采纳

1回答

Apache Camel拆分器，支持hazelcast seda队列

apache-camel

我正在尝试执行一个文件导入过程，其中在给定文件夹的子目录中选取一个文件，该子目录标识该文件所针对的客户端，然后对记录进行解析、拆分，并将其发送到Hazelcast SEDA队列。我希望在从Hazelcast SEDA队列中读取每个记录时对其进行处理，然后它将返回一个状态代码(已创建、已更新或已出错)，该状态代码可以聚合。在第一次拾取文件时，我还创建了一个作业记录，并希望使用创建、更新和错误的最终计数来更新作业记录。下面的JobProcessor创建此记录，并在邮件的标头中设置客户端组织和作业对象。CensusExcelDataFormat读取一个Excel文件并为每一行创建一个Employ

浏览 2提问于2017-09-28得票数 1

1回答

将C++类重新格式化为其他文件

c++、class、header-files

我一直在用c++编写一个相当基本的日志记录类。现在我需要将类移出我的主文件，但我不知道要将什么放入头文件中。我最困惑的地方在于我的日志级别的枚举。下面是我的代码： #include <iostream> class Log { public: enum Level { LevelError, LevelWarning, LevelInfo }; private: Level LogLevel = LevelInfo; public: void set_level(Level level) { LogLevel =

浏览 10提问于2020-04-22得票数 0

1回答

绑定DNS记录文件

linux、domain-name-system、bind、dynamic-dns、nsupdate

在过去的2周里，我每周都会添加大约10个DNS A记录。在使用nsupdate更新记录之后，我突然想到，也许我应该找到一种方法，将DNS A记录与区域文件中的其他记录分开。这个是可能的吗？或者总是必须在同一个区域文件中拥有所有的A记录。我想我可以有多个区域文件。但是，如果我使用nsupdate添加这些A记录，那么将100个DNS记录添加到一个文件中就容易多了，让区域文件引用A记录文件，然后创建一个新的A记录。而不是创建多个区域文件所有这些都是理论上的，可能行不通。有什么建议吗？

浏览 0提问于2015-03-26得票数 2

回答已采纳

1回答

是否将参数从.dat文件读取到C++？

c++、file、variables、input

网上似乎有很多关于如何从C++的文本文件中获取输入/输出的资源，但我找不到任何关于如何使用参数来实现的建议。例如，我有一个读取一组参数的文件，如下所示： NbProducts = 10; NbPlates = 3; NbPositions = 6; MaxPositions = 3; Demand = [6907,14342,36857,40961,61129,69578,72905,91977,93969,97336]; 如何将其作为变量放入C++程序中？非常感谢您提前给予的帮助。

浏览 0提问于2014-10-18得票数 0

2回答

如何将大sql转储文件拆分为小块，并在原始文件中维护每个记录，尽管以后会删除其他记录。

sql、database、split、mysqldump、csplit

下面是我想要做的事情(MySQL示例)：仅倾销结构- structure.sql 转储所有表数据- data.sql 拆分data.sql并将每个表数据信息分开文件- table1.sql、table2、sql、table3.sql .tablen.sql 将每个表分割成较小的文件(每个文件1k行) 在本地git存储库中复制所有文件。全力应对远程安全的狼人我对第四步有个问题。例如，我将table1.sql拆分为3个文件：table1_a.sql、table1_b.sql和table1_c.sql.如果在新转储中有新的记录是可以的--它只是添加到table

浏览 18提问于2016-07-25得票数 1

2回答

如何在SSIS中解析文本文件

ssis

我有一个文本文件，我想把它解析成几个文本文件。该文件太大，无法在Excel中打开。所以，我最好的猜测是在SSIS中以某种方式做到这一点。(真的，因为我现在只知道这些。)我可以在Notepad++中手动完成，但是我需要一个自动的解决方案。源文本文件没有标题，有各种列数的记录，所有类似的记录都分组在一起，并且文件是管道分隔的。下面是一个我想解析的示例文本文件： A|stuff CRLF A|more_stuff CRLF B|stuff|more_text CRLF B|more_stuff|yet_more_text CRLF ( CRLFs是行尾分隔符。如您所见，“A”记录的列数与“B”记

浏览 5提问于2015-01-02得票数 0

回答已采纳

1回答

如何在iphone项目中添加C++文件

iphone、c++、objective-c、xcode

我有一个iPhone项目，在这个项目中我想使用c++文件。我创建的c++文件如下所示：文件->新文件-> C/C++文件-> C++ 并将其命名为ClassA.cpp In ClassA.cpp #include <iostream> class ClassA { public: int a, b; void add(); }; void ClassA::add() { // printf("sdf"); } 在我的viewController.mm文件中： #import "ViewControlle

浏览 1提问于2012-09-12得票数 1

回答已采纳

2回答

如何让SSIS在导入平面文件时检测记录长度？

sql-server、ssis

我写了一个SSIS包，它将数据从固定记录长度的平面文件导入到SQL表中。在单个文件中，记录长度是恒定的，但不同的文件可能具有不同的记录长度。每条记录都以CR/LF结尾。如何让它检测记录的结尾位置，并在导入时使用该长度？

浏览 1提问于2012-11-10得票数 2

回答已采纳

2回答

检测vim中没有有效文件扩展名的文件类型

vim、syntax-highlighting、file-type、vim-syntax-highlighting

我正在寻找一种方法来确定vim中的文件类型，并根据文件类型设置语法高亮显示。唯一的问题是我不能使用文件扩展名来确定文件类型。这是我的场景:我使用vimdiff或gvimdiff作为我的P4DIFF工具，它显示本地副本中的文件和来自perforce服务器的文件之间的变化。Perforce似乎将来自perforce服务器的文件导入到/tmp目录中，并使用PID命名该文件，例如： /tmp/tmp.24673.23 这是一个C++源文件。我在perforce存储库中遇到的最常见的文件类型是C/C++源代码和头文件、Makefiles、python脚本、perl脚本、ruby脚本和tcl脚本。

浏览 4提问于2013-03-12得票数 6

回答已采纳

1回答

使用g++链接到C++ dll的C++库

c++、c、dll、g++、static-linking

我已经看到了许多问题和答案，人们使用C库链接到C++，或者C++库链接到C……然而，我有一个链接到C++的C++库，并且得到了与将C和C++混合在一起的人相同的症状(链接过程中未定义的引用)。这是我的g++行： g++ -L C:/MyLibraries mycode.cpp -shared -o mycode.dll -lopengl32 -lglu32 -lgdi32 -lMyLibrary 到目前为止，我遇到的每个答案都谈到了让下面的内容包装我的标题： #ifdef __cplusplus extern "C" { #endif ... #ifdef __cpluspl

浏览 7提问于2011-02-20得票数 2

回答已采纳

1回答

从Unix中的文件中选择记录的范围

unix

我在unix中的文件文本文件上有4,930,728条记录。此文件用于使用批加载器将图像摄取到Oracle web中心的内容中。<<EOD>>按照下面的示例指示记录的结束。我有两个问题在处理了4,930,728条记录中的4,300,846条记录后，批装载器对于任何resoan都会失败。现在，我想创建一个新文件，记录范围为4,300,846至4,930,728。我怎样才能做到这一点？我希望将包含4930728条记录的文本文件拆分为多个文件，每个记录范围为(1,000,000)条记录，例如，文件1包含0到10,000,000,000条记录。第二个文件包含从1,0

浏览 1提问于2014-11-17得票数 0

1回答

使现有文件夹成为git子树

git、git-subtree

在我的问题之后，我想问一下如何将文件夹转换为子树。假设我有一个存储库A，其中我的代码现在应该与另一个项目(甚至更多)共享，所以我将所有共享代码放在"sub“文件夹中。这个文件夹现在应该被解压(如果可能的话，没有历史记录)到裸存储库C。之后，"sub“应该成为C的子树，但是不会丢失A中的历史记录(非常重要)。我还希望能够在"sub“中进行更改，并将这些更改推回到C中。

浏览 0提问于2012-09-26得票数 9

1回答

ORC is文件未提供与写入顺序相同的记录

apache-spark、apache-spark-sql、orc

我最近开始使用ORC文件在磁盘上保存一些记录。我使用保存模式append将记录批量写入ORC文件。但是，当从同一个ORC文件中读取记录时，我会以不同的顺序获取记录。下面是我正在使用的一小段代码。要写记录- private void serializeRowList(List<Object[]> rowsToCache, int chunkNumber) throws Exception { try { String orcCompatibleLocalPath = "some_path";

浏览 0提问于2018-08-06得票数 0

1回答

用Java分割.avi文件

java、movie

我有一些.avi视频文件，有点大(一两个在13G以上)。我有一个csv文件，文件的起始时间和结束时间如下： start end 00:00:23 00:03:24 etc etc 我想根据csv文件中指定的.avi和end位置将这个start文件分割成更小的视频文件(.avi优先，但不是必需的)。我的问题是:我如何在Java中做到这一点？请注意，读取csv文件不是问题，而是我如何编写代码来从视频文件中获取剪辑？注意:如果Java真的是不适合这样的任务，C++可以这样做吗？如果是这样的话，在这种情况下，代码会是什么样的呢？如果C++做不到，又能做什么呢

浏览 1提问于2013-02-07得票数 0

2回答

如何与C++一起编译类型记录代码？

c++、typescript、gcc、linker、ts-morph

我有一个完全在C++里的项目。另外，我还有一个文件是在类型记录中(我在C++中找不到类库)。类型记录文件正在执行以下操作:1它有类型记录CLI代码，类似于生成器，它将在各自的文件中生成一些功能。我的编译器是gcc。谁能告诉我..。有可能链接和编译它吗？是yes..How吗？

浏览 8提问于2022-11-30得票数 0

4回答

了解Ada如何序列化记录

serialization、record、binaryfiles、ada

当我在Ada中调用Write来序列化记录时，我希望能够预测结果二进制文件中的内容。你知道我在哪里可以查到这个吗？我有一些遗留的Ada软件，它通过写入记录来生成二进制文件，我需要调试一个应该写入兼容二进制文件的C++程序。因此，我想了解Ada在序列化记录时遵循的规则，这样我就可以确保C++代码将生成功能等价的记录。

浏览 0提问于2008-09-17得票数 5

回答已采纳

1回答

如何在MapReduce中处理可拆分的lzo文件的记录/行边界？

hadoop、mapreduce

我有一些由MapReduce输出的lzo压缩文件，它们将用于另一个工作。所有这些文件都被编入了索引，并且我已经将LzoTextInputFormat设置为输入格式类。我的问题是：在使用这些lzo文件时，如何处理记录/行边界？记录/行可以被截断成两个相邻的压缩块。如果两个相邻的块在逻辑上拆分到不同的映射器中，则很难确定不完整的记录/行并将两部分合并。有人能帮我吗？

浏览 3提问于2012-11-02得票数 0

回答已采纳

4回答

SSIS事务数据(不同的记录类型，一个文件)

ssis、types、record

有趣的是，我们正在评估ETL工具，用于预处理报表数据(例如公用事业账单、银行报表)以供打印。一些数据来自单个平面文件，具有不同的记录类型。例如，第一个字段为"01“的记录类型将是地址数据。这将包含name和address字段。带有"02“的记录类型将是具有余额和合计的汇总数据。记录类型"03“将是语句中的行项目。每条语句将有一条01和02记录，以及多条03记录。我可以预先解析文件并将其拆分成3个文件加载到一个表中，但这并不理想。我们获取文件并对其进行一些操作(例如，在地址记录中添加更多字段，可能还会执行一些汇总/验证)，然后将文件以几乎相同的格式(但添加了额外字

浏览 0提问于2009-06-15得票数 3

1回答

相同大小的hadoop拆分文件

file、split、hadoop

我试着学习如何将一个存储在hdfs中的文件拆分到不同的进程中(在不同的机器上)。我所期望的是，如果我有一个包含12个进程的1200个记录的SequenceFile，我会看到每个进程大约有100个记录。划分文件的方法是获取数据的长度，然后除以进程的数量，为每个拆分导出块/请求/结束的大小，然后将拆分传递给例如SequenceFileRecordReader，在一个简单的while循环中检索记录:代码如下所示。 private InputSplit getSplit(int id) throws IOException { ... for(FileStatus file: status)

浏览 2提问于2011-10-06得票数 4

2回答

班级超载？

c++、class

我可以在C++中使用不同的.hpp文件中的类吗？因为我有一个名为Map的类，它大约有5000行，我不知道是否可以用相同的类名将它拆分到两个或三个文件中，如果没有拆分，其他头是否会看到这个类。

浏览 2提问于2015-04-09得票数 0

回答已采纳

1回答

使用PowerShell合并两个csv文件(头文件和数据文件)

powershell、csv

CSV 1(头文件)：标题1标题2标题3 ..。 CSV文件2(数据文件)：数据记录1数据记录2数据记录3 ..。文件1只包含头文件，而文件2包含与文件1中的头文件对应的数据。是否可以通过PowerShell脚本将文件2中的数据附加到文件1中的头文件中，所以文件2(或新文件)现在看起来如下：输出CSV文件标题1标题2标题3 ..。数据记录1数据记录2数据记录3 ..。问题格式的应用，这里的第一篇文章。非常感谢您的帮助，提前谢谢您！

浏览 0提问于2019-03-07得票数 0

3回答

从平面文件重定向空值或空值

sql-server、ssis、ssis-2012

我正在将记录从一个平面文件源导入到一个SQL表中，该表中有4列不接受空值。我想要做的是将包含特定4个字段的空值的记录重定向到平面文件目的地。下面可以看到表的配置：下面是我的平面文件源中的一个示例，其中我在第一条记录中去掉了county_code，在第二条记录中去掉了UCN，在第三条记录中去掉了action_id。如果我按当前配置运行包，则由于以下限制而出现错误： The column status returned was: "The value violated the integrity constraints for the column.".

浏览 2提问于2016-04-14得票数 2

回答已采纳

1回答

由于版本更改而导致Linux中的符号

linux、php

我们已经使用PHP扩展代码(仅用C++编写)将PHP代码与C++代码链接起来……它们在32位操作系统上都工作得很好。现在，随着操作系统版本改为64位，我们更改了许多软件的版本。我们将以前运行良好的C++代码用64位的gcc编译成32位的".so“文件，显示出许多错误，并清除了所有错误，最终编译成功。但在与PHP链接的过程中，它显示： undefined symbol: _ZTV5Temps" error

浏览 0提问于2013-03-25得票数 0

回答已采纳

1回答

Python:基于第一个元素对数组中的元组进行排序

python、arrays、sorting、file-io、tuples

我在每一行上都有一个带有记录(highscores)的文件，作为一个int存储(带有一个标头)。在我的python项目中，我将记录读取到数组中，然后添加一个记录(只是一个int)，对数组进行排序(添加了新记录)，然后用新记录(和头-保持不变)覆盖文件。下面是我所使用的相关代码： highscores = [] with open("highscore.txt", "r") as f: f.readline() # Reads header for line in f: highscores.append(line.strip(

浏览 1提问于2015-05-01得票数 1

回答已采纳

1回答

在条件拆分SSIS中使用用户变量

sql-server-2008、ssis、ssis-2012、ssis-2008、msbi

我使用的是从ErrorInd为1的DB中拉出记录的DFT。我希望将错误记录放在一个平面文件中，如果没有错误，我不想创建任何文件。为此，首先我创建了一个变量@RecordCount，这个变量在DFT之前使用Execute Sql Task赋值，然后在DFT中创建oledb源，并使用query拉取记录。一次，然后我使用条件拆分。在条件拆分中，我给出了一个类似@RecordCount > 0的条件，然后将case1映射到平面文件目的地。不知何故，这种情况不起作用，即使变量@RecordCount为0，也会生成平面文件，而我不想这样做。我所理解的是，无论在什么情况下，条件是工作的，但平面文

浏览 0提问于2015-12-04得票数 0

1回答

MySQL:追加记录:查找，然后追加或仅追加

mysql、database、mysql-connector

浏览 7提问于2010-01-29得票数 1

回答已采纳

1回答

c++中带有命令行参数的cgi脚本

c++、cgi、command-line-arguments

我应该创建一个带有主函数命令行参数的cgi脚本吗？如果可以，我如何将数据传递给此命令行参数？我是否应该将数组数据从JavaScript传递给在c++中创建的cgi-script。有多少种方法可以将数据从Html页面传递到cgi-script？我在HTML文件中显示了100条记录。每个记录字段显示在一个文本框中。在修改HTML页面中的一些记录后，我想将修改后的记录和记录发送到Cgi-Script。如何发送特定记录或如何使用c++中的cgi脚本将文本框中显示的所有记录保存到文本文件？

浏览 0提问于2012-08-13得票数 0

3回答

如何在大型XML输入文件中处理Hadoop拆分

hadoop、mapreduce

我有一个非常大的输入文件，它是一个XML数据。现在，当我将其放入HDFS中时，逻辑上将创建HDFS块，并且XML记录也将在块之间进行划分。现在，典型的TextInputFormat通过跳过第一行来处理这种情况，如果第一行不是行的开始，那么逻辑上前一个映射器从这个块读取(通过RPC)直到记录结束。在XML的情况下，我们如何处理这种情况？我不想使用WholeFileInputFormat，因为这不会帮助我使用并行性。 <books> <book> <author>Test</author> <title>Hadoop Recipes&

浏览 0提问于2015-09-16得票数 0

1回答

使用scalding或scala删除文件尾部记录

scala、bigdata、scalding

我正在尝试使用管道(cascading.pipe.Pipe)来读取文件。文件中的每个记录都遵循一个模式，因此尾部记录除外；每当管道读取代码执行时，它都会抛出异常，因为尾部记录与模式不匹配。管道看起来如下所示：字段列表:List(col1，col2，col3) val字段= Csv(inputFilePath，filteredInput = "|"，inputFilePath= fieldlst，skipHeader = true) .read 有谁能告诉我解决这个问题的办法。通过读写文件删除尾部记录似乎是一个简单的解决方案，但为此，我必须读写整个文件，并且文件可能非常大。

浏览 5提问于2015-03-04得票数 0

1回答

对于非常大的文件，将数据从雪花表批量加载到亚马逊s3

amazon-web-services、amazon-s3、snowflake-cloud-data-platform、snowflake-task、snowsql

我有一个任务是将一个大表从Snowflake加载到s3。我需要从一个csv文件中的snowflake表中加载1000条记录到s3，然后在另一个csv文件中从表中连续加载1000条记录，依此类推。例如，我在Snowflake中有一个包含15000条记录的表，希望从表中加载15个单独的文件到s3，每个文件包含1,000条以file_1.csv，file_2.csv，.，file_15.csv命名的记录，然后压缩所有这些文件，并将这个单独的压缩文件卸载到s3。我参考了https://docs.snowflake.com/en/user-guide/data-load-consideration

浏览 17提问于2020-12-09得票数 0

3回答

使用窗口命令提示符拆分文本文件

windows、cmd、command-prompt

我需要将一个大的文本文件分割成小的文本文件，就像我在文本文件中有100行，那么在新的文本file.In DOS中每拆分10条记录都有拆分功能，但是在window cmd中没有拆分function.Anybody，在window cmd中有解决方案吗？

浏览 0提问于2013-12-06得票数 1

回答已采纳

1回答

根据shell脚本中记录计数拆分xml文件

bash、shell

我有一个包含以下内容的temp.xml文件， <records> <profile/> <profile/> <profile/> <profile/> . . </records> 我将传递记录数'n‘作为输入。我希望将temp.xml文件拆分为'n‘个记录。例如，如果我在temp.xml中有4条记录，如果我将n值作为2传递，那么必须创建2个文件，每个文件有2条记录。输出文件名可以是任何内容。例如，下面是示例输出。其中

浏览 1提问于2016-01-07得票数 0

2回答

如何将记录分成不同的流，从一个主题到不同的流？

apache-kafka、apache-kafka-streams、apache-kafka-connect

我有一个源CSV文件，包含不同大小的记录，将每条记录推入一个源主题。我想把记录分成不同的KStreams/KTables与那个源主题。我有一个用于一个表加载的管道，在该管道中，我以分隔格式将记录从源主题推入stream1，然后将记录按AVRO格式推到另一个流中，然后将该流推入JDBC接收器连接器，该连接器将记录推入MySQL数据库。管道应该是一样的。但我希望将不同表的记录推入一个源主题，然后根据一个值将记录拆分为不同的流。这个是可能的吗？我试着想办法做到这一点，但做不到。我是否也可以以某种方式改进管道，或者使用KTable而不是KStreams或任何其他修改？我当前的流-一个源csv文件(s

浏览 1提问于2020-04-13得票数 0

回答已采纳

1回答

Apache Camel聚合大型(1mil记录) CSV文件时出现问题

csv、apache-camel、unmarshalling

我的问题是(1)有没有更好的策略来解决我的问题(2)有没有可能调整/改进我的解决方案，使它能够工作，并且不会以可靠的方式拆分聚合(3 )如何更智能地调试它？弄清楚聚合器正在做的wtf是很困难的，因为它只在由于其大小而难以调试的大型批处理上失败。其中任何一个的答案都是非常有用的，最重要的是前两个。我正在编写一条路径，以消化一百万行的CSV文件，拆分然后聚合一些主要关键字段上的数据，然后将聚合的记录写入一个表对于几千条记录的小文件，它工作得很好，但在生产中实际面临的大文件(1,000,000条记录)时，它会失败。首先，在CSV解组后，拆分时出现JavaHeap内存错误，导致失败。我用.s

浏览 1提问于2013-02-24得票数 1

回答已采纳

2回答

Apache-Nifi中的PutHBaseJSon处理器

json、apache-nifi

我使用的是PutHBaseJSon处理器，它将从hdfs位置获取数据，并将其放入hdfs位置的hbase.The数据中，格式如下，这是在单个文件中。 {"EMPID": "17", "EMPNAME": "b17", "DEPTID": "DNA"} {"EMPID": "18", "EMPNAME": "b18", "DEPTID": "DNA"} {"EMPID"

浏览 0提问于2016-06-14得票数 1

1回答

NIFI在SQL数据库中插入大型CSV

csv、apache-nifi

我试图将大数量的大CSV文件插入到数据库中。我是用PutDataBaseRecord处理器来完成这个任务的，这使得这个过程非常快速和简单。问题是，我不知道如何正确处理故障，例如，如果值与列的数据类型不匹配，或者行是重复的。如果发生这种情况，PutDataBaseRecord处理器将丢弃它刚刚从CSV文件中转换出来的批处理的所有记录。因此，如果一个记录2.000.000失败，2.000.000记录中没有一个记录会进入数据库。通过事先清理CSV数据，我设法修复了一个问题源，但我仍然遇到重复行的问题。我试图通过将CSV分割成NIFI中的单个行来修复这个问题，然后将它们传递到PutDatabas

浏览 0提问于2018-09-04得票数 1

回答已采纳

2回答

在引用的CSV数据中读取不带换行符的尾行

c++、qt、csv

我有一个问题，一个文件，我正在试图阅读，我不知道如何解决它。该文件是一个CSV，但是文件的文本中也有逗号，所以逗号周围有引号表示新值。例如： "1","hello, ""world""","and then this" // In text " is written as "" 我想知道如何使用QFileStream来处理报价(虽然我也没有看到基本的解决方案)。此外，另一个问题是，我也不能逐行阅读，因为在这些引号中可能有换行符。在R中，有一个解决这些问题的quotes="&

浏览 6提问于2013-09-11得票数 1

回答已采纳