使用pig将数据存储到特定格式的文件中_将SAS中的数据分组到特定的存储桶中_使用特定字段将csv文件数据存储到MS Access数据库 - 腾讯云开发者社区

、、、

我正在使用Hadoop上的Pig来分析CSV格式的日志。有时，我的数据提供程序会在日志中添加新字段，所有新字段都会添加到每行的末尾。我想知道的是，当globbing模式同时匹配“旧格式”和“新格式”文件时，如何正确地实现这些CSV文件的加载，同时仍然能够访问最新文件上的新字段。让我们举一个实际的例子： 2014/12/20/log_2014-12-20.csv: f1, f2, f3 2014/12/21/log_2014-12-21.csv: f1, f2, f3 2014/12/22/log_2014-12-22.csv: f1, f2, f3 2014/12/23/

浏览 3提问于2015-01-21得票数 0

1回答

错误:JsonStorage处于Pig Local模式

、、

我在eclipse的本地模式下运行我的Pigscript。当我尝试将输出存储在JsonStorage中时。 Exception in thread "main" java.lang.RuntimeException: Cannot instantiate:org.apache.pig.builtin.JsonStorage at org.apache.pig.impl.PigContext.instantiateFuncFromSpec(PigContext.java:473) at org.apache.pig.impl.logicalLayer.parser

浏览 1提问于2015-07-16得票数 0

2回答

从pig导出到CSV

、、

我很难将数据从pig中提取出来并放入CSV中，这样我就可以在Excel或SQL (或R或SPSS等)中使用，而无需进行大量操作…… 我试过使用下面的函数： STORE pig_object INTO '/Users/Name/Folder/pig_object.csv' USING CSVExcelStorage(',','NO_MULTILINE','WINDOWS'); 它使用该名称创建包含大量part-m-0000#文件的文件夹。我可以稍后使用cat part* > filename.csv将它们连接起来，但没

浏览 1提问于2012-12-04得票数 10

回答已采纳

2回答

Pig脚本创建表

我一直在尝试使用pig脚本将csv数据存储到数据库的表中。但是，我没有将数据插入到数据库的表中，而是在元存储中创建了一个新文件。有没有人可以让我知道，是否有可能使用pig脚本将数据插入到数据库中的表中，如果可以，该脚本可能是什么样子的？

浏览 0提问于2014-04-14得票数 0

2回答

如何使用HCatlog对猪的蜂窝转移瘤使用压缩技术？

、、、

我有一些pig脚本，它使用PigStorage()从普通文本文件中获取输入。我想从hive metastore加载并存储数据，为此，我使用了Hcatalog中的HcatLoader()和HcatStorage()。谁能告诉我如何在pig中存储和加载压缩蜂窝数据。

浏览 1提问于2013-10-15得票数 0

1回答

将数据从猪导出到hbase

、、、、

我无法将数据从猪加载到cloudera cdh3中的hbase。它在转储数据时向我显示数据，但当我尝试使用存储命令将数据从pig放到hbase时，它能够找到表并启动mapreduce任务。但最终它将显示以下错误消息-> 未能读取"test/NYSE_daily_prices_Q.csv“中的数据在最后 2015-02-16 11:29:44,266主要信息org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher失败！2015-02-16 11:29:44,268主要错误

浏览 7提问于2015-02-16得票数 0

2回答

Hadoop -使用PIG加载蜂巢表

、、、

我想用猪加载蜂箱表。我认为我们可以通过HCatLoader来实现这一点，但是我正在使用xml文件来加载pig。为此，我必须使用XMLLoader.我可以使用两个选项在Pig中加载XML文件吗？我使用自己的UDF从XML文件中提取数据，一旦提取了所有数据，我就必须在Hive表中加载Pig数据。我不能使用HIVE提取XML数据，因为我收到的XML非常复杂，我编写了自己的UDF来解析XML。任何建议或指针，我们如何可以加载Hive表使用猪数据。我在用AWS。

浏览 1提问于2015-10-03得票数 0

1回答

在应用查询之前，Pig不将数据导入系统。

我读了一些关于Pig拉丁文的文档，不完全理解为什么Pig在应用查询之前，在数据分析期间，不需要将数据导入系统？谁能解释一下吗？谢谢。

浏览 3提问于2015-12-10得票数 0

回答已采纳

1回答

从猪生成的CurrentTime()在配置单元日期时间列中显示为NULL

、、、

在Pig脚本中，我生成了datetime列，其值为CurrentTime()。当从配置单元表读取PigScript生成的输出的数据时，它显示为NULL。有没有办法从PIG加载当前的datetime列以显示在Hive Table中？文件中的数据类似于2020-07-24T14:38:26.748-04:00，而在配置单元表中，该列的数据类型为timestamp

浏览 22提问于2020-07-25得票数 2

1回答

PIG UDF加载.gz文件失败

、、、、

我写了我的UDF来加载文件到Pig中。它很好地加载文本文件，但是，现在我还需要能够读取.gz文件。我知道我可以解压文件然后处理，但我只想读取.gz文件而不解压它。我有我的UDF扩展，从LoadFunc，然后在我的客户输入文件MyInputFile extends TextInputFormat。我还实现了MyRecordReader。只是想知道扩展TextInputFormat是不是有问题？我试过FileInputFormat，还是读不到文件。以前有没有人写过从.gz文件中读取数据？

浏览 0提问于2012-12-21得票数 1

回答已采纳

1回答

在没有文件的情况下在Pig中生成一系列值

我正在尝试生成基于时间范围的报告，我希望能够将事物划分为不同的切片。例如，我希望将一些数据分组到重叠的范围中(我希望在7天内按小时递增的24小时窗口)。如果不将时间范围从外部生成到一个可由pig读取的文件中，我看不到任何方法来做到这一点。

浏览 0提问于2013-12-05得票数 0

3回答

在delemeter进入数据的位置读取PIG中的文件

、

我想用PIG读取CSV文件，该怎么办？我使用了load n pigstorage('，')，但它无法正确读取CSV文件，因为它在数据中遇到逗号(，)时会拆分it.How，如果数据中也有逗号，我现在是否应该使用分隔符？

浏览 1提问于2012-02-03得票数 2

回答已采纳

3回答

当我们使用PIG脚本将数据转储到输出文件中时，如何添加头？

我试着搜索它，但找不到提示/建议。这是我的情况。我有所有的数据正确排列和输出工作良好使用猪脚本。将文件存储在输出目录中。输出文件超过100个文件，所以我所做的是使用另一个pig脚本累积结果文件。我想知道在PIG拉丁语中是否有什么东西可以帮助我将"Header“添加到累积结果文件中，以便业务用户可以快速使用它，因为它也有头？请指教

浏览 2提问于2015-05-27得票数 1

1回答

什么是正确的格式来存储日期时间猪和蜂巢？

、、、

在使用Pig进行ETL时，我使用HCatStorer将处理过的数据放在Hive中： STORE dataprocessed INTO 'database.table' USING org.apache.hcatalog.pig.HCatStorer(); 我的目标是使目标表的数据可以从Pig或Hive中使用(取决于用户的技能)。建议的存储日期时间的格式是什么？我关心的是：存储时区信息能够比较日期具有人类可读性(例如，我不认为时间戳是人类可读的) 谢谢你的帮助

浏览 1提问于2014-09-30得票数 0

回答已采纳

2回答

从猪保存到蜂箱表的问题

、、、

我使用HCatalog从Pig脚本读取和写入数据到Hive，如下所示： A = LOAD 'customer' USING org.apache.hcatalog.pig.HCatLoader(); B = LOAD 'address' USING org.apache.hcatalog.pig.HCatLoader(); C = JOIN A by cmr_id,B by cmr_id; STORE C INTO 'cmr_address_join' USING org.apache.hcatalog.pig.HCatStorer();

浏览 3提问于2014-12-05得票数 3

3回答

如何在Pig中处理多个商店-拉丁脚本

、

我有一个pig脚本，输入如下： A列|B列|C列|D列|E列我有这样的关系，按不同的列分组： X=A列|总列C|总列D| Y=B列|总列D|总列E| Z= ... 等然后，我需要将X、Y、Z存储到不同的文件夹中，因此会多次调用store。Pig知道如何只加载和处理一次数据，然后再进行存储吗？

浏览 0提问于2013-06-22得票数 1

回答已采纳

2回答

仅从4个字段中加载2个字段- Pig to Hive表

、、

请帮忙指点一下。场景:使用Pig将HDFS中的数据存储到Hive。我有一个从mySQL中挖出来的文件，它有4个字段Ord_Id, Cust_Id, Cust_name, Ord_date。我只喜欢存储2个字段Ord_Id和Cust_Id到配置单元。我怎么能做到呢？请告知。以下代码无法执行： pig -useHCatalog orders = LOAD '<HDFS_file_path>' USAGE PigStorage(',') AS (Ord_Id:Int, Cust_Id:Int, Cust_name:chararray, Ord_dat

浏览 5提问于2017-02-16得票数 0

1回答

如何在以xml为一列的hdfs中查询文件

、、

上下文:我在mysql中的表中有数据，xml作为一列。对于Ex:表应用程序有3个字段。id(integer) , details(xml) , address(text) (在实际情况下这里有10-12个字段)。现在，我们希望使用pig查询mysql表中所有字段的整个表。使用sqoop将数据从mysql传输到hdfs record delimiter '\u0005' and column delimiter as "`" to /x.xml. 然后使用以下方法将来自x.xml的数据加载到猪中 app = LOAD '/x.xml' USING

浏览 3提问于2015-08-31得票数 2

回答已采纳

2回答

如何处理非结构化数据，而Hive不能？

、、

根据和其他参考资料，Pig在处理非结构化数据方面优于Hive。因此，数据首先用猪清洗，然后用蜂巢处理。但是，在数据工厂中，数据可能还没有处于良好的标准化状态。这使得Pig也非常适合这个用例，因为它支持具有部分或未知模式的数据，以及半结构化或非结构化数据。我想更多地了解猪猪如何处理非结构化数据，而Hive却不能。

浏览 6提问于2013-01-12得票数 3

回答已采纳

2回答

如何在单独Java程序中读取pig输出

、、

我有一些pig输出文件，我想在另一台机器上读取它们(没有安装hadoop )。我只想读取制表符分隔的纯文本行，并将其解析为一个java对象。我猜我们应该能够使用pig.jar作为依赖项，并且能够读取它。我找不到相关文档。我认为可以使用类？我们如何才能同时提供模式。

浏览 0提问于2013-10-10得票数 0

1回答

可以使用PIG读取的文件格式

、

使用PIG可以读取哪些类型的文件格式？如何以不同的格式存储它们？假设我们有CSV文件，我想将其存储为MXL文件，如何实现？当我们使用STORE命令时，它会创建目录，并将文件存储为part-m-00000，如何更改文件名并覆盖目录？

浏览 1提问于2012-01-25得票数 5

回答已采纳

1回答

我应该以哪种格式以及如何将我的JSON行(如数据)导入hadoop？

、、、

我读了很多关于hadoop数据格式的文章，目前似乎了解到，根据您使用的软件包，最高级的格式是ORC (在Hortonworks上得到很好的支持)或Parquet (在Cloudera上得到很好的支持)。现在，大多数初学者的示例/教程都包含简单的csv数据。每行一个条目。通常，它们将CSV导入到类似SQL的结构(Hive)中，而不将其保存为ORC。 JSON似乎也得到了Hadoop的支持，但。此外，根据 JSON的说法，JSON是一种糟糕的格式，因为它不能按行拆分成块。JSON线路。我的数据是电影元数据，如下所示： {title: "Movie 1", rating: 4.3

浏览 6提问于2015-04-16得票数 1

3回答

调配电子病历后，如何将文件从S3复制到数据管道中的Amazon电子病历？

、、、

我正在AWS中创建一个数据管道来运行Pig任务。但我的Pig任务需要EMR中的附加文件。如何告诉Data Pipeline在集群创建后、pig任务运行之前将文件复制到EMR？我只需要运行这两个命令。 hdfs dfs -mkdir /somefolder hdfs dfs -put somefile_from_s3 /somefoler/

浏览 7提问于2015-12-31得票数 0

2回答

PigLatin -将数据插入到现有分区中？

、

我有一个文件test_file_1.txt，它包含： 20140101,value1 20140102,value2 和文件test_file_2.txt，包含： 20140103,value3 20140104,value4 在HCatalog中有一个表： create table stage.partition_pk (value string) Partitioned by(date string) stored as orc; 这两个脚本工作得很好：脚本1： LoadFile = LOAD 'test_file_2.txt' using PigStorage('

浏览 4提问于2014-04-09得票数 2

回答已采纳

1回答

一个猪脚本中的两个存储函数

、

我有一个猪脚本来加载、处理和存储数据。如果同一个pig脚本中有两个存储函数，它是如何工作的？ a = load 'somefile' using PigStorage(','); b ... c ... d ... e = store d into 'output1'; f = store c into 'output2'; 每个商店要运行两次吗？也就是说，对于商店e‘ it process从'a’到e 'e'，对于存储'f'，它直接存储'c‘，因为它已经被处理了，还是将再次从&#

浏览 3提问于2014-02-21得票数 1

2回答

如何在MongoDB中存储JSON输出？

、

我使用Apache在二进制文件上运行作业。作业结果是一个有效的JSON，例如： { "filename": "hello_world.exe", "strings": [ "!This program cannot be run in DOS mode.", "LRich", ".text" ] } 有没有一种方法可以使用Pig "STORE“命令将这个结果/json输出直接保存到MongoDB？更新(猪脚本)：

浏览 3提问于2015-10-08得票数 0

2回答

在Pig中编码

、、

使用Pig拉丁语加载包含某些特定字符(例如，±、°等)的数据，并将数据存储在.txt文件中，可以看到这些符号在txt文件中显示为/1/2和1/2字符。这是由于UTF-8替换字符造成的。我想问一下是否有可能以某种方式避免它，也许是使用一些pig命令，例如在结果中(在txt文件中)，而不是？

浏览 2提问于2013-11-14得票数 2

1回答

从hdfs导入数据到hbase是否创建一个副本？

、、、、

我对Hbase的概念非常陌生。据我所知，HBase的底层文件系统仅限于HDFS。我只是想了解一下，如果在一个集群中，我已经有一些HDFS中的数据。我尝试在HBase中导入它(或者使用Pig/Hive脚本)，它会以HBase支持的形式( Hbase的底层文件系统是HDFS)在HDFS中创建相同数据的另一个副本吗？或者它将创建对相同HDFS数据的引用？

浏览 4提问于2015-02-01得票数 0

回答已采纳

2回答

如何在Pig中编写自定义文件

、、

我在编写猪作业的自定义输出时遇到了问题我主要是想把pig作业的执行时间的统计数据写入到一个文件中，我的pig作业已经准备好并且正在工作。现在如何编写执行时间格式的统计信息:开始时间、结束时间、(结束-开始时间)执行时间请指导我，我应该尝试使用pig或编写shell脚本，调用java代码方法来为我做一些事情。提前谢谢..问候

浏览 0提问于2015-03-29得票数 0

2回答

ORCfile存储在猪中的实现

、、

有人知道如何在Pig中使用ORCfiles输入/输出吗？我在象鸟中发现了对RCFiles的某种支持，但似乎不支持ORC格式……您能提供一个使用Pig访问/存储Pig中的ORC文件的示例吗？

浏览 0提问于2013-10-07得票数 0

3回答

在Hadoop中有共同的存储数据模式的地方吗？

、、、

最近，我一直在使用Hadoop、Hive和Pig进行一些数据转换。作为其中的一部分，我注意到数据文件的架构似乎根本没有附加到文件中。数据文件只是平面文件(除非使用类似于SequenceFile的东西)。每个想要处理这些文件的应用程序都有自己的方法来表示这些文件的架构。例如，我将一个文件加载到HDFS中，并希望使用Pig来转换它。为了有效地使用它，我需要在加载数据时指定文件的架构： EMP = LOAD 'myfile' using PigStorage() as { first_name: string, last_name: string, deptno: int}; 现在

浏览 2提问于2013-05-30得票数 6

回答已采纳

2回答

如何在猪中使用PigDump()？

、、、

我试图使用PigDump()存储数据，并得到以下错误。 grunt> TxtLdr = load '/wordcountdata.txt' using TextLoader(); grunt> STORE TxtLdr into '/pigdmpOP' using PigDump(); 2014-07-30 19:59:39,102 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1070: Could not resolve PigDump using imports: [

浏览 4提问于2014-07-31得票数 1

回答已采纳

1回答

未设置Hadoop Pig输出目录

、、

我正在编写我自己的Pig Store类，我不想将其存储在文件中，我计划将其发送到某个第三方数据存储(不是API调用)。注意:我在Cloudera的VirtualBox镜像上运行它。我已经编写了我的java类(如下所列)，并创建了我在下面的id.pig脚本中使用的mystore.jar： store B INTO 'mylocation' USING MyStore('mynewlocation') 使用pig运行此脚本时，我看到以下错误: ERROR 6000: Output location validation failed for：'file:

浏览 2提问于2013-02-06得票数 0

回答已采纳

3回答

如何在Apache Pig中使用PigStorage存储gzipped文件？

Apache Pig v0.7可以读取gzipped格式的文件，不需要我做额外的工作，例如： MyData = LOAD '/tmp/data.csv.gz' USING PigStorage(',') AS (timestamp, user, url); 我可以处理这些数据并将其输出到磁盘： PerUser = GROUP MyData BY user; UserCount = FOREACH PerUser GENERATE group AS user, COUNT(MyData) AS count; STORE UserCount INTO '/t

浏览 2提问于2011-02-11得票数 10

2回答

从一个部件文件到两个表的Sqoop (猪输出)

、、

我有一个场景，需要使用hdfs加载数据并存储到Pig中，这个结果(猪输出/部分文件数据)应该使用Sqoop加载到mysql中的两个表中。这是Sqoop可以做到的吗？任何其他解决方案。例如，如果我有这样的文件 col1 col2 col3 col4 .... .... .... .... .... .... .... .... .... .... .... .... I want to export col1,col2 to table table1 and col3,col4 to table table 2 of some database 提前谢谢。

浏览 3提问于2014-02-21得票数 1

回答已采纳

1回答

使用Pig 0.11.1处理JSON时，源数据在JSON对象之间有回车

、

我在一个文件中有一些具有多个JSON对象的源数据。对象之间没有回车符，如果我手动添加回车符，那么Pig0.11.1Tuple将分别加载每个对象，并在JSONLoader中获得预期的元组。如果没有回车符，它将只加载文件中的第一个JSON对象。有没有一种方法可以直接使用JSONLoader加载文件中的每个对象，而不进行预处理？如果这不可能，有什么建议可以轻松地预处理文件以添加回车符(理想情况下使用Pig)？下面是一个文件中的JSON示例： {"values":{"x":447100,"y":0},"key":"rpi/S

浏览 1提问于2014-05-22得票数 0

2回答

基于HADOOP的卫星图像处理

、、、、

如何将卫星图像( *.TIFF , *.GeoTiff *.Jpeg format )存储/上传到HDFS中？如何将存储的卫星图像分解成瓷砖？如何将这些瓷砖存储到蜂巢元商店？如何使用PIG或HBase对存储的数据执行简单的查询？如何利用MapReduce程序对存储的卫星图像进行简单的图像处理？

浏览 1提问于2013-09-30得票数 4

回答已采纳

1回答

使用Pig从HDFS加载数据并写入HBase时出错

、、、

如何将hdfs中mapreduce程序的输出数据加载到hbase中？我尝试运行以下pig命令将数据从hdfs加载到hbase:- A = LOAD 'hdfs://b**/user/user1/development/hbase/output/part-00000' USING PigStorage('t') as (strdata1:chararray, strdata2:chararray); STORE A INTO 'hbase://mydata' USING org.apache.pig.backend.hadoop.hbase.H

浏览 2提问于2012-04-12得票数 0

1回答

使用azure数据工厂(ADF)从Pig/Hive活动运行shell脚本

、、、、

我正在使用Azure Blob存储，带有HDInsight集群的数据工厂。我有一个包含hadoop和hive相关代码的shell脚本，我正在尝试在ADF中添加/创建hive/Pig活动，我正在调用一个shell脚本；因为 myFile.pig sh /myFolder/myscript.sh ========================== myFile.hql !/myFolder/myscript.sh 执行时，我得到Java.IO.Excption |没有这样的文件或目录。根据异常，pig/hive文件无法识别shell脚本路径；有没有人遇到过类似的问题，或者有人使用ADF的s

浏览 1提问于2017-05-05得票数 2

2回答

有没有办法将部分表从hive加载到pig关系？

、、

我目前正在使用下面的代码加载一个hive表到pig关系。 a = LOAD 'hive_db.hive_table' using org.apache.hive.hcatalog.pig.HCatLoader(); 这一步将把hive表中的所有记录放入pig中，但对于我目前的场景，我不需要整个表都放在pig中。当我从配置单元获取数据时，有没有办法过滤掉不需要的记录？

浏览 4提问于2019-08-15得票数 0

1回答

我们可以使用Pig Udfs拆分PDF文件吗？

、、

我有100个pdf，但每个pdf有40页，即它没有被处理。实际上，我们正在尝试使用猪Udf?？我们可以使用Pig Udf拆分PDF文件吗？？

浏览 4提问于2016-05-03得票数 0

1回答

猪能处理ebcdic格式的文件吗？

、、

我的问题很简单。Pig (Hadoop)能处理ebcdic文件吗？我有其中一些，我想使用Hadoop平台中的Pig来处理和处理它们。目前，我已经保存了该文件，并尝试按如下方式加载： A = LOAD '/user/enrico/FilesForPigs/IRIS.txt' AS (f1,f2,f3); 这似乎很有效，但是当我尝试输入时:转储A；我收到了一个错误。编辑：按照Donald的建议，我尝试创建一个Java程序来进行转换，特别是我试图创建自己的LOAD函数。实际上，代码中有以下问题： @Override public InputFormat getInpu

浏览 1提问于2014-07-21得票数 1

回答已采纳

1回答

加载猪扩展中的多个文件

、

请帮帮我..。我花了很多时间在这件事上。我有一个文件夹中的文件，我希望它们按照文件名的顺序加载。我甚至扩展了编写Java代码来转换文件名，以匹配以下链接中指南中的格式。我用的是猪11.0 在我的script.pig里 set io.sort.mb 10; REGISTER 'path_to/lib/pig/piggybank.jar'; data_ = LOAD '$input' USING org.apache.pig.piggybank.storage.XMLLoader('Data'

浏览 1提问于2013-12-17得票数 2

4回答

在单个实例中将pig输出存储到Hive表中

、、

我想将pig输出插入配置单元表格中(配置单元中的表格已经用确切的模式创建).Just需要将输出值插入表格中。我不想采用通常的方法，即先存储到一个文件中，然后从配置单元中读取该文件，然后再插入到表中。我需要减少已经完成的额外跳数。有没有可能。如果是这样的话，请告诉我怎么做？谢谢

浏览 2提问于2015-07-08得票数 5

3回答

从文本文件中读取数据并使用数组构建表

、、

我有一个名为“animals.txt”的输入文件： sheep 10.5 12.3 4 horse 8.4 11.2 7 cow 13.7 7.2 10 duck 23.2 2.5 23 pig 12.4 4.6 12 简单地说，我想知道如何从输入文件中将4列数据存储到4个独立的一维数组中。输出应该是这样的…… [sheep, horse, cow, duck, pig] [10.5, 8.4, 13.7, 23.2, 12.4] [12.3, 11.2, 7.2, 2.5, 4.6] [4, 7, 10, 23, 12] 到目前为止，我已经知道如何将所有数据存储到一个大型

浏览 2提问于2014-12-04得票数 2

1回答

使用预排序数据加速蜂巢或猪的聚集

、、

我想在Amazon上加速一个简单的Apache (0.13.1)或Pig (版本0.12.0)的聚合工作。我的数据已经在需要聚合的键上排序了，我希望作业能够利用这一点。蜂巢： [..some 'set' calls etc...] CREATE EXTERNAL TABLE ngrams (gram string, year int, occurrences bigint,pages bigint, books bigint) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFI

浏览 2提问于2015-06-27得票数 1

1回答

Hadoop将文件的每一行保存到S3

、、、、

目前，我已经在Amazon之上运行了Pig脚本来从S3加载一堆文件，然后我将进行筛选处理，并将数据分组到phone number中，因此数据将类似于(phonenumber:chararray, bag:{mydata:chararray})。接下来，我必须将每个电话号码存储到不同的S3存储桶(可能是存储在我可以访问的不同帐户中的存储桶)。在这里，org.apache.pig.piggybank.storage.MultiStorage似乎是最好的用途，但它不起作用，因为我面临两个问题：有很多电话号码(大约20,000)，将每个电话号码存储到不同的S3桶中非常缓慢，程序甚至没有内存。

浏览 1提问于2012-12-28得票数 0

回答已采纳

1回答

使用PIG编写数据以保存外部表

、

我想要创建一个外部表，并通过pig脚本将数据加载到其中。我采取了以下做法：好的。在HDFS目录中的某个位置创建一个带有模式布局的外部单元表。让我们说 create external table emp_records(id int, name String, city String) row formatted delimited fields ter

浏览 5提问于2016-12-29得票数 1

1回答

猪:强制每个输入行/行一个映射器

、、

我有一个Pig流作业，映射器的数量应该等于输入文件中的行/行数。我知道那个场景 set mapred.min.split.size 16 set mapred.max.split.size 16 set pig.noSplitCombination true 将确保每个块为16个字节。但是，如何确保每个映射作业都有一行作为输入？这些行都是可变长度的，所以对于mapred.min.split.size和mapred.max.split.size使用一个常量不是最好的解决方案。下面是我打算使用的代码： input = load 'hdfs://cluster/tmp/input

浏览 2提问于2013-06-11得票数 6

2回答

Java UDF日期Regex提取器用于猪？

、

我正在尝试创建一个UDF，用于导入到Pig中，它与日期上的Regex模式相匹配。Regex已经过测试并相应地工作，但是我在以下代码上遇到了问题： package com.date.format; import java.io.IOException; import java.util.regex.Matcher; import java.util.regex.Pattern; import org.apache.pig.EvalFunc; import org.apache.pig.data.Tuple; public class DATERANGE extends EvalFunc<

浏览 2提问于2014-11-12得票数 1

回答已采纳