我有一些域数据,例如,页面等,在hbase表中。我必须实时显示其统计数据,例如,每周的文档数量、无效/有效文档等。为此,我正在考虑为这些统计数据创建另一个Hbase表。MR作业将在处理原始表之后为新的周统计信息更新此新表。现在,我的新表的模式应该是什么。这是正确的方法吗?我必须实时可视化前100个域(需要一些排序)。 Data format like
domain, week1-docs, week2-docs,week3-docs ... 此外,还预计数据将随着时间的推移而增长。
我开始使用Apache (版本1.5.3)。当创建一个立方体时,我在步骤5‘保存长方体统计’时会出现一个错误。日志上写着:
java.lang.IllegalArgumentException: KeyValue size too large
at org.apache.hadoop.hbase.client.HTable.validatePut(HTable.java:1521)
at org.apache.hadoop.hbase.client.BufferedMutatorImpl.validatePut(BufferedMutatorImpl.java:147)
at org.apac
HBase wal变得越来越大。详情如下:
3.2 K 9.6 K /hbase/.hbase-snapshot
0 0 /hbase/.hbck
0 0 /hbase/.tmp
0 0 /hbase/MasterProcWALs
534.2 G 1.6 T /hbase/WALs
400.3 M 1.2 G /hbase/archive
0 0 /hbase/corrupt
267.0 G 796.5 G /hbase/data
42 1
我有一个由rowkey = client_id生成的RDD,campaign_id:campaign_name= Json数组{campaign_id:campaign_name}
val clientsRDD = resultRDD.map(ClientRow.parseClientRow)
// change RDD of ClientRow objects to a DataFrame
val clientsDF = clientsRDD.toDF()
// Return the schema of this DataFrame
clientsDF.printSchema()
//
我加入了3个巨大的表格(十亿行表格)在HIVE。收集了所有的统计数据,但性能仍然很差(查询需要40分钟以上)。
是否有可以在配置单元提示中设置的参数以获得更好的性能?
当我尝试执行时,我看到的信息如下
Sep 4, 2015 7:40:23 AM INFO: parquet.hadoop.ParquetInputFormat: Total input paths to process : 1
Sep 4, 2015 7:40:23 AM INFO: parquet.hadoop.ParquetFileReader: reading another 1 footers
所有的表都是在BigSql