前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark Insert Hbase解决task not to serializable

Spark Insert Hbase解决task not to serializable

作者头像
shengjk1
发布2018-10-24 15:24:07
9760
发布2018-10-24 15:24:07
举报
文章被收录于专栏:码字搬砖码字搬砖
代码语言:javascript
复制
package javasssss;

import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.hive.HiveContext;

import java.util.Iterator;

/**
 * Created by shengjk1 on 2016/8/8.
 * blog address :http://blog.csdn.net/jsjsjs1789
 */
public class SparkInsertHbase {

    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("SparkInsertHbase");
        JavaSparkContext sc = new JavaSparkContext(conf);
        HiveContext hiveContext = new HiveContext(sc.sc());

        DataFrame df = hiveContext.sql("select id,name from test");

        **//froeachPartition  foreah 会报task not  to  serializer。但对mysql来说两者都ok,推荐使用foreachPartition**
        df.toJavaRDD().foreachPartition(new VoidFunction<Iterator<Row>>() {
            private static final long serialVersionUID = -3496935835002029475L;

            @Override
            public void call(Iterator<Row> rowIterator) throws Exception {
                HTable table = new HTable(HBaseConfiguration.create(), "test");
                /*
                hbase 新api
                Configuration config = HBaseConfiguration.create();
                //若此处配置zk,则写错程序会卡死。可通过界面查看日志,解决!
                //也可以不配,但需要classpath路径有hbase-site.xml文件
                config.set("hbase.zookeeper.quorum", "centos2");
                Connection conn= ConnectionFactory.createConnection(config);
                Table table=conn.getTable(TableName.valueOf("test"));
                */

                while (rowIterator.hasNext()) {
                    Row row = rowIterator.next();
                    String id = row.getString(0);
                    String name = row.getString(1);
                    Put put = new Put("f".getBytes());
                    put.addColumn("f".getBytes(), "id".getBytes(), id.getBytes());
                    put.addColumn("f".getBytes(), "name".getBytes(), name.getBytes());

                    table.put(put);
                }


//              String tableName = "test";
//              Table table=conn.getTable(TableName.valueOf(tableName));


            };

        });


    }

}

解决task not to serializable总共有三种办法,具体参照:

http://stackoverflow.com/questions/25250774/writing-to-hbase-via-spark-task-not-serializable

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016年08月09日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档