前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MLSQL初学者常见问题QA(持续更新)

MLSQL初学者常见问题QA(持续更新)

作者头像
用户2936994
发布2019-03-19 17:50:19
4960
发布2019-03-19 17:50:19
举报
文章被收录于专栏:祝威廉祝威廉祝威廉

常见问题集锦

数据源有详细参数配置文档么?比如kafka,我可以理解成kafka consumer的配置都可以写到option里面吗

MLSQL大部分数据源集成的是第三方实现。比如excel的支持得益于spark-excel项目。同样,Kafka的配置参数和Spark 对Kafka的需求配置是一样的,JDBC则也是标准的Spark文档中描述的那样。不过大部分人使用时,不会使用所有参数, MLSQL也提供了两种方式展示可选参数:

  1. 使用MLSQL Console, Console支持参数自动补全

image.png

MLSQL Console 实现了数据源和参数联动。不过目前只有部分数据源支持,我们会尽快覆盖所有数据源。

  1. 使用帮助语句。

查看所有数据源:

load _mlsql_.`datasources` as output;

查看具体某个数据源的可选参数:

load _mlsql_.`datasources/params/excel` as output;

image.png

除了数据源,其他所有MLSQL特有模块,也都是支持前面两种方式的。比如,我想查看BigDL模块的示例:

image.png

接着就可以看到:

image.png

或者通过命令查看所有可选参数:

load modelParams.`BigDLClassifyExt` as output;

后台是怎么区分batch还是streaming的?比如我load kafka,同时又load hbase,mysql或者es,这种情况下底层对应的作业时streaming的还是batch的,逻辑都是在window范围内执行的吗

后台是根据 set streamName="streamExample";因为流式计算我们需要用户定义一个唯一的名字。MLSQL底层是使用spark structured streaming,所以structured streaming存在的限制,MLSQL都存在。structured streaming支持对静态数据的Join。如果您需要深入,请多了解structured streaming。

engine本身是个spark的app,里面提供的restful服务,那么这个服务可以是高可用的吗?

Engine自身无法保证高可用,但是你可以通过如下两种方式的一种保持其高可用:

  1. 第一是部署环境比如在yarn-cluster模式下,Engine支持将自己注册到ZK中,而Yarn又能保证driver挂掉后自动找一个其他节点启动,但在yarn-client模式则不行。
  2. 第二个是,通过MLSQL-Cluster来完成。MLSQL-Cluster 现在实现了多策略的负载均衡,以及多集群的管理。通过负载均衡,也可以保证Engine的高可用,比如后端部署三个Engine,任意down掉两个,都不影响。
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.03.16 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 常见问题集锦
相关产品与服务
负载均衡
负载均衡(Cloud Load Balancer,CLB)提供安全快捷的流量分发服务,访问流量经由 CLB 可以自动分配到云中的多台后端服务器上,扩展系统的服务能力并消除单点故障。负载均衡支持亿级连接和千万级并发,可轻松应对大流量访问,满足业务需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档