MLSQL解决了什么问题

先看看做算法有哪些痛点(我们假设大部分算法的代码都是基于Python的):

  1. 项目难以重现,可阅读性和环境要求导致能把另外一个同事写的python项目运行起来不得不靠运气
  2. 和大数据平台衔接并不容易,需要让研发重新做工程实现,导致落地周期变长。
  3. 训练时数据预处理/特征化无法在预测时复用
  4. 集成到流式,批处理和提供API服务都不是一件容易的事情
  5. 代码/算法复用级别有限,依赖于算法自身的经验以及自身的工具箱,团队难以共享。
  6. 其他团队很难接入算法的工作

MLSQL如何解决这些问题呢?

统一交互语言

MLSQL提供了一套SQL的超集的DSL语法MLSQL,数据处理,模型训练,模型预测部署等都是以MLSQL语言交互,该语言简单易懂,无论算法,分析师,甚至运营都能看懂,极大的减少了团队的沟通成本,同时也使得更多的人可以做算法方面的工作。

数据预处理 / 算法模块化

所有较为复杂的数据预处理和算法都是模块化的,通过函数以及纯SQL来进行衔接。比如:

-- load data
load parquet.`${rawDataPath}` as orginal_text_corpus;

-- select only columns we care
select feature,label from orginal_text_corpus as orginal_text_corpus;

-- feature enginere moduel
train zhuml_orginal_text_corpus  as TfIdfInPlace.`${tfidfFeaturePath}` 
where inputCol="content" 
and `dic.paths`="/data/dict_word.txt" 
and stopWordPath="/data/stop_words"
and nGrams="2";

-- load data
load parquet.`${tfidfFeaturePath}/data` as tfidfdata;

--  algorithm module
train zhuml_corpus_featurize_training as PythonAlg.`${modelPath}` 
where pythonScriptPath="${sklearnTrainPath}"
-- kafka params for log
and `kafkaParam.bootstrap.servers`="${kafkaDomain}"
and `kafkaParam.topic`="test"
and `kafkaParam.group_id`="g_test-2"
and `kafkaParam.userName`="pi-algo"
-- distribute data
and  enableDataLocal="true"
and  dataLocalFormat="json"
-- sklearn params
and `fitParam.0.moduleName`="sklearn.svm"
and `fitParam.0.className`="SVC"
and `fitParam.0.featureCol`="features"
and `fitParam.0.labelCol`="label"
and `fitParam.0.class_weight`="balanced"
and `fitParam.0.verbose`="true"

and `fitParam.1.moduleName`="sklearn.naive_bayes"
and `fitParam.1.className`="GaussianNB"
and `fitParam.1.featureCol`="features"
and `fitParam.1.labelCol`="label"
and `fitParam.1.class_weight`="balanced"
and `fitParam.1.labelSize`="2"

-- python env
and `systemParam.pythonPath`="python"
and `systemParam.pythonParam`="-u"
and `systemParam.pythonVer`="2.7";

这段小脚本脚本完成了数据加载,特征工程,最后的训练。所有以train开头的,都是模块,以select 开头的都是标准sql, 以load开头的则是各种数据源的加载。

在MLSQL中,任何一个模块都有两个产出:模型和函数。训练时该模块会产生一个对应的模型,预测时该模型会提供一个函数,从而实现

  • 对训练阶段的数据处理逻辑,在预测时能进行复用。
  • 算法训练的模型可以直接部署成一个预测函数。

标准遵循

所有数据处理模块,算法模块,都有标准的暴露参数的方式,也就是前面例子类似下面的句子:

and `fitParam.0.labelCol`="label"
and `fitParam.0.class_weight`="balanced"
and `fitParam.0.verbose`="true"

比如该算法暴露了class_weight,labelCol,verbose等参数。所有人开发的算法模块和数据处理模块都可以很好的进行复用。

分布式和单机多种部署形态

MLSQL是基于Spark改造而成,这就直接继承了Spark的多个优点:

  • 你可以在MLSQL里获取基本上大部分存储的支持,比如ES,MySQL,Parquet,ORC,JSON,CSV等等
  • 你可以部署在多种环境里,比如Yarn,Mesos,Local等模式

数据处理模块/算法模型易于部署

同行启动一个local模式的MLSQL Server,然后注册我们训练的时候使用到的数据处理模块和算法模块,每个模块都会产生一个函数,接着就能通过http接口传递一个函数嵌套的方式完成一个pipeline的使用了。对于函数我们确保其响应速度,一般都是在毫秒级。 注册就是一个简单的register语句:

-- transform model into udf
register PythonAlg.`${modelPath}` as topic_spam_predict options 
pythonScriptPath="${sklearnPredictPath}"
;

支持所有提供了Python语言接口的算法框架的集成

只要实现MLSQL的标准规范,你就能够轻而易举的将各种框架集成到MLSQL中。目前已经支持SKlearn,同时有Keras图片处理等相关例子。算法可以专注于算法模块的研发,研发可以专注于数据处理模块的开发,所有的人都可以通过MLSQL复用这些模块,完成算法业务的开发。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

资源 | 让你事半功倍的小众Python库

提取数据,特别是从网络中提取数据是数据科学家的重要任务之一。Wget 是一个免费的工具,用于以非交互式方式从 Web 上下载文件。它支持 HTTP、HTTPS ...

1413
来自专栏张善友的专栏

基于模型的测试工具: Spec Explorer

一、什么是基于模型的测试 Wiki的描述如下:基于模型的测试属于软件测试领域的一种测试方法。按照此方法,测试用例可以完全或部分的利用模型自动产生。以上所说的模型...

74910
来自专栏新智元

【重磅】TensorFlow 1.0 官方正式发布,重大更新及5大亮点

【新智元导读】昨天凌晨谷歌正式发布了TensorFlow1.0版,改进了库中的机器学习功能,发布了XLA的实验版本,对Python和Java用户开放,提升了de...

3907
来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(140)-库存进出策略

如何实现先进先出? 按照批次管理对仓库物料实施管理即可。即明确批次管理标准,入库产品按规定给其相应批次标识,并按照物料类别、批次号分层或分区存放,发料时,严格按...

3144
来自专栏华章科技

使用python抓取婚恋网用户数据并用决策树生成自己择偶观

之前在世纪佳缘上爬取过类似的数据,总体的感觉是上面的用户数据要么基本不填要么一看就很假,周围的一些老司机建议可以在花田网上看下,数据质量确实高很多,唯一的缺点就...

822
来自专栏机器之心

资源 | 小米开源移动端深度学习框架MACE:可转换TensorFlow模型

文档地址:https://mace.readthedocs.io/en/latest/

1453
来自专栏机器之心

资源 | 让你事半功倍的小众Python库

提取数据,特别是从网络中提取数据是数据科学家的重要任务之一。Wget 是一个免费的工具,用于以非交互式方式从 Web 上下载文件。它支持 HTTP、HTTPS ...

1483
来自专栏新智元

【TensorFlow重大升级】自动将Python代码转为TF Graph,大幅简化动态图处理!

作者:Alex Wiltschko, Dan Moldovan, Wolff Dobson

1302
来自专栏AI科技评论

开发 | 用PyTorch还是TensorFlow?斯坦福大学CS博士生带来全面解答

AI 科技评论按:关于深度学习的框架之争一直没有停止过。PyTorch,TensorFlow,Caffe还是Keras ?近日, 斯坦福大学计算机科学博士生Aw...

4406
来自专栏瓜大三哥

多周期路径的约束

放松时序要求 ? 应用1:clk1和clk2是同频但不同相,其中clk2相对于clk1有正向的相位偏移 set_multicycle_path -from [...

36410

扫码关注云+社区

领取腾讯云代金券