前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SQL脚本实现算法模型的训练,预测

SQL脚本实现算法模型的训练,预测

作者头像
用户2936994
发布2018-08-27 14:40:38
1K0
发布2018-08-27 14:40:38
举报
文章被收录于专栏:祝威廉祝威廉

前言

搜索团队正好需要计算一些词汇的相似性,这个用Word2Vec是很方便的。于是我立马安排算法团队帮个忙弄下。但回头想想,因为这么点事,打断了算法手头的工作,这简直不能忍。

由于我司内部已经在使用基于StreamingPro的Skone平台,通过对SQL做enhance,已经能实现类似hive的脚本引擎了。如果上面的word2vec能直接也用类似sql的语言完成,那开发只要打开web,写几条SQL就自己完成了。

这个时候就给自己定了个目标:简单的算法,研发可以通过这个feature自己完成,尽可能减少对正在做攻关的算法团队的打搅。

使用演示

详细实现代码参看xql-dsl 分支。首先我们需要启动StreamingPro作为一个sql server ,如何启动 现在你可以通过rest接口提交SQL脚本给该服务了。

首先,我们加载一个csv文件:

代码语言:javascript
复制
load csv.`/tmp/test.csv` options header="True" as ct;

csv内容如下:

代码语言:javascript
复制
body
a b c
a d m
j d c
a b c
b b c

这个csv文件被映射为表名ct。只有一个字段body。现在我们需要对body字段进行切分,这个也可以通过sql来完成:

代码语言:javascript
复制
select split(body," ") as words from ct as new_ct;

新表叫new_ct,现在,可以开始训练了,把new_ct喂给word2vec即可:

代码语言:javascript
复制
train new_ct as word2vec.`/tmp/w2v_model` where inputCol="words";

word2vec表示算法名, /tmp/w2v_model 则表示把训练好的模型放在哪。where 后面是模型参数。

最后,我们注册一个sql函数:

代码语言:javascript
复制
register word2vec.`/tmp/w2v_model` as w2v_predict;

其中w2v_predict是自定义函数名。这样,我们在sql里就可以用这个函数了。我们来用一把:

代码语言:javascript
复制
select words[0] as w, w2v_predict(words[0]) as v from new_ct as result;

给一个词,就可以拿到这个词的向量了。

我们把它保存成json格式作为结果:

代码语言:javascript
复制
save result as csv.`/tmp/result`;

结果是这样的:

WX20180113-131009@2x.png

最后完整的脚本如下:

代码语言:javascript
复制
load csv.`/tmp/test.csv` options header="True" as ct;
select split(body," ") as words from ct as new_ct;
train new_ct as word2vec.`/tmp/w2v_model` where inputCol="words";
register word2vec.`/tmp/w2v_model` as w2v_predict;
select words[0] as w, w2v_predict(words[0]) as v from new_ct as result;
save overwrite result as json.`/tmp/result`;

大家可以用postman测试:

WX20180113-131211@2x.png

支持算法(不断更新)

  • NaiveBayes
  • RandomForest
  • GBTRegressor
  • LDA
  • KMeans
  • FPGrowth
  • GBTs
  • LSVM

总结

通过将机器学习算法SQL脚本化,很好的衔接了数据处理和训练,预测。同时服务化很好的解决了环境依赖问题。当然终究是没法取代写代码,但是简单的任务就可以用简单的方式解决了。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.01.13 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 使用演示
  • 支持算法(不断更新)
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档