首页
学习
活动
专区
工具
TVP
发布

祝威廉

专栏作者
308
文章
203406
阅读量
44
订阅数
如何将Python算法模型注册成Spark UDF函数实现全景模型部署
> 本文作者来自MLSQL社区 & Kyligence 机器学习平台工程师 Andie Huang
用户2936994
2022-07-21
7270
给大家引荐下我的开源项目【们】
效率在我看来是至关重要的。关于我对效率的理解,还可以看看我这篇文章 【抖音短文】痛点不能驱动一切,效率驱动才是
用户2936994
2022-07-21
3780
大数据平台和AI平台应该如何整合
大数据和AI两者最核心的部分都是数据。大数据的主要工作是对数据进行各种转换和存储。而AI的主要工作是学习数据并且得出模型。 AI天然需要大数据的基础,因为AI需要各种形态的数据,而我们得到这些形态的数据,必然离不开大数据。就此而言,他们两个合在一起,才是一个完整的工作流。
用户2936994
2022-07-21
1K0
Ray进程布局一览
可能标题有点让人困惑,其实我是想知道,在一个标准的ray集群,到底都有哪些进程存在。比如spark运行在yarn上,那么整个物理集群上会有如下几类进程:
用户2936994
2022-07-21
4970
Byzer UDF 函数开发指南
动态 UDF的使用最简单,用户可以使用 Byzer 的 register 语句将一段 Scala/Java 代码注册成 UDF.
用户2936994
2022-04-07
9950
为什么需要一个聪明且强势的编译器
我从2005年开始学习编程。到现在为止的这段期间,我已经使用了非常多的语言。包括C, Java, Ruby,JavaScript, Groovy, Scala.
用户2936994
2019-08-06
5470
Rust FFI 实践
部门算法团队开始成长起来,开始有越来越多的尝试以及成果,但是现在工程方面严重的限制了(主要是做预测服务)他们的研究成果转化为实际输出的能力。去年下半年,我们就发现TF官方的Java binding 存在严重的内存泄露问题,而TF Java binding 因为封装包括训练和预测所需要的API,比较复杂,我们也难以更改。同时,使用TF serving,就需要提供标准的RPC调用来完成交互,而所有的数据处理等工作都是在Java端,这也对运维模式产生一定的压力,毕竟要维护serving集群,研发工程师要对接serving才能完成一个端到端的预测。
用户2936994
2019-05-06
1K0
PySpark 通过Arrow加速
PySpark是Spark 实现 Unify BigData && Machine Learning目标的基石之一。通过PySpark,我们可以用Python在一个脚本里完成数据加载,处理,训练,预测等完整Pipeline,加上DB良好的notebook的支持,数据科学家们会觉得非常开心。当然缺点也是有的,就是带来了比较大的性能损耗。
用户2936994
2019-02-27
1.8K0
ServiceFramework作为Java Web框架都有哪些不错的设计
最近需要开发一个纯API的项目,mlsql-cluster,从无到有,到最后完整的proxy功能开发完毕,只花了四个小时不到,自己不尽小感叹了一把 ServiceFramework的高效。
用户2936994
2019-02-25
6480
如何按程序员思维写分析师脚本
今天无意在在某群里,看到一个很复杂的SQL脚本,join很多,子查询很多,union很多,case when也很多。然后就让我们负责分析师脚本管理的同事给我看了下我们分析师的脚本,我发现随便一个竟然都超了三四百行。这脚本维护起来应该是个噩梦。如果要让一个东西好维护,好管理,那一定需要项目化,如何项目化一个脚本呢?
用户2936994
2018-09-29
4600
对Spark的那些【魔改】
这两年做streamingpro时,不可避免的需要对Spark做大量的增强。就如同我之前吐槽的,Spark大量使用了new进行对象的创建,导致里面的实现基本没有办法进行替换。
用户2936994
2018-08-27
6080
Web后端工程师应该拥抱前端了
大数据部发展到一定的阶段,无论是内部体系的完善,还是服务能力对外的暴露,对web端交互能力都有极大的需求,所以对web研发的诉求其实也是非常大的。
用户2936994
2018-08-27
3400
如何在Java应用里集成Spark MLlib训练好的模型做预测
昨天媛媛说,你是不是很久没写博客了。我说上一篇1.26号,昨天3.26号,刚好两个月,心中也略微有些愧疚。今天正好有个好朋友问,怎么在Java应用里集成Spark MLlib训练好的模型。在StreamingPro里其实都有实际的使用例子,但是如果有一篇文章讲述下,我觉得应该能让更多人获得帮助
用户2936994
2018-08-27
1.1K0
程序员效率的奥义
这套Web框架就是ServiceFramework。自己现在很多开源项目也都是基于这套Web框架是做的。比如StreamingPro编译的时候依赖的Web库是ServiceFramework,配置引擎则是ServiceframeworkDispatcher,都是自己非常常用的工具。
用户2936994
2018-08-27
3790
Spark Streaming 数据清理机制
为啥要了解机制呢?这就好比JVM的垃圾回收,虽然JVM的垃圾回收已经巨牛了,但是依然会遇到很多和它相关的case导致系统运行不正常。
用户2936994
2018-08-27
1.1K0
五分钟为HTTP接口提供Java/Scala SDK
我现在要使用yarn的两个接口,一个是application 列表,一个是根据appId获取这个app的详情。对应的接口大约如此:
用户2936994
2018-08-27
4810
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档