首页
学习
活动
专区
工具
TVP
发布

祝威廉

专栏作者
308
文章
202419
阅读量
44
订阅数
从图像标注开始,用 Byzer 加 Xtreme1 完成图像实例分割训练
要完整的支持深度学习,需要一个很长的 Pipeline,通常我们的工作起步于标注平台, 尽管Byzer 也可以作为标注平台的上游,比如对图片和视频做一个统一的处理(诸如缩放成统一大小等),然后再放到标注平台里。
用户2936994
2022-11-12
6290
Byzer-yaml-visualiaztion 插件介绍
Byzer-yaml-visualization 是一款 Byzer 可视化插件。通过该插件,用户可以通过 YAML 配置文件描述图表。
用户2936994
2022-07-21
3720
如何将Python算法模型注册成Spark UDF函数实现全景模型部署
> 本文作者来自MLSQL社区 & Kyligence 机器学习平台工程师 Andie Huang
用户2936994
2022-07-21
7180
可编程的SQL是什么样的?
如果你使用传统编程语言,比如Python,那么恭喜你,你可能需要解决大部分你不需要解决的问题,用Python你相当于拿到了零部件,而不是一辆能跑的汽车。你花了大量时间去组装汽车,而不是去操控汽车去抵达自己的目的地。大部分非计算机专业的同学核心要解决的是数据操作问题,无论你是摆地摊,开餐馆,或者在办公室做个小职员,在政府机构做工作,你都需要基本的数据处理能力,这本质上是信息处理能力。 但是在操作数据前,你必须要学习诸如变量,函数,线程,分布式等等各种仅仅和语言自身相关的特性,这就变得很没有必要了。操作数据我们也可以使用 Excel(以及类似的软件),但是Excel有Excel的限制,譬如你各种点点点,还是有点低效的,有很多较为复杂的逻辑也不太好做,数据规模也有限。那什么交互最快,可扩展性最好?语言。你和计算机系统约定好的一个语言,有了语言交流,总是比点点点更高效的。这个语言是啥呢?就是SQL。
用户2936994
2022-07-21
6350
MLSQL: 可编程的SQL
SQL简单易用,但是现在大家用的多了,也慢慢发现它还是存在诸多问题的。我们认为良好的编程应该是创建小型、可理解、可重用的逻辑片段,并且这些逻辑片段还要被测试、被命名、被组织成包,而这些包之后可以用来构造更多有用的逻辑片段,这样的工作流程才是合理又便捷的。更进一步的,这些“高阶”能力应该是可选的,我们总是希望用户一开始能用最简单的方式来完成手头的工作。尽管如此,现在的SQL并不能很好的支持我们前面提到的这些。
用户2936994
2022-07-21
6620
MLSQL与JuiceFS在AI方向的整合畅享
RespectM同学在文章[MLSQL集成JuiceFs](16 - MLSQL集成JuiceFs)中,已经详细的讲解了如何整合两者。丢一个配置文件到SPARK_HOME/conf以及启动时带上SDK Jar就可以完美在MLSQL访问各种对象存储和HDFS了,这非常酷。
用户2936994
2022-07-21
4130
SQL 劝学篇
乘着AI这波东风,大部分媒体和机构,包括教育界都开始推Python了。不过值得欣慰的是,相比之前让非计算机专业科班的同学学C还是一个巨大的进步。我编程十多年,依然觉得C/C++好难,你让一个非计算机的同学学C/C++这不是扯淡么,严重阻碍了编程的普及。
用户2936994
2022-07-21
2780
大数据平台和AI平台应该如何整合
大数据和AI两者最核心的部分都是数据。大数据的主要工作是对数据进行各种转换和存储。而AI的主要工作是学习数据并且得出模型。 AI天然需要大数据的基础,因为AI需要各种形态的数据,而我们得到这些形态的数据,必然离不开大数据。就此而言,他们两个合在一起,才是一个完整的工作流。
用户2936994
2022-07-21
1K0
在Java应用中写Python提供预测服务实战
基础软件: JDK8,Conda(Python 3.6+),MySQL (5.6)
用户2936994
2022-07-21
5340
用Python写Rest Action -- ar-python插件介绍
我们知道web-platform 可以主要是以Java/Scala开发的。我们很希望能够支持用Python开发,所以,我们开发了ar-python插件。这个插件很早就开发了,这次完善之后,让他可以和user-system 插件配合,从而可以做精细化权限控制。
用户2936994
2022-07-21
4350
一个开发效率快到变态的插件based的Web框架
思考这两个问题让自己一宿没睡,凌晨2点多起来开始代码实现。因为以前其实已经有非常多的积累了,比如我很早很早就有开发web框架的经验(serviceframework),所以这个系统也快速的被开发出来。
用户2936994
2022-07-21
2760
MLSQL Stack 1.5.0 版本发布
1.5.0好像是MLSQL历时最长的一个版本。从九月初份到一月初,四个多月时间。这四个月搞出了很多大事情。这个版本,经过很多的用户实际的使用反馈(包括一些金融公司也有在使用),已经很稳定了,可以进入生产环境中使用。
用户2936994
2022-07-21
2210
Ray进程布局一览
可能标题有点让人困惑,其实我是想知道,在一个标准的ray集群,到底都有哪些进程存在。比如spark运行在yarn上,那么整个物理集群上会有如下几类进程:
用户2936994
2022-07-21
4920
Spark整合Ray思路漫谈(2)
首先,大家可以理解为k8s已经解决一切了,我们spark,ray都跑在K8s上。但是,如果我们希望一个spark 是实例多进程跑的时候,我们并不希望是像传统的那种方式,所有的节点都跑在K8s上,而是将executor部分放到yarn cluster. 在我们的架构里,spark driver 是一个应用,我们可以启动多个pod从而获得多个spark driver实例,对外提供负载均衡,roll upgrade/restart 等功能。也就是k8s应该是面向应用的。但是复杂的计算,我们依然希望留给Yarn,尤其是还涉及到数据本地性,然计算和存储放到一起(yarn和HDFS通常是在一起的),避免k8s和HDFS有大量数据交换。
用户2936994
2022-07-21
7900
SQL思维 VS 编程思维
第一个是,用SQL里的In查询,但是因为受限于SQL自身的长度,我们不可能把十万个ID都放到一条SQL里,所以我们将ID集合切分,然后并发去访问得到结果。
用户2936994
2022-07-21
2570
为什么特征工程要用 SQL 而不是 Python
我们常说机器学习是一门实验科学。所以相比较传统工程而言,机器学习分成两个大的阶段:
用户2936994
2022-05-18
7130
Meta(Facebook) 第三代 Notebook Daiquery 与 Byzer Notebook 对比
今天无意看到一篇文章,叫做SQL Notebooks: Combining the power of Jupyter and SQL editors for data analytics,在这篇文章里, Meta 介绍了自己的第三代 notebook 产品 Daiquery, 正如标题大家看到的,它的核心理念从一个以 Python 为主的 Notebook 转化成了一个以 SQL 为主, Python 为辅的 Notebook。 我觉得这是一个正确的进化路线。
用户2936994
2022-05-08
7330
写给【算法同学】的MLSQL机器学习教程
http://qwone.com/~jason/20Newsgroups/20news-19997.tar.gz
用户2936994
2022-04-25
6010
Byzer UDF 函数开发指南
动态 UDF的使用最简单,用户可以使用 Byzer 的 register 语句将一段 Scala/Java 代码注册成 UDF.
用户2936994
2022-04-07
9910
为什么说MLSQL是一个面向大数据和AI的语言
经过几个月的折腾,MLSQL 1.4.0版终于发布了。然后呢,我们也在这个版本正式对MLSQL做了新的定位,从原来的 "Unify BigData and Machine Learning" 转成了 "The Programming Language Designed For Big Data and AI"。 更多介绍可以参看 A Programming Language Designed For Big Data and AI
用户2936994
2022-04-02
4360
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档