首页
学习
活动
专区
工具
TVP
发布

祝威廉

专栏作者
308
文章
203419
阅读量
44
订阅数
【短文】为什么要关注技术趋势
很多对技术持有保守心态的人,总是希望某项技术烂大街以后再买入,但是技术本身并不是凭空而来的,而是实际的需求驱动的。这意味着,当它烂大街的时候,其实可能已经不能支撑现阶段公司业务的诉求了。
用户2936994
2022-07-21
2030
华为为什么应该放弃终端消费者业务
华为手机部门占据整个华为的营收比例接近50%了,怎么可能放弃?但是现在华为面对的是生存问题,如果不放弃,很有可能真的会倒下。
用户2936994
2022-04-07
3250
MLSQL 对Python的支持之路
Python是做机器学习框架一定要支持的。MLSQL很早就支持集成Python脚本做模型的训练和预测。
用户2936994
2018-10-11
6830
如何使用MLSQL中的帮助指令学习模块的使用
MLSQL 已经实现了文章中描述的功能 如何实现语法的自解释(MLSQL易用性设计有感) 。
用户2936994
2018-09-29
9080
如何实现语法的自解释(MLSQL易用性设计有感)
突然想明白了一件事, 语法应该是自解释的。什么意思呢,就是用户需要有一个学习语法的语法,而这个语法应该极度简单,他只要花上一分钟,甚至依靠直觉就能知道怎么用,透过这个口,以点窥面,让用户具备自主学习其他语法的能力。
用户2936994
2018-09-29
4620
如何实现AutoML--让机器先做出Baseline
我之前写过一篇如何实现AutoML -- 先Auto每个环节,大致思路是让机器先自动化每一个小环节,每个环节输出唯一一个结果,这样可以极大的简化搜索空间。比如我们有三个环节,A,B,C,分别产出10,10,10种可能,为了得到全局最优,我们需要10*10*10尝试1000次完整计算。而如果每个只取一个局部最优,那么只需要计算30次,虽然最终结果可能不是最优的,但在现实中,这也是一个比较可行的方案。
用户2936994
2018-09-29
4950
如何用MLSQL快速调试Structured Streaming程序
早上对Structured Streaming 的window函数, Output Mode 以及Watermark有些疑惑的地方。Structured Streaming 的文档偏少,而且网上的文章同质化太严重,基础的不能再基础了,但是我也不想再开个测试的工程项目,所以直接就给予MLSQL来调试。
用户2936994
2018-09-29
3770
MLSQL是如何集成TensorFlow Cluster的
我们知道MLSQL支持SKLearn,TF等流行的算法框架,不过虽然支持了多个实例同时运行,但其实每个模型都需要跑全部数据。有的时候数据太大,确实是个问题,所以这个时候还是需要引入Cluster的。MLSQL基于Spark,所以问题就变成了如何在Spark里集成TF Cluster了。TFoS 已经实现了类似的功能,但遗憾的是,TFoS完全是用Python编写的,并且每次都需要启动一个新的Spark 实例来运行,overhead 是比较高的。
用户2936994
2018-08-27
3490
Spark 2.3.0 如何处理图片以及存在的一些问题
因为需要在MLSQL里开发一个图片处理模块(以及配套数据源),使用上大概是这样子的:
用户2936994
2018-08-27
1.1K0
算法训练和模型部署如何避免多次重写数据预处理代码
前段时间,我们对接算法的工程师哭丧的和我说,模型生成后一般都要部署成API的形态对外提供服务,但是算法工程师并没有提供如何将一条数据转化特征向量的方法,他能拿到的是代码逻辑以及一些“中间元数据”。数据预处理本来就复杂,翻译也是一件极其困难的事情。我解释了这件事情难以解决的原因,但是显然他还是有些失望。
用户2936994
2018-08-27
1K0
Structured Streaming如何实现Parquet存储目录按时间分区
StreamingPro现在支持以SQL脚本的形式写Structured Streaming流式程序了: mlsql-stream。不过期间遇到个问题,我希望按天进行分区,但是这个分区比较特殊,就是是按接收时间来落地进行分区,而不是记录产生的时间。
用户2936994
2018-08-27
9070
如何实现AutoML -- 先Auto每个环节
最近一直在思考如何提高算法工程师效率,并且能让普通工程师也参与进来,毕竟现在来看,招聘到一个合格的算法成本颇高。经过对现实中很多场景的观察,我发现很多情况下算法训练并没有太多的数据可以用(标注的好的数据是昂贵的),那么通过算力实现AutoML则是一种可能的选择。 在StreamingPro中,特征处理都是分布式的,但是到最后模型训练,tensorflow/sklearn目前还都都是单机实现,那么大部分节点都会是空闲的,所以这个时候通过加强算力的利用率来提供AutoML程度,显然是相当划算的。
用户2936994
2018-08-27
4550
CrawlerSQL 设计
调度服务,比如每个url的抓取周期。 抓取服务:调度会给url,抓取服务负责实际的抓取
用户2936994
2018-08-27
3150
MLSQL如何支持部署SKLearn,Tensorflow,MLLib模型提供API预测服务
部署成API服务时,除了要把raw数据特征化成向量外,研发还要想着怎么加载模型,产生模型的框架五花八门,比如Tensorflow,SKlearn,Spark MLllib等每个框架都有自己的模型格式。在我司,有一次用Sklearn研发了一个模型,研发资源比较紧张,没办法,算法同学治好自己用Python flask搭建了一个API,然后部署成微服务(多实例来解决并发能力)。
用户2936994
2018-08-27
8020
为什么去开发一个MLSQL
第一个,算法的着眼点是,用最快速的方式清洗一些数据出来,然后接着建模训练,评估预测效果,之后再重复清洗数据,再试验。因为很多算法工程师都是Python系的,对他们来说,最简单的方式自然是写python程序。一旦确认清洗方式后,这种数据清洗工作,最后研发工程师还要再重新用Spark去实现一遍。那么如果让算法工程师在做数据清洗的时候,直接使用PySpark呢?这样复用程度是不是可以有所提高?实际上是有的。但是算法工程师初期用起来会比较吃力,因为PySpark的学习成本还是有的,而且不小。
用户2936994
2018-08-27
6540
ElasticSearch QueryCache漫谈
这些天在做ES调优,因为之前更多的是考虑ES的架构和可运维性,并没有过多关注query调优这块。今天一查Query Cache相关的内容,发现是少之又少。于是自己深入Dig了下,总算是有所了解。
用户2936994
2018-08-27
1.2K0
初冬的阳光-谈推荐,产品,需求
今天AQI指数是22,比房间开着净化器(40)还好些。加上能够和这初冬温度恰好中和的阳光的击打,穿着短裤在阳台的吊床上,也是不冷的。然而阳光还是要点滴洒落的感觉最好,暖暖又不会让人难受。在这如同瀑布一样的阳光下我终究是没办法看书的。
用户2936994
2018-08-27
4680
从DataFrame自动化特征抽取的尝试
虽然提供了很多Estimator/Transformer, 正如这篇文章所显示的,如何基于SDL+TensorFlow/SK-Learn开发NLP程序,处理的代码依然是很多的,能不能进一步简化呢?其实还是有办法的。我们先来看个示例。
用户2936994
2018-08-27
3860
利用PySpark 数据预处理(特征化)实战
之前说要自己维护一个spark deep learning的分支,加快SDL的进度,这次终于提供了一些组件和实践,可以很大简化数据的预处理。
用户2936994
2018-08-27
1.7K0
如何基于SDL+TensorFlow/SK-Learn开发NLP程序
确保安装了python 2.7 ,强烈建议你使用Virtualenv方便python环境的管理。之后通过pip 安装pyspark
用户2936994
2018-08-27
4080
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档