祝威廉-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

祝威廉

专栏成员

308

文章

212348

阅读量

45

订阅数

【短文】为什么要关注技术趋势

数据湖其他

很多对技术持有保守心态的人，总是希望某项技术烂大街以后再买入，但是技术本身并不是凭空而来的，而是实际的需求驱动的。这意味着，当它烂大街的时候，其实可能已经不能支撑现阶段公司业务的诉求了。

2022-07-21

2140

华为为什么应该放弃终端消费者业务

硬件开发其他

华为手机部门占据整个华为的营收比例接近50%了，怎么可能放弃？但是现在华为面对的是生存问题，如果不放弃，很有可能真的会倒下。

2022-04-07

3380

MLSQL 对Python的支持之路

Python是做机器学习框架一定要支持的。MLSQL很早就支持集成Python脚本做模型的训练和预测。

2018-10-11

7030

如何使用MLSQL中的帮助指令学习模块的使用

MLSQL 已经实现了文章中描述的功能如何实现语法的自解释（MLSQL易用性设计有感）。

2018-09-29

9330

如何实现语法的自解释（MLSQL易用性设计有感）

突然想明白了一件事，语法应该是自解释的。什么意思呢，就是用户需要有一个学习语法的语法，而这个语法应该极度简单，他只要花上一分钟，甚至依靠直觉就能知道怎么用，透过这个口，以点窥面，让用户具备自主学习其他语法的能力。

2018-09-29

4870

如何实现AutoML--让机器先做出Baseline

我之前写过一篇如何实现AutoML -- 先Auto每个环节,大致思路是让机器先自动化每一个小环节，每个环节输出唯一一个结果，这样可以极大的简化搜索空间。比如我们有三个环节，A,B,C,分别产出10,10,10种可能，为了得到全局最优，我们需要10*10*10尝试1000次完整计算。而如果每个只取一个局部最优，那么只需要计算30次，虽然最终结果可能不是最优的，但在现实中，这也是一个比较可行的方案。

2018-09-29

5050

如何用MLSQL快速调试Structured Streaming程序

早上对Structured Streaming 的window函数， Output Mode 以及Watermark有些疑惑的地方。Structured Streaming 的文档偏少，而且网上的文章同质化太严重，基础的不能再基础了，但是我也不想再开个测试的工程项目，所以直接就给予MLSQL来调试。

2018-09-29

4010

MLSQL是如何集成TensorFlow Cluster的

我们知道MLSQL支持SKLearn,TF等流行的算法框架，不过虽然支持了多个实例同时运行，但其实每个模型都需要跑全部数据。有的时候数据太大，确实是个问题，所以这个时候还是需要引入Cluster的。MLSQL基于Spark，所以问题就变成了如何在Spark里集成TF Cluster了。TFoS 已经实现了类似的功能，但遗憾的是，TFoS完全是用Python编写的，并且每次都需要启动一个新的Spark 实例来运行，overhead 是比较高的。

2018-08-27

3660

Spark 2.3.0 如何处理图片以及存在的一些问题

因为需要在MLSQL里开发一个图片处理模块（以及配套数据源），使用上大概是这样子的：

2018-08-27

1.1K0

算法训练和模型部署如何避免多次重写数据预处理代码

前段时间，我们对接算法的工程师哭丧的和我说，模型生成后一般都要部署成API的形态对外提供服务，但是算法工程师并没有提供如何将一条数据转化特征向量的方法，他能拿到的是代码逻辑以及一些“中间元数据”。数据预处理本来就复杂，翻译也是一件极其困难的事情。我解释了这件事情难以解决的原因，但是显然他还是有些失望。

2018-08-27

1K0

Structured Streaming如何实现Parquet存储目录按时间分区

StreamingPro现在支持以SQL脚本的形式写Structured Streaming流式程序了： mlsql-stream。不过期间遇到个问题，我希望按天进行分区，但是这个分区比较特殊，就是是按接收时间来落地进行分区，而不是记录产生的时间。

2018-08-27

9520

如何实现AutoML -- 先Auto每个环节

最近一直在思考如何提高算法工程师效率，并且能让普通工程师也参与进来，毕竟现在来看，招聘到一个合格的算法成本颇高。经过对现实中很多场景的观察，我发现很多情况下算法训练并没有太多的数据可以用（标注的好的数据是昂贵的），那么通过算力实现AutoML则是一种可能的选择。在StreamingPro中，特征处理都是分布式的，但是到最后模型训练，tensorflow/sklearn目前还都都是单机实现，那么大部分节点都会是空闲的，所以这个时候通过加强算力的利用率来提供AutoML程度，显然是相当划算的。

2018-08-27

4750

CrawlerSQL 设计

调度服务，比如每个url的抓取周期。抓取服务：调度会给url,抓取服务负责实际的抓取

2018-08-27

3260

MLSQL如何支持部署SKLearn,Tensorflow,MLLib模型提供API预测服务

部署成API服务时，除了要把raw数据特征化成向量外，研发还要想着怎么加载模型，产生模型的框架五花八门，比如Tensorflow,SKlearn,Spark MLllib等每个框架都有自己的模型格式。在我司，有一次用Sklearn研发了一个模型，研发资源比较紧张，没办法，算法同学治好自己用Python flask搭建了一个API,然后部署成微服务（多实例来解决并发能力）。

2018-08-27

8200

为什么去开发一个MLSQL

第一个，算法的着眼点是，用最快速的方式清洗一些数据出来，然后接着建模训练，评估预测效果，之后再重复清洗数据，再试验。因为很多算法工程师都是Python系的，对他们来说，最简单的方式自然是写python程序。一旦确认清洗方式后，这种数据清洗工作，最后研发工程师还要再重新用Spark去实现一遍。那么如果让算法工程师在做数据清洗的时候，直接使用PySpark呢？这样复用程度是不是可以有所提高？实际上是有的。但是算法工程师初期用起来会比较吃力，因为PySpark的学习成本还是有的，而且不小。

2018-08-27

6760

ElasticSearch QueryCache漫谈

这些天在做ES调优，因为之前更多的是考虑ES的架构和可运维性，并没有过多关注query调优这块。今天一查Query Cache相关的内容，发现是少之又少。于是自己深入Dig了下，总算是有所了解。

2018-08-27

1.2K0

初冬的阳光-谈推荐，产品，需求

今天AQI指数是22，比房间开着净化器（40）还好些。加上能够和这初冬温度恰好中和的阳光的击打，穿着短裤在阳台的吊床上，也是不冷的。然而阳光还是要点滴洒落的感觉最好，暖暖又不会让人难受。在这如同瀑布一样的阳光下我终究是没办法看书的。

2018-08-27

4800

从DataFrame自动化特征抽取的尝试

虽然提供了很多Estimator/Transformer, 正如这篇文章所显示的，如何基于SDL+TensorFlow/SK-Learn开发NLP程序，处理的代码依然是很多的，能不能进一步简化呢？其实还是有办法的。我们先来看个示例。

2018-08-27

4080

利用PySpark 数据预处理（特征化）实战

之前说要自己维护一个spark deep learning的分支，加快SDL的进度，这次终于提供了一些组件和实践，可以很大简化数据的预处理。

2018-08-27

1.7K0

如何基于SDL+TensorFlow/SK-Learn开发NLP程序

确保安装了python 2.7 ,强烈建议你使用Virtualenv方便python环境的管理。之后通过pip 安装pyspark

2018-08-27

4250

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态