腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
祝威廉
专栏成员
举报
308
文章
212348
阅读量
45
订阅数
订阅专栏
申请加入专栏
全部文章(308)
sql(105)
spark(71)
其他(68)
编程算法(42)
python(30)
api(25)
大数据(24)
机器学习(19)
数据库(17)
java(16)
存储(16)
scala(15)
深度学习(14)
开源(14)
人工智能(13)
json(12)
分布式(11)
html(10)
云数据库 SQL Server(10)
神经网络(9)
容器(9)
hbase(9)
网站(8)
http(8)
数据处理(8)
数据湖(8)
容器镜像服务(7)
yarn(7)
运维(7)
apache(6)
es 2(6)
hive(6)
jdbc(6)
https(6)
kafka(6)
对象存储(5)
负载均衡(5)
ide(5)
缓存(5)
网络安全(5)
微信(5)
tensorflow(4)
jar(4)
文件存储(4)
TDSQL MySQL 版(4)
推荐系统(4)
react(3)
node.js(3)
xml(3)
git(3)
github(3)
linux(3)
负载均衡缓存(3)
zookeeper(3)
markdown(3)
rpc(3)
数据分析(3)
commit(3)
javascript(2)
bash(2)
云数据库 Redis(2)
打包(2)
nginx(2)
bash 指令(2)
访问管理(2)
kubernetes(2)
shell(2)
jvm(2)
sql server(2)
数据结构(2)
系统架构(2)
parquet(2)
upsert(2)
部署(2)
官方文档(1)
自动驾驶(1)
c++(1)
php(1)
ruby(1)
硬件开发(1)
maven(1)
spring(1)
mapreduce(1)
mongodb(1)
电商(1)
企业(1)
云数据仓库 PostgreSQL(1)
自动化(1)
无人驾驶(1)
jdk(1)
面向对象编程(1)
线性回归(1)
keras(1)
cdn(1)
安全(1)
机器人(1)
openapi(1)
腾讯云开发者社区(1)
云计算(1)
任务调度(1)
特征工程(1)
sdk(1)
es(1)
allocation(1)
csv(1)
curl(1)
join(1)
mysql(1)
overwrite(1)
package(1)
pool(1)
rename(1)
tar(1)
工作(1)
模型(1)
数据(1)
索引(1)
研发(1)
搜索文章
搜索
搜索
关闭
【短文】为什么要关注技术趋势
数据湖
其他
很多对技术持有保守心态的人,总是希望某项技术烂大街以后再买入,但是技术本身并不是凭空而来的,而是实际的需求驱动的。这意味着,当它烂大街的时候,其实可能已经不能支撑现阶段公司业务的诉求了。
用户2936994
2022-07-21
214
0
华为为什么应该放弃终端消费者业务
硬件开发
其他
华为手机部门占据整个华为的营收比例接近50%了,怎么可能放弃?但是现在华为面对的是生存问题,如果不放弃,很有可能真的会倒下。
用户2936994
2022-04-07
338
0
MLSQL 对Python的支持之路
其他
Python是做机器学习框架一定要支持的。MLSQL很早就支持集成Python脚本做模型的训练和预测。
用户2936994
2018-10-11
703
0
如何使用MLSQL中的帮助指令学习模块的使用
其他
MLSQL 已经实现了文章中描述的功能 如何实现语法的自解释(MLSQL易用性设计有感) 。
用户2936994
2018-09-29
933
0
如何实现语法的自解释(MLSQL易用性设计有感)
其他
突然想明白了一件事, 语法应该是自解释的。什么意思呢,就是用户需要有一个学习语法的语法,而这个语法应该极度简单,他只要花上一分钟,甚至依靠直觉就能知道怎么用,透过这个口,以点窥面,让用户具备自主学习其他语法的能力。
用户2936994
2018-09-29
487
0
如何实现AutoML--让机器先做出Baseline
其他
我之前写过一篇如何实现AutoML -- 先Auto每个环节,大致思路是让机器先自动化每一个小环节,每个环节输出唯一一个结果,这样可以极大的简化搜索空间。比如我们有三个环节,A,B,C,分别产出10,10,10种可能,为了得到全局最优,我们需要10*10*10尝试1000次完整计算。而如果每个只取一个局部最优,那么只需要计算30次,虽然最终结果可能不是最优的,但在现实中,这也是一个比较可行的方案。
用户2936994
2018-09-29
505
0
如何用MLSQL快速调试Structured Streaming程序
其他
早上对Structured Streaming 的window函数, Output Mode 以及Watermark有些疑惑的地方。Structured Streaming 的文档偏少,而且网上的文章同质化太严重,基础的不能再基础了,但是我也不想再开个测试的工程项目,所以直接就给予MLSQL来调试。
用户2936994
2018-09-29
401
0
MLSQL是如何集成TensorFlow Cluster的
其他
我们知道MLSQL支持SKLearn,TF等流行的算法框架,不过虽然支持了多个实例同时运行,但其实每个模型都需要跑全部数据。有的时候数据太大,确实是个问题,所以这个时候还是需要引入Cluster的。MLSQL基于Spark,所以问题就变成了如何在Spark里集成TF Cluster了。TFoS 已经实现了类似的功能,但遗憾的是,TFoS完全是用Python编写的,并且每次都需要启动一个新的Spark 实例来运行,overhead 是比较高的。
用户2936994
2018-08-27
366
0
Spark 2.3.0 如何处理图片以及存在的一些问题
其他
因为需要在MLSQL里开发一个图片处理模块(以及配套数据源),使用上大概是这样子的:
用户2936994
2018-08-27
1.1K
0
算法训练和模型部署如何避免多次重写数据预处理代码
其他
前段时间,我们对接算法的工程师哭丧的和我说,模型生成后一般都要部署成API的形态对外提供服务,但是算法工程师并没有提供如何将一条数据转化特征向量的方法,他能拿到的是代码逻辑以及一些“中间元数据”。数据预处理本来就复杂,翻译也是一件极其困难的事情。我解释了这件事情难以解决的原因,但是显然他还是有些失望。
用户2936994
2018-08-27
1K
0
Structured Streaming如何实现Parquet存储目录按时间分区
其他
StreamingPro现在支持以SQL脚本的形式写Structured Streaming流式程序了: mlsql-stream。不过期间遇到个问题,我希望按天进行分区,但是这个分区比较特殊,就是是按接收时间来落地进行分区,而不是记录产生的时间。
用户2936994
2018-08-27
952
0
如何实现AutoML -- 先Auto每个环节
其他
最近一直在思考如何提高算法工程师效率,并且能让普通工程师也参与进来,毕竟现在来看,招聘到一个合格的算法成本颇高。经过对现实中很多场景的观察,我发现很多情况下算法训练并没有太多的数据可以用(标注的好的数据是昂贵的),那么通过算力实现AutoML则是一种可能的选择。 在StreamingPro中,特征处理都是分布式的,但是到最后模型训练,tensorflow/sklearn目前还都都是单机实现,那么大部分节点都会是空闲的,所以这个时候通过加强算力的利用率来提供AutoML程度,显然是相当划算的。
用户2936994
2018-08-27
475
0
CrawlerSQL 设计
其他
调度服务,比如每个url的抓取周期。 抓取服务:调度会给url,抓取服务负责实际的抓取
用户2936994
2018-08-27
326
0
MLSQL如何支持部署SKLearn,Tensorflow,MLLib模型提供API预测服务
其他
部署成API服务时,除了要把raw数据特征化成向量外,研发还要想着怎么加载模型,产生模型的框架五花八门,比如Tensorflow,SKlearn,Spark MLllib等每个框架都有自己的模型格式。在我司,有一次用Sklearn研发了一个模型,研发资源比较紧张,没办法,算法同学治好自己用Python flask搭建了一个API,然后部署成微服务(多实例来解决并发能力)。
用户2936994
2018-08-27
820
0
为什么去开发一个MLSQL
其他
第一个,算法的着眼点是,用最快速的方式清洗一些数据出来,然后接着建模训练,评估预测效果,之后再重复清洗数据,再试验。因为很多算法工程师都是Python系的,对他们来说,最简单的方式自然是写python程序。一旦确认清洗方式后,这种数据清洗工作,最后研发工程师还要再重新用Spark去实现一遍。那么如果让算法工程师在做数据清洗的时候,直接使用PySpark呢?这样复用程度是不是可以有所提高?实际上是有的。但是算法工程师初期用起来会比较吃力,因为PySpark的学习成本还是有的,而且不小。
用户2936994
2018-08-27
676
0
ElasticSearch QueryCache漫谈
其他
这些天在做ES调优,因为之前更多的是考虑ES的架构和可运维性,并没有过多关注query调优这块。今天一查Query Cache相关的内容,发现是少之又少。于是自己深入Dig了下,总算是有所了解。
用户2936994
2018-08-27
1.2K
0
初冬的阳光-谈推荐,产品,需求
其他
今天AQI指数是22,比房间开着净化器(40)还好些。加上能够和这初冬温度恰好中和的阳光的击打,穿着短裤在阳台的吊床上,也是不冷的。然而阳光还是要点滴洒落的感觉最好,暖暖又不会让人难受。在这如同瀑布一样的阳光下我终究是没办法看书的。
用户2936994
2018-08-27
480
0
从DataFrame自动化特征抽取的尝试
其他
虽然提供了很多Estimator/Transformer, 正如这篇文章所显示的,如何基于SDL+TensorFlow/SK-Learn开发NLP程序,处理的代码依然是很多的,能不能进一步简化呢?其实还是有办法的。我们先来看个示例。
用户2936994
2018-08-27
408
0
利用PySpark 数据预处理(特征化)实战
其他
之前说要自己维护一个spark deep learning的分支,加快SDL的进度,这次终于提供了一些组件和实践,可以很大简化数据的预处理。
用户2936994
2018-08-27
1.7K
0
如何基于SDL+TensorFlow/SK-Learn开发NLP程序
其他
确保安装了python 2.7 ,强烈建议你使用Virtualenv方便python环境的管理。之后通过pip 安装pyspark
用户2936994
2018-08-27
425
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档