腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
祝威廉
专栏作者
举报
308
文章
202449
阅读量
44
订阅数
订阅专栏
申请加入专栏
全部文章(308)
sql(105)
spark(71)
其他(68)
编程算法(42)
python(30)
api(25)
大数据(24)
机器学习(19)
数据库(17)
java(16)
存储(16)
scala(15)
深度学习(14)
开源(14)
人工智能(13)
json(12)
分布式(11)
html(10)
云数据库 SQL Server(10)
神经网络(9)
容器(9)
hbase(9)
网站(8)
http(8)
数据处理(8)
数据湖(8)
容器镜像服务(7)
yarn(7)
运维(7)
apache(6)
es 2(6)
hive(6)
jdbc(6)
https(6)
kafka(6)
对象存储(5)
负载均衡(5)
ide(5)
缓存(5)
网络安全(5)
微信(5)
tensorflow(4)
jar(4)
文件存储(4)
TDSQL MySQL 版(4)
推荐系统(4)
react(3)
node.js(3)
xml(3)
git(3)
github(3)
linux(3)
负载均衡缓存(3)
zookeeper(3)
markdown(3)
rpc(3)
数据分析(3)
commit(3)
javascript(2)
bash(2)
云数据库 Redis(2)
打包(2)
nginx(2)
bash 指令(2)
访问管理(2)
kubernetes(2)
shell(2)
jvm(2)
sql server(2)
数据结构(2)
系统架构(2)
parquet(2)
upsert(2)
部署(2)
官方文档(1)
自动驾驶(1)
c++(1)
php(1)
ruby(1)
硬件开发(1)
maven(1)
spring(1)
mapreduce(1)
mongodb(1)
电商(1)
企业(1)
云数据仓库 PostgreSQL(1)
自动化(1)
无人驾驶(1)
jdk(1)
面向对象编程(1)
线性回归(1)
keras(1)
cdn(1)
安全(1)
机器人(1)
openapi(1)
腾讯云开发者社区(1)
云计算(1)
任务调度(1)
特征工程(1)
sdk(1)
es(1)
allocation(1)
csv(1)
curl(1)
join(1)
mysql(1)
overwrite(1)
package(1)
pool(1)
rename(1)
tar(1)
工作(1)
模型(1)
数据(1)
索引(1)
研发(1)
搜索文章
搜索
搜索
关闭
从图像标注开始,用 Byzer 加 Xtreme1 完成图像实例分割训练
数据湖
对象存储
存储
python
json
要完整的支持深度学习,需要一个很长的 Pipeline,通常我们的工作起步于标注平台, 尽管Byzer 也可以作为标注平台的上游,比如对图片和视频做一个统一的处理(诸如缩放成统一大小等),然后再放到标注平台里。
用户2936994
2022-11-12
629
0
Delta 实现Partial Merge
json
kafka
大数据
所谓Partial Merge 是指,假设我们有a,b,c,d 四个字段,现在来了一千条记录,每条记录只会包含这四个字段的一个或者多个,并且,每条记录包含的字段都不一样。
用户2936994
2022-07-21
350
0
更新操作的秘密
json
hbase
commit
parquet
upsert
让我选最核心的特性的话,我会选择第二个。在大数据领域,我们也是一步步进化的,从最早的数据存储采用纯文本,到后面ORC/Parquet等面向读的格式。但是他们都存在一个一个很大的问题,就是不可变,只增。但现实中的业务场景里太需要Upsert这个功能了。有了这个功能,对架构来说真的是如沐春风。
用户2936994
2022-07-21
370
0
Delta Lake 目录结构探秘
json
html
编程算法
key=a,key=b有没有非常熟悉的感觉?是不是和hive里分区表非常类似?没错,他就是一个分区字段。进去看看其实就是一些parquet文件。如果delta表没有分区字段,那么这些parquet文件都会在根目录里。
用户2936994
2022-07-21
503
0
简单而又有效的设计才是好设计
json
开源
Delta刚开源的时候我就去使用了一把,然后因为刚开源,很多功能还是缺失的,比如很重要的upsert/compaction 等。于是我就开发了
用户2936994
2022-07-21
178
0
SQL智能代码补全引擎【sql-code-intelligence】介绍
spark
sql
scala
json
数据库
sql-code-intelligence 支持标准的Spark SQL补全,也支持[MLSQL](allwefantasy/mlsql)语法补全。
用户2936994
2022-04-25
1K
0
How delta works
json
Most existing big data storages based on HDFS are lack of feature upsert(if exists then update otherwise add). This means you may suffer from many situations:
用户2936994
2019-08-05
685
0
多个不同类型对象如何统一JSon序列化小技巧
文件存储
json
标题其实没说明白,就是假设我有四个不同类型的对象:A,B,C,D 但是呢,我序列化的时候不知道这对象会是哪个,反序列化的时候也不知道应该用哪个进行反序列化。
用户2936994
2019-06-13
1.5K
0
Your Guide to Python with MLSQL Stack (二)
sql
python
http
json
In the previous post Your Guide to NLP with MLSQL Stack (一), we already have known how to build a RandomForest model to classify text content. The TF/IDF, RandomForest are all built-in algorithms and implemented by Java. In this post, we will show you how to use Python to do the same job.
用户2936994
2019-05-14
514
0
Spark SQL操作JSON字段小Tips
spark
sql
json
很多时候,比如用structure streaming消费kafka数据,默认可能是得到key,value字段,key是偏移量,value是一个byte数组。很可能value其实是一个Json字符串。这个时候我们该如何用SQL操作这个json里的东西呢?另外,如果我处理完的数据,我想写入到kafka,但是我想把整条记录作为json格式写入到Kafka,又该怎么写这个SQL呢?
用户2936994
2018-08-27
1.5K
0
StreamingPro-Editor, 基于Intellij Idea 的编辑器插件发布
xml
json
开源
StreamingPro在内部已经用在比较复杂的项目上了。所以导致配置文件巨复杂,之前同事提到这事,然后我自己把配置代码拉下来,看了下确实如此。一开始想着能否利用其它格式,比如自定义的,或者换成XML/Yaml等,后面发现JSON其实已经算是不错的了,项目大了,怎么着都复杂。后面反复思量,大致从编辑器这个方向做下enhance,可能可以简化写配置的人的工作量。所以有了这个项目。
用户2936994
2018-08-27
404
0
StreamingPro添加Scala script 模块支持
scala
sql
json
SQL 在解析字符串方面,能力还是有限,因为支持的算子譬如substring,split等有限,且不具备复杂的流程表达能力。我们内部有个通过JSON描述的DSL引擎方便配置化解析,然而也有一定的学习时间成本。
用户2936994
2018-08-27
696
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档