腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

祝威廉

专栏作者

308

文章

202449

阅读量

44

订阅数

从图像标注开始，用 Byzer 加 Xtreme1 完成图像实例分割训练

数据湖对象存储存储 python json

要完整的支持深度学习，需要一个很长的 Pipeline，通常我们的工作起步于标注平台, 尽管Byzer 也可以作为标注平台的上游，比如对图片和视频做一个统一的处理（诸如缩放成统一大小等），然后再放到标注平台里。

2022-11-12

6290

Delta 实现Partial Merge

json kafka 大数据

所谓Partial Merge 是指，假设我们有a,b,c,d 四个字段，现在来了一千条记录，每条记录只会包含这四个字段的一个或者多个，并且，每条记录包含的字段都不一样。

2022-07-21

3500

更新操作的秘密

json hbase commit parquet upsert

让我选最核心的特性的话，我会选择第二个。在大数据领域，我们也是一步步进化的，从最早的数据存储采用纯文本，到后面ORC/Parquet等面向读的格式。但是他们都存在一个一个很大的问题，就是不可变，只增。但现实中的业务场景里太需要Upsert这个功能了。有了这个功能，对架构来说真的是如沐春风。

2022-07-21

3700

Delta Lake 目录结构探秘

json html 编程算法

key=a,key=b有没有非常熟悉的感觉？是不是和hive里分区表非常类似？没错，他就是一个分区字段。进去看看其实就是一些parquet文件。如果delta表没有分区字段，那么这些parquet文件都会在根目录里。

2022-07-21

5030

简单而又有效的设计才是好设计

Delta刚开源的时候我就去使用了一把，然后因为刚开源，很多功能还是缺失的，比如很重要的upsert/compaction 等。于是我就开发了

2022-07-21

1780

SQL智能代码补全引擎【sql-code-intelligence】介绍

spark sql scala json 数据库

sql-code-intelligence 支持标准的Spark SQL补全，也支持[MLSQL](allwefantasy/mlsql)语法补全。

2022-04-25

1K0

How delta works

Most existing big data storages based on HDFS are lack of feature upsert(if exists then update otherwise add). This means you may suffer from many situations:

2019-08-05

6850

多个不同类型对象如何统一JSon序列化小技巧

文件存储 json

标题其实没说明白，就是假设我有四个不同类型的对象：A,B,C,D 但是呢，我序列化的时候不知道这对象会是哪个，反序列化的时候也不知道应该用哪个进行反序列化。

2019-06-13

1.5K0

Your Guide to Python with MLSQL Stack (二)

sql python http json

In the previous post Your Guide to NLP with MLSQL Stack (一), we already have known how to build a RandomForest model to classify text content. The TF/IDF, RandomForest are all built-in algorithms and implemented by Java. In this post, we will show you how to use Python to do the same job.

2019-05-14

5140

Spark SQL操作JSON字段小Tips

很多时候，比如用structure streaming消费kafka数据，默认可能是得到key,value字段，key是偏移量，value是一个byte数组。很可能value其实是一个Json字符串。这个时候我们该如何用SQL操作这个json里的东西呢？另外，如果我处理完的数据，我想写入到kafka,但是我想把整条记录作为json格式写入到Kafka,又该怎么写这个SQL呢？

2018-08-27

1.5K0

StreamingPro-Editor, 基于Intellij Idea 的编辑器插件发布

xml json 开源

StreamingPro在内部已经用在比较复杂的项目上了。所以导致配置文件巨复杂，之前同事提到这事，然后我自己把配置代码拉下来，看了下确实如此。一开始想着能否利用其它格式，比如自定义的，或者换成XML/Yaml等，后面发现JSON其实已经算是不错的了，项目大了，怎么着都复杂。后面反复思量，大致从编辑器这个方向做下enhance,可能可以简化写配置的人的工作量。所以有了这个项目。

2018-08-27

4040

StreamingPro添加Scala script 模块支持

SQL 在解析字符串方面，能力还是有限，因为支持的算子譬如substring,split等有限，且不具备复杂的流程表达能力。我们内部有个通过JSON描述的DSL引擎方便配置化解析，然而也有一定的学习时间成本。

2018-08-27

6960

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态