祝威廉-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

祝威廉

专栏成员

308

文章

212419

阅读量

45

订阅数

玄武(Xuanwu)给白泽(Byzer) 插上云原生的翅膀

kubernetes 大数据 spark jvm

之前我开发 Byzer-helm 的项目就觉得，要是 Kubernetes 上也有个类似 CDH 的管理工具就好了，我可以通过界面的方式安装大数据/AI 类的应用。现在，这个产品有了，就是云原生数据底座玄武里的 Xuanwu Manager 。该工具未来会内置主流的大数据应用，用户也可以根据 Xuanwu Manager 的标准发布自己的应用。这样上面的租户/用户就可以一键启动已经发布的大数据应用了。

2023-03-01

3000

从0开始，3步构建Nginx日志监控和运营指标

nginx 运维数据分析大数据对象存储

其次，很多部门对 Nginx 日志中可分析的数据都很重视。比如，对于运维团队而言，服务质量和流量带宽等统计 KPI 都可以从 Nginx 日志中获取。而对于公司的业务运营团队而言，运营活动或商品访问的 PV,UV 等，也可以从 Nginx 日志中统计出来。另外，像金融行业的风控模块，对 Nginx 日志其实也是有很大需求的。

2022-09-23

5660

如何使用开源 Byzer 和 JuiceFS 做实时Nginx日志分析

运维大数据 nginx kafka 对象存储

运维领域常见的方案是使用 ELK 全家桶，通过 Logstash 收集，直接写入 ElasticSearch, 配合web插件 Kibana 完成交互分析部分。

2022-07-21

6100

让我们再探讨是【移动数据】还是【移动计算】

spark 大数据 sql 存储文件存储

第一件事，是Spark 3.0 开始重构shuffle部分，用以支持remote shuffle。这意味着我们终于可以为shuffle专门准备一个存储集群了，比如一个单独的HDFS之类的。这是Spark架构前进的一小步，也是业界开始朝计算和存储分离走了坚实的一步。计算和存储分离的好处我们就不多讲，而计算和存储的分离的前提是内网速度要足够快，所以也意味着内网速度已经基本达到要求了。通过这个我是想告诉大家，内网已经足够快。就像5G足够快，会带来什么，很快就会有结果。

2022-07-21

3910

大数据平台和AI平台应该如何整合

sql 大数据数据处理 python java

大数据和AI两者最核心的部分都是数据。大数据的主要工作是对数据进行各种转换和存储。而AI的主要工作是学习数据并且得出模型。 AI天然需要大数据的基础，因为AI需要各种形态的数据，而我们得到这些形态的数据，必然离不开大数据。就此而言，他们两个合在一起，才是一个完整的工作流。

2022-07-21

1.1K0

2019年技术思维套路总结

大数据数据湖 sql

19年，在一些技术思维上形成了几点套路，不过目前还没有成体系，所以想到啥就写啥了，算是一个记录，避免自己以后忘了。

2022-07-21

1650

Delta 实现Partial Merge

json kafka 大数据

所谓Partial Merge 是指，假设我们有a,b,c,d 四个字段，现在来了一千条记录，每条记录只会包含这四个字段的一个或者多个，并且，每条记录包含的字段都不一样。

2022-07-21

3760

解决小文件问题

hbase 大数据 TDSQL MySQL 版缓存

为了解决小文件问题，我们也是八仙过海各显神通，一般而言可能都是写个MR/Spark程序读取特定目录的数据，然后将数据重新生成N个文件。但是在以前，这种模式会有比较致命的问题，因为在生成的新文件要替换原来的文件，而替换的过程不是原子过程，所以这个时候如果正好发生读，是会影响的。其次，很多读的程序，都会缓存文件路径，因为我们重新生成了文件，文件名称也变化了，导致读的程序的缓存失效，会发生比如文件找不到等异常。对于在一个进程比较好说，做下刷新就行，但是读往往是在不同的进程实例里，这个时候通知他们也是很难的事情。再极端一点，读取这个表的程序可能是另外一个团队维护的。所以其实小文件并没有想象的那么好解决，或者说能够优雅的解决。

2022-07-21

5100

如何围绕MLSQL构建数据中台

sql 大数据 es 网站

MLSQL 目前开源的部分包括三个组件： Console, 也就是Web控制台 Cluster, 方便管理和代理后端多个MLSQL Engine实例 Engine, 相当于MLSQL的JVM(脚本解释

2022-04-02

4220

为什么说MLSQL是一个面向大数据和AI的语言

sql 分布式大数据 python 机器学习

经过几个月的折腾，MLSQL 1.4.0版终于发布了。然后呢，我们也在这个版本正式对MLSQL做了新的定位，从原来的 "Unify BigData and Machine Learning" 转成了 "The Programming Language Designed For Big Data and AI"。更多介绍可以参看 A Programming Language Designed For Big Data and AI

2022-04-02

4960

数据SCT定律：存储，计算，时间

spark 云数据库 SQL Server sql hbase 大数据

其实没有SCT定律，这个是我根据分布式CAP定律瞎造的。不过呢，从大数据这个行业来说，我们始终都是在存储，计算和时间进行权衡，博弈以及突破。某种程度上来说，当拥有其中两者，可能很难兼顾第三者。

2019-07-18

9810

再谈数据中台是什么以及MLSQL为什么可以作为数据中台

sql api 大数据 http html

昨天还是前天，正好看到朋友圈里大家都在发AI前线推的一篇文章。数据中台已成下一风口，它会颠覆数据工程师的工作吗？, 个人认为风口谈不上，但是确实是技术发展到一定程度的产物。这里的技术不仅仅是大数据，也是后端，前端技术前进的共同产物。N年前我们是想都不会想这件事情的，因为技术上很难达到。

2019-03-20

1K0

漫谈加持Blink的Flink和Spark

大数据开源 spark 深度学习机器学习

今天朋友圈有篇【阿里技术】发的文章，说Blink的性能如何强悍，功能现在也已经比较完善。譬如：

2019-02-27

1.2K0

MLSQL解决了什么问题

大数据编程算法

在谈MLSQL解决了什么问题之前，我们先提一个“数据中台”的概念。什么是数据中台呢？数据中台至少应该具备如下三个特点：

2018-12-28

9100

Web后端工程师应该拥抱前端了

大数据部发展到一定的阶段，无论是内部体系的完善，还是服务能力对外的暴露，对web端交互能力都有极大的需求，所以对web研发的诉求其实也是非常大的。

2018-08-27

3520

数据部门如何All In AI

人工智能大数据存储编程算法

通常，大数据部门会花费很大的力气构建数据平台，而这个数据平台除了能让研发，算法，分析师等角色爽一些，从宏观角度很大的节省部门人力成本，提高效率以外，似乎对公司/其他业务部门并无一个直接的输出。这也是很多大数据部门领导非常焦虑的地方。

2018-08-27

3720

MLSQL解决了什么问题

sql 编程算法 python 大数据

MLSQL提供了一套SQL的超集的DSL语法MLSQL，数据处理，模型训练，模型预测部署等都是以MLSQL语言交互，该语言简单易懂，无论算法，分析师，甚至运营都能看懂，极大的减少了团队的沟通成本，同时也使得更多的人可以做算法方面的工作。

2018-08-27

3830

数据分析漫谈

明细查询大体是横向行的查询，聚合统计依托于列的纵向查询。关键字检索则是有别于1，2的一种数据获取分析方式，作为人类三大信息来源之一的文字，关键字检索是一个非常重要的从海量数据获取自己想要的数据的方式。就目前我的感觉，人们通过关键字获取到数据集之后可以在走1，2进一步对数据做处理。

2018-08-27

2720

直播技术初探

驱动力大致如上面的文摘中所言，然而最近部门有一个工作便是帮助云平台做质量分析，所以我觉得有必要了解下视频相关的一些技术。

2018-08-27

1.1K0

让Spark成为你的瑞士军刀

spark 大数据

依托于Spark Streaming /Spark SQL，封装了一套通过配置和SQL就能完成批处理和流式处理的引擎，这样可以很好的完成复杂的ETL处理过程，实现了数据的流转和变换。

2018-08-27

3680

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态