专栏首页个推技术实践个推大数据降本提效实战分享-技术问答精选
原创

个推大数据降本提效实战分享-技术问答精选

个推透明存储实践

列式存储(Column-oriented Storage)是大数据场景中面向分析型数据的主流存储方式。与行式存储相比,列式存储只提取部分数据列、同列同质数据,具有更优的编码及压缩方式。目前,个推的核心数据正逐步切换为Parquet等新型数据格式存储以获得更高的I/O性能和更低的存储成本。

个推数据部降本提效团队 资深数据研发工程师筱得围绕透明存储概念、文件读取流程、透明存储实现方式等,为大家详细解读了个推透明存储优化的全过程。

分享过程中的相关问答:

Q1:如何量化和评估透明存储的收益?

A:量化维度分两方面,首先是从提效方面来衡量,即使用效率是否提升,比如用户(数据分析师)处理业务需求时的数据使用效率提升情况。目前我们结合多个类型的任务综合来看,透明存储能够使跑数时间缩短30%;其次是降本方面,即资源消耗是否有减少,可以通过CPU核的使用时长以及内存使用时长进行量化评估。

​Q2:透明存储如何实现历史工程对数据格式的兼容和切换?

A:在兼容方面,我们是通过扩展Hadoop的读写API,来增加存储格式自动识别和切换能力;在切换方面,我们先对Hadoop、Spark的提交命令进行了扩展,增加hook,并引入了切换数据格式的黑白名单,从而让任务启动时能够获取要变更的信息;通过以上方式,最终实现了对历史工程的数据格式无感知切换。

标签存算在每日治数平台的实践之路

个推依托海量数据资源和强大的建模能力,形成3,000余种数据标签,构建了丰富、立体、多维的画像标签体系,从而为行业客户提供数据洞察相关服务,比如APP精细化运营、广告投放人群定向等。

由于业务方的标签组合复杂多样,所以在对大规模数据进行计算和标签构建的过程中,如何加速标签计算,实现秒级人群圈选和洞察便成为我们需要攻克的难题。

个推每日治数平台团队 高级数据研发工程师之昂基于每日治数平台DIOS的开发实践,深度剖析了有效提升标签存算以及人群圈选效率的核心技术手段。

分享过程中的相关问答:

​Q1:Spark的shuffle和Hadoop的shuffle(MapReduce)有什么区别?

A:MapReduce的shuffle和Spark的shuffle在功能上是几乎没有区别的,都是对Map端的数据进行分区(有聚合排序和不聚合排序两种方式),然后在Reduce端或者下一个调度阶段拉取数据,从而完成Map端到Reduce端的数据传输功能。

Q2:直播中讲到ClickHouse不支持高并发,原因是什么?对于集群的ClickHouse写入,有哪些需要注意的地方?

A:ClickHouse之所以快是因为底层采用了并行处理机制,默认单次查询使用的CPU核数是服务器核数的一半,所以对高并发的使用场景支持得不是很好。如果一定要支持高并发,建议在查询层增加限流。

提升IT资源效率,显著降低IT总投入

降低企业IT成本的一个有效手段是大幅提升IT资源的利用效率。麦肯锡的一份研究报告显示,全球服务器的平均每日利用率通常低于10%,Flexera的一份报告也显示,企业上云后平均浪费了30%的云支出,云成本优化是企业在2021年最想做的事情。那么如何提升IT资源效率,降低IT总投入?

来自贝联珠贯的杨少华博士为大家分享了大数据任务优化、在/离线混部等能够有效提升IT资源效率的核心技术手段。

分享过程中的相关问答:

​Q1:一般如何实现在/离线混部?

A:不同公司的实现方式可能不一样。我们是这样做的:Step1. 将离线任务通过k8s调度到在线机器上;Step2. 使用Agent动态调节在/离线资源的配额;Step3. 利用内核的一些隔离技术进行隔离,在必要时进行干预,例如在紧急情况下限制离线任务的资源,这种方式会对机器内核版本有一些要求。

Q2:对于Spark/Flink on k8s,是引入YuniKorn/Volcano等第三方调度插件,还是自研类似组件来解决计算资源分配和管理的问题呢?

A:我们的方案主要还是Yarn on k8s,然后Spark/Flink on Yarn。这里主要考虑的是客户对接的侵入性问题,大部分情况下上层数据开发平台都还是接Yarn。

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • 业内首本!个推《大数据降本提效实战手册》免费领取

    近日,个推重磅发布业内首本《大数据降本提效实战手册》,手册集技术解析、应用实践于一体,深度剖析了七大经典存算场景实践,是一本不容错过的大数据降本提效武功秘籍!

    个推
  • 10月容器产品技术月报|2021 腾讯数字生态大会【云原生专场】重磅来袭

    2021年10月 VOL:18 腾小云告诉你最前线的产品新特性, 总有一款让你心动~ 云说新品 容器产品新特性10月上新 腾讯云边缘服务TK...

    腾讯云原生
  • 企业微信接入“daydao视频面试”新宝藏功能,不服来试!|腾讯SaaS加速器·案例库

    来源 | 腾讯SaaS加速器首期项目-理才网 ---- 这段时间,企业微信不仅让大人们提前结束了休假,开始在家办公。 除了现有的HR、OA、CRM等应用,企业...

    腾讯SaaS加速器
  • 如何使Codis存储成本降低90%?个推建议使用Pika替代Codis-server!

    作为一家数据智能公司,个推不仅拥有海量的关系型数据,也积累了丰富的key-value等非关系型数据资源。个推采用Codis保存大规模的key-value数据,随...

    个推
  • 赠票速抢|行业大咖纵论软件的质量与效能 QECon大会来啦

    在充满不确定性的当下,以云计算、大数据、人工智能等为代表的新一代信息技术迸发出勃勃生机,软件行业发展迅猛。但与此同时,新兴技术的出现也为软件产品的测试,以及整个...

    腾讯大讲堂
  • 腾讯云2022年积分商城规则更新

    1、腾讯云积分:开通积分商城权限后,用户可以通过完成指定任务、参加指定活动来获取腾讯云行为积分(以下简称“积分”),积分可以用于兑换各类商品和权益;

    腾讯云积分商城
  • 叶剑锋 手把手带你写一个Web框架(完结)

    在 Web 领域,特别是中小型项目,开发效率往往是业务的第一需求。一个产品拥有的市场机会转瞬即逝,抢占市场依靠的是更快的开发速度和迭代速度。为了提效,前端轮子太...

    lbyxiaolizi
  • 告别重复工作,用 Python 实现办公自动化

    996 一直是互联网老生常谈的话题了,但抛开其他只谈工作本身,你有没有想过,下班晚、加班,有时候可能是因为自己工作比较低效?

    Python大数据分析
  • 腾讯游学| 看数字化如何引领汽配行业新增长

    伴随互联网在各个行业的深度渗透,汽车后市场数字化的脚步不断加快,与此同时,数字化技术也给汽配行业带来前所未有的发展机遇。 越来越多的汽配商家开始思考:怎样才能...

    腾讯企点
  • 腾讯云音视频发布腾讯云视立方等多款新品,助力全行业快速构建音视频能力

    11月4日,腾讯云音视频在腾讯数字生态大会上重磅发布包括“腾讯云视立方”音视频终端引擎在内的多款音视频产品,希望通过一站式开发SDK、多场景低代码解决方案、5G...

    腾讯云音视频
  • 腾讯云原生技术生态峰会来了!深圳约吗?

    引言 2011年,Netscape创始人Marc Andreessen曾在文章中提到“软件正在吞噬世界”。10年后,云计算掀起IT基础设施的变革巨浪,带来关于...

    腾讯云原生
  • 腾讯云72小时从0到1搞定企业云原生改造实战营精彩回顾

    2021年7月7-9日,腾讯云【燎原社】第一期云原生技术实战营在腾讯北京总部大楼圆满落幕,来自19家企业的核心开发运维技术参加,3天收获满满而归。

    腾讯云原生
  • 北上深3城 | 腾讯云3天搞定企业容器化改造实战营精彩回顾

    2021年7月7-9日——北京;2021年9月13-15日——深圳;2021年10月27-29日——上海,由腾讯云【燎原社】主办的3期云原生技术实战营已圆满结束...

    腾讯云原生
  • “区块链中国日”一周年盘点,深圳“区块链+税务”布局提速

    “1024”作为中国区块链发展的关键节点,被认为是“区块链中国日”。2019年10月24日中共中央总书记习近平在主持中共中央政治局第十八次集体学习时强调,区块链...

    腾讯TrustSQL
  • 北上深 3 城 | 腾讯云 3 天搞定企业容器化改造实战营精彩回顾

    2021年7月7-9日——北京;2021年9月13-15日——深圳;2021年10月27-29日——上海,由腾讯云【燎原社】主办的3期云原生技术实战营已圆满结束...

    腾讯云serverless团队
  • 6月15日|揭秘腾讯内部业务多方落地,节约上亿成本内幕

    腾讯云主办首个云原生百科知识直播节目——《云原生正发声》,每周二晚19:30 开播。《云原生正发声》围绕云原生技术领域,覆盖实时的云原生技术实践、性能优化、前...

    腾讯云原生
  • 腾讯云&信通院共建,最新企业云原生降本增效指南大全来了!

    降本增效从云计算发展至今一直都是企业上云最核心的关注点,无论是在线业务还是大数据、AI业务,都非常依赖算力的消耗,成本问题都是企业上云进行决策的核心因素。 20...

    腾讯云原生

扫码关注腾讯云开发者

领取腾讯云代金券