学习
实践
活动
工具
TVP
写文章

干货 | StarRocks在住宿智能数据平台的应用

作者简介 Wenjun,资深软件工程师,负责住宿数据智能平台的研发与维护,对于大数据领域技术有浓厚兴趣。 一、平台现状 住宿数据智能平台(简称HData)是一个为住宿业务提供数据可视化的平台。 实时数据通过自研的消息队列系统QMQ实现,下图是原先的实时数据导入流程: 接入StarRocks后的实时数据导入流程: 很快我们就遇到了一个难题:有一个场景是订阅订单状态变化的消息,下游我们以订单号作为主键 T+1数据我们通过自研的数据同步平台Zeus进行ETL和导入: 六、DR和高可用 对DR有着很高的要求,每隔一段时间都会有公司级的DR演练。 同时,我们针对每台服务器的硬件指标也配置了告警,通过自研的智能告警中台,一旦服务器的CPU、Mem、磁盘空间等指标发生异常,开发人员可以立即感知并介入。

38220

干货 | Elasticsearch数据同步实践

作者简介 dot,技术经理,专注高并发、高性能领域。 一、背景 Elasticsearch是最近几年非常热门的分布式搜索和数据分析引擎,内部不仅使用ES实现了大规模的日志平台,也广泛使用ES实现了各个业务场景的搜索、推荐等功能。 由于使用ES的业务非常多,迫切需要一个简单易用的框架或者工具完成这个工作,以便大家从繁琐重复的代码里脱身,专注在完成业务本身上。 2)第二种是MQ增量,内部使用QMQ接收了来自Otter的MySql变更,MQ里会有变化的数据库表、字段的信息,因此可以针对性地实现对MQ的解析的规则,从而可以轻而易举地达到通过MQ对ES里的文档进行全部 这种方法是最常用的,对临时更新数据也非常友好。如果提供的Id在最终的数据里没有发现,将删除ES里对应的数据,以处理数据在DB里被物理删除的情况。

49920
  • 广告
    关闭

    腾讯云图限时特惠0.99元起

    腾讯云图是一站式数据可视化展示平台,旨在帮助用户快速通过可视化图表展示大量数据,低门槛快速打造出专业大屏数据展示。新用户0.99元起,轻松搞定数据可视化

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    干货 | 新风控数据平台建设

    作者简介 刘丹青,信息安全部高级开发工程师。2014年加入,主要负责验证码、风控数据平台的开发设计工作,提供性能测试与性能优化的相关支持。 在,各BU经常受到恶意注册、登录、恶意刷单、扫号等行为,所以建设了一套数据平台,希望能够从数据中挖掘出有用的信息,不仅可以为风控系统提供数据支持,还可以为其他服务提供支撑。 本文主要从架构和业务的角度介绍下信息安全团队的数据平台建设之路,以及如何为业务和风控提供支持的。 一、数据平台1.0的特点 ? 1.0数据平台架构图 为了快速支持风控平台,在早期建设数据平台的时候,我们直接通过RabbitMQ收集业务数据,再使用数据引擎对数据做清洗、计算,再存储在MySQL中,把数据处理以sql的形式写入到代码中 接下来是实时计算,由于实时计算的性能要求很高,所以当用户的请求过来时,在流式计算结果的基础上做增量运算,最终达到一个实时的效果;这个结果也会存到redis中并定期做持久化,可以作为下一次请求的参数,也方便后续的离线计算

    69980

    干货 | 数据血缘构建及应用

    作者简介 cxzl25,软件技术专家,关注大数据领域生态建设,对分布式计算和存储、调度等方面有浓厚兴趣。 本文介绍数据血缘如何构建及应用场景。第一版T+1构建Hive引擎的表级别的血缘关系,第二版近实时构建Hive,Spark,Presto多个查询引擎和DataX传输工具的字段级别血缘关系。 三、方案 采用了方案二,运行时分析SQL并收集分析结果到Kafka。由于开源方案在现阶段不满足需求,则自行开发。 七、总结 以上描述了如何构建表和字段级别的血缘关系,及在实际应用的场景。 团队招聘信息 我们是集团的大数据平台研发团队,主要负责数据平台的建设,包括但不限于Hadoop生态源码二次开发,任务调度,查询平台的开发,致力于为集团提供稳定、高效、易用的大数据存储和计算服务

    2.1K20

    漏洞后续:三恐慌远超实际危害

    3月22日出现重大安全漏洞,安全支付日志可遍历下载,导致大量用户银行卡信息泄露 (包含持卡人姓名身份证、银行卡号、卡CVV码、6位卡Bin)。 恐慌远超实际影响 根据官方的说法,目前并没有监测到有用户出现信用卡被盗刷现象,且该漏洞仅影响到了93名用户,已经通过电话通知用户更换信用卡,并给予每人500元礼品卡作为补偿。 同时承诺若发生盗刷,将赔偿用户损失。 相比起实际损失,该事件引发的三恐慌更为令人担忧。 一、PCI DSS认证形同虚设? 这一标准规定CVV、追踪数据、磁条或PIN数据等特定信用卡信息不能被商户保存。 作为上市公司,在上市时应通过了这一安全认证,不过此次泄露的日志却显示明文记录了这些信息。

    49350

    干货 | 海外MySQL数据复制实践

    作者简介 Roy,软件技术专家,负责MySQL双向同步DRC和数据库访问中间件DAL的开发演进,对分布式系统高可用设计、分布式存储,数据一致性领域感兴趣。 一、前言 在国际化战略背景下,海外业务将成为新的发力点,为了保证用户高品质的服务体验,底层数据势必需要就近服务业务应用。 Proxy作为公网数据传输内部统一的解决方案,参见《Redis海外机房数据同步实践》,开源地址:https://github.com/ctripcorp/x-pipe,欢迎关注。 DRC开源地址: https://github.com/ctripcorp/drc 【推荐阅读】 支持10X增长,机票订单库Sharding实践 基于BookKeeper的延迟消息架构落地实践 SOA 的 Service Mesh 架构落地 万字长文详解酒店订单缓存 & 存储系统升级实践  “技术”公众号   分享,交流,成长

    10120

    【聚焦】春节大数据 爆料过年旅游是为了躲相亲

    今年春节很多人选择外出旅行,依托数据的帮助,一起来看看,今年春节旅行都有哪些特点。    据旅行网的数据显示,今天春节单身男女的出行人数较往年上涨3成有余,其中,7成左右为30岁左右的单身女性,在目的地方面,单身男女间也颇有共同点,谁敢说,这不是一场以全世界为主场的单身男女相亲大会呢? 预订春节期间跟团游产品的人数呈爆发式增长,较平日增长近1000倍,其中上海、北京、杭州、成都、广州、重庆、西安、海口、武汉、深圳 十城市使用旅行App预订旅行的人次最多国内城市,而使用App预订旅行人次最多的国外城市和地区分别为中国香港 五、免税店成旅客集中地   对于出境游的游客来说,各大免税店是不能不去的地方,据全球购、随行购数据统计,前往中国香港、首尔、巴黎、新加坡、中国台湾等多地的旅客成为海外购物的 主力军。 六、讨红包 除夕夜12点1秒送出30万元   金融事业部也于年末推出了讨红包的活动,将相关活动转发至微信朋友圈就可讨红包,数据显示,讨红包的高峰出现在除夕夜的0点前后,最多的一位用户讨到了66765

    58940

    开源数据库访问框架

    伴随这一过程的是如何管理数据库扩展,如何规范数据库访问,如何保护数据库投资,如何应对访问量增加,如何预防安全问题等一系列挑战。 作为国内在线旅游行业的翘楚,也曾经面对同样困扰。 为了应对这些挑战,实现企业10倍速发展,开发了具有自己特色的数据库访问框架Ctrip DAL。 Ctrip DAL由技术中心框架部DAL团队开发,历经3年不断打磨,在长期的实际使用中吸收了大量用户反馈。目前超过117个独立DAL团队通过代码生成器管理数据库和创建DAO。 2000多个应用在使用DAL框架,占所有数据库应用总数超过90%。 本次开源的产品包括代码生成器和Java客户端,C#客户端也将近期开源。 通过开源自身使用DAL框架,程希望在满足自身需求的同时,服务于广大企业,并继续为中国方兴未艾的开源运动出点力。 Dal定位 Dal的定位是数据库访问层。是以数据访问类(dao)的形式出现。

    95380

    干货 | 国际BU酒店团队的前端之路

    作者简介 王辛佳,IBU酒店技术负责人,从事前端工作10年。 当今互联网+高速崛起,前端这个概念已经成为前端技术老生常谈的话题,但去做好“前端”,并不容易。 前端需要考虑用户交互行为,浏览器兼容性,代码扩展性,而不是大批量数据运算与转换。对于前端而言,最好能做到“所见即所得”。所以我们的目的是要把前端做轻做薄,把复杂业务逻辑,数据转换逻辑推向后处理。 此外我们最好能把前端用户轨迹能记录下来,以方便数据分析及排障。 最后,Node层如何来处理爬虫。 带着以上几个点简单,分享下我们设计的架构图。 1)代码仓库划分 ? 大致可以分为从服务启动注册、用户访问流程管控、React服务端渲染HTML三模块。 很显然,哪怕在Node层也不会去做运算逻辑。除了监控日志外,就是做好服务端渲染。这里每一步流程,就不一一展开了。 四、总结 前端目前比较火,但还是有很多路需要去走,去探索。我们应该多思考,从痛点出发,来解决问题,而不是人云亦云。这里浅谈一下我们的前端之路,欢迎各位给出不同意见和见解。

    54740

    干货 | 实时大数据平台实践分享

    编者:本文作者为数据平台负责人张翼。张翼浙江大学硕士毕业,2015年初加入,主导了实时数据计算平台的建设,以及数据平台整合和平台技术的演进。 今天给大家分享的是在实时数据平台的一些实践,按照时间顺序来分享我们是怎么一步一步构建起这个实时数据平台的,目前有一些什么新的尝试,未来的方向是怎么样的,希望对需要构建实时数据平台的公司和同学有所借鉴 其实了解的业务的话,就会知道的业务部门是非常多的,除了酒店和机票两大业务之外,有近20个SBU和公共部门,他们的业务形态差异较大,变化也快,原来那种Batch形式的数据处理方式已经很难满足各个业务数据获取和分析的需要 在完成了这些功能之后,我们就开始初期业务的接入了,初期业务我们只接了两个数据源,这两个数据源的流量都比较大,就是一个是UBT(的用户行为数据),另一个是Pprobe的数据(应用流量日志),那基本上是用行为的访问日志 第一个展示的是这边的网站数据监控平台cDataPortal,会对每个网页访问的性能做一些很详细的监控,然后会通过各种图表展示出来。 ?

    1.5K60

    干货 | 机票大数据架构最佳实践

    作者简介 许鹏,机票大数据基础平台Leader,负责平台的构建和运维。深度掌握各种大数据开源产品,如Spark、Presto及Elasticsearch。 现如今大数据一块有很多的开源项目,因此首先搭建平台的难点其实在于如何选择一个合适的技术来做整个平台的架构,第二,因为有业务数据,用了平台之后的话,如何用平台把数据分析出来让用户有很好的交互性的体验。 第三个层面就是理工科喜欢建模,而在这整个过程当中,我们会形成一种非数据建模,而主要是我们如何分不同层面的人员搭配,进而做成这样一个大数据团队。 一、数据平台技术选型 1、整体框架 ? 因为查询时不是所有人都应该看到所有的数据,这很容易出问题,可能有比较实实在在的数据,它不像一般的日志数据,特别像机票或者我们这边的酒店,它的数据有不少的一些敏感信息,这需要做相应的权限管理。 其实在做一套大数据的平台时,少不了任务调度这一块。任务调度这一块我们使用的是Zeus系统,在这一块开源出来,由我们公司Ops的团队专门来负责开发和维护个平台。

    83080

    干货 | Redis海外机房数据同步实践

    作者简介 孟文超,技术中心框架研发部高级经理。2016年加入,目前负责框架数据数据库,缓存)及相关项目。此前曾在大众点评工作,任基础架构部门通信团队负责人。 一、背景 随着国际化业务的发展,为了给海外用户提供更好的服务,公司开始在欧洲部署业务(使用Amazon云),欧洲的用户访问欧洲的本地服务。 机票业务重依赖于Redis,同时目前的数据产生大部分都在上海,这样就对Redis数据同步至欧洲产生了极大的需求,部署在欧洲的业务只需读取Redis数据即可。 XPipe(https://github.com/ctripcorp/x-pipe)是内部开源的一套Redis多机房系统,现有的功能在以往的基础上继续扩展,可以参考公众号的另外一篇文章《Redis BBR算法,下面是在10MB数据传输速率下,公网24小时延时测试数据(单位为纳秒),数据最大延迟为88S。

    1.2K50

    “大数据杀熟”?用户该怎么避免?

    继去年爆出了“酒店同房不同价”的消息之后,前两天微博网友@陈利人 发文称,在订票未支付时,发现忘记勾选“报销凭证”,退回修正再支付时被提醒“已无票”。 3月11日,发布致歉说明称,绝不存在任何“大数据杀熟”行为,声称二次支付无票是系统Bug,已于3月10日23点紧急修复了此漏洞。 “大数据杀熟”事件多次出现,此次回应同样引起网友质疑。 ? 什么是大数据杀熟? 大数据杀熟,指的是互联网行业的一种区别定价模式。 “大数据杀熟”的几个特征:   同样的商品/服务,在同样的交易场景下,不同的价格;   定价差异和变化的基础是大数据,基于互联网技术获取的数据,而不是传统的市场调研方式;   侵犯用户知情权,对于可能出现的价格差异 浙江大学中国跨境电子商务研究院院长马述忠总结了“大数据杀熟”的3种套路: 1.借助大数据进行“用户画像” 根据用户的收入水平与消费习惯实现“杀熟”。这是最常见的套路。

    2K20

    干货 | 高级数据分析师李翔:机器学习在酒店图像数据中的应用

    在大数据盛行的今天,机器学习促进了车辆无人驾驶、高效语音识别、精确网络搜索及人类基因组认知的大力发展。 技术沙龙此次的云海机器学习Meetup,通过最真实的案例,从模型调优、特征转换和评估等多角度、多维度呈现机器学习在不同领域方面的应用。 高级数据分析师李翔,给我们带来了机器学习在中的具体应用,让听众了解了现阶段机器学习技术在酒店图像数据的具体应用场景;了解了相关深度学习和迁移学习模型的基本原理和实际应用细节。 ?

    81570

    产品,小团队:敏捷技术与管理转型实战》

    书 名 产品,小团队:敏捷技术与管理转型实战 作 者 技术中心 出版时间 2018-1-1 内容提要 敏捷并不是什么新玩意儿,但它已经成为这个瞬息万变的互联网+科技商业时代的主流管理运营体系 《产品,小团队:敏捷技术与管理转型实战》并不是敏捷方法教授的纯理论书,作者只是把 5 年敏捷转型中趟过的那些坑,吃过的那些亏,流过的那些泪……通过一个个鲜活的案例呈现出来,送给那些已经开始尝试敏捷但可能遇到一些问题的人 《产品,小团队:敏捷技术与管理转型实战》适合初级和资深 Scrum Master、产品经理、技术管理者、项目经理,以及敏捷爱好者学习和参考。

    39530

    干货 | 平台化常态化数据治理之路

    作者简介 瑞强,高级大数据开发工程师,负责集团客户数据平台、数据资产管理平台的开发和数据治理的推进。 一、背景 数据的重要性不言而喻。 而由于涉及的业务线多,数仓团队多,数据安全高效地流通也是一个治理难点。 二、治理思路 何为数据治理?数据治理和众多新兴学科一样,也有很多种定义。 数据治理体系的目标是可以让每一位数据生产者对各自拥有的数据进行常态化治理。而目前阶段数据治理的核心目标就是提升数据价值、提高数据质量、促进数据流通。 团队招聘信息 我们来自集团的大数据应用研发团队,致力于集团的数据价值最大化,潜心打造数据中台及其应用。 如果你热爱大数据技术,对数据中台在大型互联网企业的落地实践很感兴趣,数据应用研发团队期待你的加入。目前我们在数据开发、数据科学等方向上均有职位开放。

    32530

    旅游大数据:亲子游市场再次引爆

    <数据猿导读> 寒假将至,加之过年七天小长假,又到了旅游的旺季。不少朋友应该已经为假期出游做好了准备,今天旅游网发布了最新的最新旅游大数据,亲子游市场的热潮看来不会退散 ? 国内最大的在线旅游服务商旅行网18日发布的大数据显示,近年来随着国内游客旅游观念的转变,享受型需求正不断增长,今年春节有近7成旅客选择境外游,超过6成旅客准备入住高星级酒店。 高星酒店需求超预期 酒店数据显示,2016年春节国内游客对于高星级(4-5星)酒店的需求远超预期,境外高星级酒店占比超过6成,境内高星级酒店占比也达到53%;而去年春节期间,境外高星级酒店占比为51% 通过数据预测,今年春节境外旅游产品的预订量将占总量的6成以上。 此外旅游专家还指出,综合境内、外自由行、跟团游数据后发现,今年春节境外旅游多为2人同行,占比接近35%,境内旅游则21小的三口之家为主,占比接近4成。

    75790

    Alluxio在数据平台的应用实践

    在《技术2018年度合集》中,一共70篇文章中,只有5篇是大数据的内容。其中有一篇,讲到了Alluxio的应用过程。 在2018年,主集群规模已经突破千台,存储着50PB的数据,并且每天的数据增量大概是400TB。每天的作业数也达到了30万。 当时,使用的Spark Streaming实时任务,会将结果数据直接写入到HDFS中,400个流作业每天带来500万小文件的落地,虽然会有任务定期进行小文件合并,但巨大的增量为HDFS集群带来了很大的压力 image.png 对于经常使用的热点数据,可以使用定时器,定期Load到Alluxio中,减少了每次计算需要从远程拉取数据的所导致的网络 IO,并且因为Alluxio的数据存储在内存中,也极大的提高了运算效率 所以,之后将Alluxio,作为两个HDFS集群之间数据互通的桥梁,在生产环境中落地了。 如果大家所在公司,也遇到了同样的需求,也可以尝试一下Alluxio。

    15220

    专访商旅邱斐:博弈中的猪如何利用数据驱动业务?

    带着这些问题,数据猿记者约访了商旅亚太区CMO邱斐。 在大数据时代,商旅管理企业如何利用数据驱动业务来提高自身的竞争力?带着这些问题,数据猿记者约访了商旅亚太区CMO邱斐。 2017年,商旅在市场上做了许多宣传推广和教育工作,“在整个行业中,商旅属于博弈中的猪,我们要去做更多的教育工作,提高大家对商旅管理的认知。”邱斐说。 但中小企业差旅市场也是一个蛋糕,“中小企业客户和成熟的企业客户有所不同,企业客户追求的是效率、合规透明,中小企业的诉求是低价。”邱斐表示。 经过十年发展,商旅已经积累了大量的用户数据,如何利用数据对业务进行更好的驱动?

    61360

    扫码关注腾讯云开发者

    领取腾讯云代金券