Kevin,携程后端开发专家,追求通过深入业务来简化系统,对底层算法、数据分析有浓厚兴趣。
管网在线监测系统解决方案设计目的在于:解决管道爆管问题、管网水质二次污染影响饮用水质量、管网漏损导致严重的资源浪费等,及时发现管网故障,提高维护效率、降低损失,保障输水、供水质量,达到科学预警,减少成本,提高效率的目的。
作者 | 刘燊 编者按:本文整理自 8 月 Apache Pulsar Meetup 上,刘燊题为《Apache Pulsar 在微信的大流量实时推荐场景实践》的分享。本文介绍了微信团队在大流量场景下将 Pulsar 部署在 K8s 上的实践与优化、非持久化 Topic 的应用、负载均衡与 Broker 缓存优化实践与 COS Offloader 开发与应用。 在通信社交领域,微信已经成为国内当之无愧的社交霸主。用户人数在 2018 年突破了 10 亿,截至 2021 年第三季度末,微信每月活动账户总数已
用户画像作为“大数据”的核心组成部分,在众多互联网公司中一直有其独特的地位。 作为国内旅游OTA的领头羊,携程也有着完善的用户画像平台体系。目前用户画像广泛用于个性化推荐,猜你喜欢等;针对旅游市场,携程更将其应用于“房型排序”“机票排序”“客服投诉”等诸多特色领域。本文将从目的,架构、组成等几方面,带你了解携程在该领域的实践。 1.携程为什么做用户画像 首先,先分享一下携程用户画像的初衷。一般来说,推荐算法基于两个原理“根据人的喜好推荐对应的产品”“推荐和目标客人特征相似客人喜好的产品”。而这两条都离不开用
导语 本文整理自 8 月 Apache Pulsar Meetup 上,刘燊题为《Apache Pulsar 在微信的大流量实时推荐场景实践》的分享。本文介绍了微信团队在大流量场景下将 Pulsar 部署在 K8s 上的实践与优化、非持久化 Topic 的应用、负载均衡与 Broker 缓存优化实践与 COS Offloader 开发与应用。 作者简介 刘燊 腾讯微信高级研发工程师 Apache Pulsar Contributor 在通信社交领域,微信已经成为国内当之无愧的社交霸主。用户人数在 2018
GreatSQL季报(2021.12.26) https://mp.weixin.qq.com/s/FZ_zSBHflwloHtZ38YJxbA
携程金融核心产品为:拿去花、借去花、信用卡、理财。其中拿去花提供携程产品分期支付服务,借去花提供现金借款服务,信用卡提供携程联名卡、理财则给用户提供有竞争力的理财产品。除此之外还有闪游卡、二维码、程金币等小的业务线。
京东集团618作战指挥中心 ,成员来自于京东各个技术体系,包括核心系统架构师、一线运维专家、科研学者等。 近200位成员在618时共同努力,确保流量洪峰来临时系统安全、稳定、可靠,致力于提供最佳的用户体验。
从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同,本质上的角色都大同小异。
一、日志采集系统 记录用户行为(搜索、悬停、点击事件、按钮、输入,请求异常采集等) PC端、App端(Ios,安卓),前端收集埋点数据
"数据智能" (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代
随着城市化进程的加速和人们生活节奏的加快,交通出行问题日益凸显。传统的交通管理方式已经难以满足日益增长的交通需求,因此,寻找一种高效、智能的交通管理方式成为了迫切的需求。近年来,机器学习技术的飞速发展,为交通出行领域带来了新的解决方案。本文将详细介绍机器学习在交通出行领域的实践与应用,以期推动交通出行领域的智能化发展
转自知乎技术专栏:https://zhuanlan.zhihu.com/p/56807637
点击关注公众号,Java干货及时送达 我们先来看看这张图,这是某公司使用的大数据平台架构图,大部分公司应该都差不多: 从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同,本质上的角色都大同小异。 所以我下面就按这张架构图上的线索,慢慢来剖析一下,大数据的核心技术都包括什么。 一、数据采集 数据采集的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些简单的清洗。 数据源的种类比较多: 网站日志: 作为互联网行业,
数据汇聚是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等;从汇聚的时效性来分,有离线批量汇聚和实时采集。
场景描述:数据工程团队是知乎技术中台的核心团队之一,该团队主要由数据平台、基础平台、数据仓库、AB Testing 四个子团队的 31 位优秀工程师组成。这篇文章分享了知乎实时数仓的演进过程。
本文将总结下数据中台的相关理论知识。Flink平台化需要改进的点等等,参考《数据中台》。
GPA算法(Generalized Processor Sharing)是一种公平分配带宽的调度算法,用于管理网络流量和资源。它的实现难度取决于网络系统的复杂性和要求的精确程度。要实现GPA算法,需要对网络设备进行编程和配置,确保带宽按照一定的公平原则进行分配,同时实时监控和调整网络流量。
本文整理自Flink Forward 全球在线会议 ,分享者薛康,滴滴实时平台负责人,主要是是从以下四个方面介绍,flink在滴滴的应用与实践:
水库大坝实时监测的主要任务是实时监测各个监测点水库水位、水压、渗流、流量、扬压力等,用无线传感网络完成数据传输,在计算机上用数据模式或图形模式反映出来,实时掌控整个水库大坝各项变化情况,特殊数据实行声光报警。大坝安全监测系统能实现全天候远程自动监测,监测站数据自动采集并且进入相关数据库。同样,监测系统也具备人工观测条件。
数字化转型主要包括业务数字化、数据资产化、资产业务化、业务智能化几个阶段。在不同的阶段,分别需要哪些数据产品呢?今天就逐一盘点一下,希望可以为各位老板的数字化转型过程中数据产品规划提供参考,主要是以模块规划为主,产品详细的功能和实现逻辑,往期文章几乎都有逐一的分享。
有赞是一个商家服务公司,致力于帮助每一位重视产品和服务的商家成功。随着移动互联网的流量增长红利渐渐褪去,商家获得新的流量越来越困难,帮助商家实现更有效的流量转化与长期目标的增长是有赞SaaS服务的应有之义;同时,随着有赞SaaS功能的不断完善,服务的商家不断增多,而业务场景也越来越复杂,考虑到有限的研发资源,提升产品和技术的迭代效率成为当务之急。
流量:流量信号计数频率(单点采集数据范围0-20000 Hz),一个频率为一升,按后面的计算公式换算至立方。三参仪流量、泵车1流量、泵车2流量要做可选项,三参仪流量、泵车1流量、泵车2流量都选择时流量总量为三参仪流量+泵车1流量+泵车2流量。选择其中二个流量时 流量总量为选择的流量+选择的流量。选择其中一个流量时 流量总量为选择的流量。 就是流量选择任意组合。
大数据应用一般会有采集、加工、存储、计算及可视化这几个环节。其中采集作为源头,在确保全面、准确、及时的前提下,最终加工出来的指标结果才是有价值的。
在全球数字化转型的浪潮下,“上云”已成为企业数字化转型的主流选择,在赋能业务创新、弹性服务的同时,新场景给网络运维、网络运营、网络安全等方面也带来了全新的挑战。而现有的传统NPM工具及运维手段在应对云时代的挑战时已显得力不从心。
导读:阅文作为国内最大的网络文学公司,我们在实践过程中,总结了一套适合自身业务特点的用户画像方法论,及实践经验。本文将介绍为什么需要用户画像,以及如何做用户画像,并结合在阅文场景下所面临的问题,为大家分享下我们在用户画像上的探索与实践。
语音直播,简单来说就是实时声音播放的意思。语音直播区别与视频直播,它没有主播的画面,仅以主播的声音为载体实时播出,但大家一样可以使用文字互动。
大数据实时流式数据处理是大数据应用中最为常见的场景,与我们的生活也息息相关,以手机流量实时统计来说,它总是能够实时的统计出用户的使用的流量,在第一时间通知用户流量的使用情况,并且最为人性化的为用户提供各种优惠的方案,如果采用离线处理,那么等到用户流量超标了才通知用户,这样会使得用户体验满意度降低,这也是这几年大数据实时流处理的进步,淡然还有很多应用场景。因此Spark Streaming应用而生,不过对于实时我们应该准确理解,需要明白的一点是Spark Streaming不是真正的实时处理,更应该成为准实时,因为它有延迟,而真正的实时处理Storm更为适合,最为典型场景的是淘宝双十一大屏幕上盈利额度统计,在一般实时度要求不太严格的情况下,Spark Streaming+Flume+Kafka是大数据准实时数据采集的最为可靠并且也是最常用的方案,大数据实时流式数据采集的流程图如下所示:
Tech 导读 本文核心内容聚焦为什么要埋点治理、埋点治理的方法论和实践、奇点一站式埋点管理平台的建设和创新功能。读者可以从全局角度深入了解埋点、埋点治理的整体思路和实践方法,落地的埋点工具和创新功能都有较高的实用参考价值。遵循埋点治理的方法论,本文作者团队已在实践中取得优异成效,在同行业内有突出的创新功能,未来也将继续建设数智化经营能力,持续打造更好的服务。 01 埋点治理背景 在今年的敏捷团队建设中,我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪
2019年6月爱奇艺会员规模突破1亿,爱奇艺的会员服务业务随之迅速增长,同时也带来了机器集群规模的增加,原有的监控体系也暴露出一些问题。数据监控体系是业务维持稳定服务的基石,会员日志监控体系形成闭环,从网络、应用、异常、页面加载多维度监控,极大提高了系统的成功率、稳定性,对会员视频播放、营销、下单等核心功能增强异常感知。
在这之前,我们相继卷完了:关系型数据库 MySQL 、 NoSQL 数据库 Redis 、 MongoDB 、搜索引擎 ElasticSearch 、大数据 Hadoop框架、PostgreSQL 数据库、消息中间件 Kafka、分布式协调中间件 Zookeeper、消息中间件 RabbitMQ 这些系列的知识体系。今天开始,我们将踏上另一个系列的学习之路:企业级监控平台。
前言 大数据时代,海量流量和数据是变现的源泉。腾讯拥有最多样的用户数据,社交、聊天、游戏、听音乐、看电影、逛电商,等等,有巨大的挖掘空间,个性化精准推荐无疑是一把开矿的钥匙。TEG-数据平台部基于“数据+算法+系统”的设计理念,海量数据实时采集、流式计算、实时建模、实时推荐,构建海量、实时、精准的个性化精准推荐平台。建设这套能承载300亿次/天的推荐请求,300000次/天多维交叉计算的分布式实时计算平台是一项浩大工程,保障这套平台质量也是非常大的挑战。 本文将重点介绍现网引流测试方法在TEG-数据平台部
本文从零开始介绍了游戏推荐项目的发展历程,阐述了大型项目建设中遇到的业务与架构问题以及开发工程师们的解决方案,描绘了游戏推荐项目的特点以及业务发展方向,有着较好的参考与借鉴意义。
随着互联网经济形态由消费到产业的进阶迭代,业务场景及商业逻辑从“推营销”时代向“拉营销”时代转变,推时代即平台利用信息推送的方式来获取和维系客户,拉时代则是平台利用技术手段让客户实现自服务的营销闭环。
这两年,随着大数据、精益化运营、增长黑客等概念的传播,数据分析的思维越来越深入人心。处于互联网最前沿的产品经理们接触了大量的用户数据,但是却一直困扰于如何做好数据分析工作。 那么产品经理该如何搭建自己的数据分析知识体系?数据分析的价值又在哪里?产品经理做数据分析有哪些具体的方法?又如何学习数据分析?本文将和大家分享一下这些问题。 数据分析体系:道、术、器 “道”是指价值观。产品经理要想是做好数据分析,首先就要认同数据的意义和价值。一个不认同数据分析、对数据分析的意义缺乏理解的人是很难做好这个工作的。 “术
信贷是一个非常严谨的行业,对实时风控的性能、精度和可靠性都有很高的要求。蚂蚁集团围绕信贷业务实时场景打造高可用、高并发、数据智能的在线实时风控系统,上千条实时策略只需要 25ms、服务可靠性 99.99%+。在 7 月 21-22 日深圳 ArchSummit 全球架构师峰会上,来自蚂蚁集团的高级技术专家马希民分享了,基于信贷实时风控,构建数据智能的高可用实时风控决策系统实践。以下是演讲内容整理。
即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。
总第516篇 2022年 第033篇 推荐系统是效果导向的数据应用服务,在功能的“有”和“无”之间,有很长的效果“好”和“坏”的光谱。本文以用户请求的粒度建立质量模型,通过数据血缘关联了数据表、算法模型、系统服务和用户请求,并结合美团综合业务的实践进行了拓展泛化,希望能对大家有所帮助或启发。 1 前言 2 现状分析 3 建设思路 3.1 业务语境下的质量 3.2 缺陷的考量和选择 3.3 度量和计算的选型 4 计算方式 4.1 计算公式 4.2 业务泛化 4.3 指标体系 4.4 血缘拓展 5 指标运营
熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;
日志服务为用户提供云服务日志采集、搜索、转储、监控、告警等功能,同时支持通过图表的方式进行图表转化,给用户提供云服务日志采集、API上传、日志搜索、日志分析的功能,用户无需开发,即可完成数据采集处理等,对云产品运维管理提供了极大的便利。
随着互联网+的进一步发展,各行业对大数据技术的应用日趋成熟,企业的信息化范围正在高速扩展。
OpenSOC是思科在BroCON大会上亮相了的一个安全大数据分析架构,它是一个针对网络包和流的大数据分析框架,是大数据分析与安全分析技术的结合, 能够实时的检测网络异常情况并且可以扩展很多节点,它的存储使用开源项目Hadoop,实时索引使用开源项目ElasticSearch,在线流分析使用著名的开源项目Storm。
监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力、效率最高的方案。当然,对监控不是很明白的朋友们,看了以下文章可能会对监控整个体系有比较深刻的认识。
监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。
监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。 目前业界有很多不错的开源产品可供选择。选择一款开源的监控系统,是一个省时省力、效率最高的方案。当然,对监控不是很明白的朋友们,看了以下文章可能会对监控整个体系有比较深刻的认识。
遥测终端机又称智能RTU遥测终端机,是一种用于采集、传输和处理遥测数据的设备。在现代科技的发展中,遥测终端机扮演着重要的角色。它是一种能够实现远程监测和控制的关键设备,广泛应用于各个领域,包括水文水利、环境监测、工业自动化、能源管理等。
随着用户的一切行为数据可以被企业追踪到,企业的关注点日益聚焦在如何利用大数据为经营分析和精准营销服务,而要做精细化运营,首先要建立本企业的用户画像。
日志(Log)是系统在运行过程中变化的一种抽象,其内容为指定对象的某些操作和其操作结果按时间的有序集合。日志的不同载体
数据是怎么来的? 在很多行业,数据都是人工收集来的,比如医学疾病数据、环境数据、经济数据等。数据的更新周期也比较长,比如年度、月度。 但互联网行业不一样,这个天然的流量行业,数据量巨大,更新周期按天就算长了,通常有小时级、分钟级、实时秒级,甚至来不及落入表中,直接对实时流数据就进行计算。 最后说的这种「流式计算」,之前介绍过:什么是流式计算 | 另一个世界系列,对数据流实时进行计算,不需要存储到表里,主要为了满足一些实时级的需求,比如实时监控、实时个性化推荐等。 不管是「流式计算」还是存储到表里再计算
领取专属 10元无门槛券
手把手带您无忧上云