最近有不少晋升、跳槽的同学在后台留言,说他们在考核或面试上,都不约而同地遇到了「高并发架构设计」难题。
系统设计面试中,经常会被问到如何设计微信、如何设计微博、如何设计百度……我们怎么能在如此短的时间内设计出来一个由成千上万的码农、PM,经年累月地迭代出来的如此优秀的产品?如果面试者这么优秀,那还面试啥?百度、谷歌也不可能只是一个搜索框而已,底下的东西复杂去了。
作者 | 侯雷平、苏传捷、朱红垒 责编 | 何永灿 近年来,机器学习在搜索、广告、推荐等领域取得了非常突出的成果,成为最引人注目的技术热点之一。微博也在机器学习方面做了广泛的探索,其中在推荐领域,将机器学习技术应用于微博最主要的产品之一——热门微博,并取得了显著的效果提升。 热门微博推荐系统介绍 热门微博业务场景 热门微博是基于微博原生内容的个性化兴趣阅读产品。提供最新最热优质内容阅读服务,更好地保障用户阅读效率和质量,同时达到激励微博上内容作者更好的创作和推广内容。 热门微博的推荐系统主要面临以下两点挑
在之前的课程中,我分别从数据库、缓存、消息队列和分布式服务化的角度,带你了解了面对高并发的时候要如何保证系统的高性能、高可用和高可扩展。课程中虽然有大量的例子辅助你理解理论知识,但是没有一个完整的实例帮你把知识串起来。所以,为了将我们提及的知识落地,在实战篇中,我会以微博为背景,用两个完整的案例带你从实践的角度应对高并发大流量的冲击,期望给你一个更加具体的感性认识,为你在实现类似系统的时候提供一些思路。
微博评论功能是一种非常常见的社交媒体功能,它允许用户对微博进行评论和互动。在设计微博评论功能时,需要考虑用户体验、安全性、性能和可扩展性等方面。本文将详细介绍如何设计微博评论功能。
这两天在Qcon的群里讨论im讨论的比较多,翻出11年写的一篇blog(略显稚嫩?),原文如下: ===== 在网上看了一篇关于微博feed系统的架构文章(SK:可能是2010年timyang在Qcon上的分享,又好像是一篇关于推拉模式的文章),有所感想,由于自己是做IM系统的,故自然会将两者的方案进行联想和对比。 feed系统 可以理解为一个发布订阅系统,你关注了姚晨的微博,姚晨发布了消息,会feed给你。 IM系统 即时通讯系统,典型系统为QQ。 实现方式 (1)推送 IM消息 就是一个典型的推送
这两天在Qcon的群里讨论im讨论的比较多,翻出11年写的一篇blog(略显稚嫩?),原文如下:
网上已经有太多关于怎么增加微博粉丝数,以及怎样让我们发的微博获得更多转发的建议了。我们并不知道这些建议是否有效,因为它们大都是建立在个人感觉上,而缺乏真正有说服力的证据。实际上微博是一个非常适合进行数据分析的东西,所以想谈微博心得,你得用数据说话。 一个普通用户的微博数据 从 2012 年 8 月 24 日开始,我像个自恋者一样,每天都看看自己的粉丝数涨了多少——不但看,而且还顺手把数字记录下来。这样坚持到写作本文的时候一共过去了 86 天。这个数据的可贵之处并不在于它是人工测量的,而在于它是独一无二的:由
作者:同人于野 (美国科罗拉多大学物理系研究员,物理学家) 微博:@guokr.com 摘自:果壳(guokr.com) 网上已经有太多关于怎么增加微博粉丝数,以及怎样让我们发的微博获得更多转发的建议了。我们并不知道这些建议是否有效,因为它们大都是建立在个人感觉上,而缺乏真正有说服力的证据。实际上微博是一个非常适合进行数据分析的东西,所以想谈微博心得,你得用数据说话。 一个普通用户的微博数据 从 2012 年 8 月 24 日开始,我像个自恋者一样,每天都看看自己的粉丝数涨了多少——不但看,而且还顺手把数
---- 新智元报道 编辑:Aeneas 好困 【新智元导读】大事件时常引「爆」热搜,微博服务器为啥挺得住?微博到处都是我的「互联网嘴替」,为何推荐内容如此深得我心? 2021年7月13日,劳累了一天的年轻人们,正准备躺平拿出手机,打开那熟悉的小破站App,一键三连自己最喜爱的up主的最新视频。 结果突然发现,自己的眼前一黑: 时隔一年,B站终于揭晓了这其中的奥秘:一个「诡计多端的0」。 不过,你有没有想过,即便是经历着用户的疯狂涌入,为啥这个微博,它没崩呢? AI和微博有啥关系? 在揭
sns系统,微博系统都应用到了feed(每条微博或者sns里的新鲜事等我们称作feed)系统,不管是twitter.com或者国内的新浪微博,人人网等,在各种技术社区,技术大会上都在分享自己的feed架构,也就是推拉模式(timyang上次也分享了新浪微薄的模式)。下面我们就微博的feed推拉(push,pull)模式做一下探讨,并提出新的时间分区拉模式。
这里再分享下如何快速导出你的所有微博数据,然后用Python分析某个微博账号的数据,比如高赞,转发,评论微博,微博词云,微博发布时间轴,以及使用的手机。
并且,据说微博CEO的手机号码也被泄露了!(微博CEO,微博名@来去之间,江湖人称"来总")
原文链接:https://github.com/jinfagang/weibo_terminater 本文长度为2494字,阅读全文约需6分钟 本文为你解读刚刚更新的微博终结者计划。 weibo_terminator 微博终结者爬虫基本上准备就绪: 这次我们更新了以下功能: 增加了延时策略,每次爬取10个页面,暂停五分钟,这样依旧不能百分百保证账号不被ban,但是我们还有策略!! 现在我们同时使用十几个账号同时开爬了,weibo_scraper 会在一个账号被禁止之后自动切换到下一个账号!! 不需要设置
作者简介:姜贵彬,新浪微博算法技术总监。2009年在北京理工大学获得硕士学位后,加入新浪研发中心,从事自然语言处理领域的研发工作。 责编:仲浩(zhonghao@csdn.net) 本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2016年程序员 不同于搜索,“推荐”通常不是独立的互联网产品,而是互联网产品的核心组件,为该产品的核心目标服务,比如电商网站的推荐是为了达成更多商品交易。微博推荐同样如此,其存在价值就是通过梳理和优化用户关系网络、打通内容传播链条、引爆信息定向传播,从而实现加速
大家好,我是来自新浪微博视频平台和微博平台研发部的架构师霍东海,从2017年加入微博,目前在微博视频平台负责微博视频离线处理系统架构等相关工作,包括大规模离线微服务系统的架构设计和服务保障体系的建设等。近期专注于视频平台技术体系的提升对用户体验提升的帮助,主导构建了微博SVE(Streaming Video Engine)系统,支持大并发场景下对视频进行并行转码,大幅度提升转码效率。
上图是公司的内部系统,可以看到,查询的条件是发布时间,因此,1月17日这天的抓取量是1674万,接近于2000万,如果采集系统的节点投入多一点,达到2000万是毫无问题的。
提醒,本文较长,可提前收藏/转发。 一、需求缘起 很多业务都有“计数”需求,以微博为例: 微博首页的个人中心部分,有三个重要的计数: 关注了多少人的计数 粉丝的计数 发布博文的计数 微博首页的博文消
可靠性保障是一个复杂的系统工程,特别对于可靠性已经出现问题的线上服务,在业务迭代、成本约束、人力投入等方面的约束下 ,提升其可用性就不再是单纯的技术问题了。
微博(Weibo)是一种通过关注机制分享简短实时信息的广播式社交网络平台。微博用户通过关注来订阅内容,在这种场景下,推荐系统可以很好地和订阅分发体系进行融合,相互促进。微博两个核心基础点:一是用户关系构建,二是内容传播,微博推荐一直致力于优化这两点,促进微博发展。如图1所示:
想必国内绝大多数网民都有新浪微博的用户账号。据最新数据显示,2018 年第四季度财报,微博月活跃用户突破 4.62 亿,连续三年增长 7000 万 +;微博垂直领域数量扩大至 60 个,月阅读量过百亿领域达 32 个。毫无疑问,从 2009 年 8 月上线至今,微博已是当前业界领先的中文社交媒体,成绩斐然。
微博是很多人最常使用的社交平台。吐槽、追星、发自拍、看视频、开直播等,如今微博的内容和互动形式越来越多元化。由此累积下来的庞大数据和复杂的用户互动场景,也让人工智能在微博有了用武之地。微博团队是如何玩转人工智能的?如何对明星进行图像识别?近期的线上数据侠实验室中,DT君邀请了微博机器学习团队资深算法工程师杨士新,分享了微博在人工智能方面的典型应用。
一个互联网产品的生成一般经历的过程是:产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。
关于鹿晗事件拖垮微博这件事,分享下我的理解。只做客观分析,不吹,不喷,不黑,因为这个事情绝对不是像网上传的,什么微博架构烂、技术不行、可扩展性差、控制预算成本所以节省服务器、或者是运维要背锅等等,绝对不是这么不痛不痒的几句风凉话就能简单解释清楚的。
人生处处是惊喜。国庆假期最后一天,当红流量小生鹿晗于正午 12 点,在微博公布恋情。 微博一经发布后,瞬间刷爆朋友圈、各大网站头条,还导致了微博一时间瘫痪。微博客服也很无奈表示:具体怎么造成的,大家心
众所周知,微博的程序员经常不定期加班。和别的程序员不同,别的岗位的程序员可能加班是可控的,但是微博的程序员不是。为什么呢?因为程序员们无法预知明星们什么时候有新的大料产生,一旦有新料,微博崩溃是妥妥的。甚至很多粉丝用微博有没有崩溃来衡量一个明星的知名度。
在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量? 推荐系统诞生很早,但真正被大家所重视,缘起于以”facebook”为代表的社会化网络的兴起和以“淘宝“为代表的电商的繁荣,”选择“的时代已经来临,信息和物品的极大丰富,让用户如浩瀚宇宙中的小点,无所适从。推荐系统迎来爆发的机会,变得离用户更近: 快速更新的信息,使用户需要借助群体的智慧,了解当前热点。 信息极度膨胀,带来了高昂的个性化信息获取成本,过滤获取有用信息的
这是一道真真实实的阿里面试题:“请解释下为什么鹿晗发布恋情的时候, 微博系统会崩溃,如何解决?” 哎,我原本以为认真学技术就可以了。但面试官的这个面试题还得让我关注明显恋情,不知道程序员单身居多吗?
现在是资源共享的时代,同样也是知识分享的时代,如果你觉得本文能学到知识,请把知识与别人分享。
高校舆情分析拟实现如下功能,采集微博、贴吧、学校官网的舆情信息,对这些舆情进行数据分析、情感分析,提取关键词,生成词云分析,情感分析图,实时监测舆情动态。
在微博中,用户可以通过“关注”行为成为另一个用户的粉丝,“关注”行为是有向的。通过“关注”一个用户后,我们可以在我们的feed流中看到对方的信息。在微博中,通过这样的方式,我们可以接触到更多的信息。
在开始谈我对架构本质的理解之前,先谈谈对今天技术沙龙主题的个人见解,千万级规模的网站感觉数量级是非常大的,对这个数量级我们战略上 要重 视 它 , 战术上又 要 藐 视 它。先举个例子感受一下千万级到底是什么数量级?现在很流行的优步(Uber),从媒体公布的信息看,它每天接单量平均在百万左右, 假如每天有10个小时的服务时间,平均QPS只有30左右。对于一个后台服务器,单机的平均QPS可以到达800-1000,单独看写的业务量很简单 。为什么我们又不能说轻视它?第一,我们看它的数据存储,每天一百万的话,一年数据量的规模是多少?其次,刚才说的订单量,每一个订单要推送给附近的司机、司机要并 发抢单,后面业务场景的访问量往往是前者的上百倍,轻松就超过上亿级别了。
主 题 :INTO100沙龙 时间 :2015年11月21日下午 地点 :梦想加联合办公空间 分享人:卫向军(毕业于北京邮电大学,现任微博平台架构师,先后在微软、金山云、新浪微博从事技术研发工作,专注于系统架构设计、音视频通讯系统、分布式文件系统和数据挖掘等领域。) 架构以及我理解中架构的本质 在开始谈我对架构本质的理解之前,先谈谈对今天技术沙龙主题的个人见解,千万级规模的网站感觉数量级是非常大的,对这个数量级我们战略上 要重 视 它 , 战术上又 要 藐 视 它。先举个例子感受一下千万级到底是什么数量
微博(Weibo)是一种通过关注机制分享简短实时信息的广播式社交网络平台。微博用户通过关注来订阅内容,在这种场景下,推荐系统可以很好地和订阅分发体系进行融合,相互促进。微博两个核心基础点:一是用户关系构建,二是内容传播,微博推荐一直致力于优化这两点,促进微博发展。如图 1 所示:
目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。
作者 | 朱小厮的博客 来源 | https://mp.weixin.qq.com/s/XL7F03HFzRX81Zllf4-1Ww 架构以及我理解中架构的本质 在开始谈我对架构本质的理解之前,先谈谈自己的个人见解,千万级规模的网站感觉数量级是非常大的,对这个数量级我们战略上要重视它 ,战术上又要藐视它。 先举个例子感受一下千万级到底是什么数量级?现在的优步(Uber),从媒体公布的信息看,它每天接单量平均在百万左右,假如每天有10个小时的服务时间,平均QPS只有30左右。 对于一个后台服务器,单机的平均
微博作为一款体量巨大的应用,能够快速高效的在多个平台上实现复杂的业务功能,是它成功的重要因素之一。在不断前行的路上,微博有哪些成功经验可以供广大开发者借鉴与学习?
相比较一条微博的正文内容,微博的评论区往往有着更多的态度和情感极性,是不错的语料分析文本来源,因此对微博评论的抓取需求较大,笔者在以往分享过几个微博评论抓取的代码或者教程:
在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量?
昨天,我的一条微博创造了自2010年注册以来的记录:阅读量超过1000万,且还在继续增长——然而我的微博粉丝,却只有1万人,出现这样的情况,是因为微博的Timeline不再只是基于关注,而是结合了算法推荐的“发现流”,每一个内容都有被算法推荐进而曝光和爆发的机会,坐拥千万粉丝大V和只有一万粉丝的小V,都要PK内容。事实上,整个行业,算法都在扮演着日趋重要的角色。 内容平台的算法经济学 微博在2017年先是加入了发现流,内容分发逻辑发生巨大变化,正是因为看到了算法类内容平台的强势崛起——微博,百度、
建站不免会加入一些图片进行展示、说明,亦或者装饰,但是内容多了,图片也随之增加,保存本地略显臃肿,不利于搬迁网站,但搭建图床网站未免也是如此,那么如何节省空间又利于管理?这是一个问题。
iPhone用户自从iPhone X和iOS 11发布后,可谓是水逆不断,状况百出。昨天,连微博也跑出来搞事情,前脚刚打了X的广告,后脚就马上“翻脸不认人”,到底是怎么回事呢? 1.突发!微博屏蔽iPhone关键词:啥都发不出 昨天早上微博突然屏蔽了iPhone、iPhone X以及iPhone历代名称!当你输入这些词想发微博时,微博手机端就会提示“(20021)content is illegal”,而微博PC端则会提示“抱歉,因此内容中存在违反相关法律法规或《微博社区公约》的信息,无法进行当前的操作。”
新浪微博在2012年-2013年红得发紫,也是移动互联网快速成长的年代。主页君当时就读于北京邮电大学,在实验室老师的指导下,从4G研发转战数据挖掘。从此我们项目组在实验室每天的科研工作就是刷微博,看八卦,观凤姐独领风骚,赏公知互相撕逼。这篇文章,让我们尝试回忆那个时代有趣的工作和结论。
作者:数控小V http://www.36dsj.com/archives/48650 新浪微博在2012年-2013年红得发紫,也是移动互联网快速成长的年代。主页君当时就读于北京邮电大学,在实验室老师的指导下,从4G研发转战数据挖掘。从此我们项目组在实验室每天的科研工作就是刷微博,看八卦,观凤姐独领风骚,赏公知互相撕逼。这篇文章,让我们尝试回忆那个时代有趣的工作和结论。 非常开放的微博接口 彼时,各大互联网公司都在发展开放数据平台,作为自媒体的翘楚新浪微博自然不例外。通过高级账号接口,几乎可以访问微博
时间倒回到10月08日,中午吃饭刷着刷着微博发现微博突然挂了。 我一开始以为是家里网不好,后来换了流量刷还是刷不出内容,并且报error,我就知道微博应该是挂了。 往朋友圈一看,原来是鹿晗和关晓彤微博互圈“宣布恋情”了。要不是以前看过《好先生》这部剧没准我还真不认识关晓彤。陆地cp前几天不是还在炒着吗?怎么这么突然?诶..贵圈贼乱啊。 这个时候不同的人就会有如下不同的反应: 老板心里想:哪些家伙在加班又得扣钱了,拿起电话赶快给CTO打了个电话; CTO心里想:这帮家伙叫放假别上线,又乱整,CTO立即联络
BDTC 2017中国大数据技术大会将于12月7日-9日在北京新云南皇冠假日酒店举行,大会为期三天。届时,近百位技术专家将为现场数千名的大数据行业精英、技术专家及意见领袖带来多场技术演讲,分享最新技术与实践的洞察与经验,探寻大数据发展的未来,领略数据与智能之美,欢迎大家前来参会。 大会官网:http://bdtc2017.bigdataforum.org.cn/ 日前我们采访了大会推荐系统论坛的讲师微博广告技术专家彭冬,他讲带来题为《微博商业化大数据平台从0到1架构演进及应用实践》的分享,以下为正文
0x00 前言: 前几个星期在写一个微博监控系统 可谓是一波三折啊 获取到微博后因为一些字符编码问题 导致心态爆炸开发中断 但是就在昨天发现了另外一个微博的接口 一个手机微博的接口https://m.
作者:奶权 来源:http://www.jianshu.com/p/9e7ba0a0a610
作者 | 黄波,何沧平 责编 | 何永灿 随着人工神经网络算法的成熟、GPU计算能力的提升,深度学习在众多领域都取得了重大突破。本文介绍了微博引入深度学习和搭建深度学习平台的经验,特别是机器学习工作流、控制中心、深度学习模型训练集群、模型在线预测服务等核心部分的设计、架构经验。微博深度学习平台极大地提升了深度学习开发效率和业务迭代速度,提高了深度学习模型效果和业务效果。 深度学习平台介绍 人工智能和深度学习 人工智能为机器赋予人的智能。随着计算机计算能力越来越强,在重复性劳动和数学计算方面很快超过了
领取专属 10元无门槛券
手把手带您无忧上云