首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

开源了,马斯克说到做到

同期发布技术博客上,工程师们推荐系统算法进行了一番解释。 推荐系统基础是一套核心模型和功能,从用户和相关数据中提取潜在信息。...使用机器学习模型每条进行排名。 3. 应用启发式方法和过滤器,例如过滤掉你已经屏蔽用户、NSFW 内容,以及你已经看过。...网络内源 网络内源是最大候选来源,旨在提供你所关注用户最相关、最近。它使用一个逻辑回归模型,根据相关性你所关注的人进行有效排名。然后,排名靠前被送到下一个阶段。...嵌入工作原理是生成用户兴趣和内容数字表征,然后就可以计算该嵌入空间中任意两个用户用户 - 之间相似度。如果生成了准确嵌入,可以使用这种相似性作为相关性替代。...分数会直接预测每个候选相关性,是在用户时间线进行排序主要信号。在这个阶段,所有的候选项都被平等对待,而不考虑它来自哪个候选来源。

1.4K10

Twitter 算法开源究竟会是什么样

因此,让我们看看能否从工程角度增进这个对话了解。 Twitter 是如何工作时间线视图 Twitter 为用户提供了两个版本时间线视图:默认算法推送“主页”以及 “最新”。...核心关系 时间线(Timelines)—— 来自特定账户逆时流。 喜欢(Likes)—— 喜欢是一种核心用户互动行为,表达兴趣。请注意,“喜欢”在历史上曾被称为“收藏”。...在收集到所有之后,会有一个相关性模型每条进行评分。该模型得分预测了一条你来说有多大意义和吸引力。然后,得分最高会显示在你时间线上方,其余则显示在下方。...作者:你过去与这个作者互动,你与他们联系强度,你们关系起源。 你:你在过去觉得有吸引力,你使用频率和程度。...(来源;2021 年) 全球月活跃用户超过 3 亿。(来源;2019 年) 平均每秒钟有~6K 条发布,超过 600 万次获取时间线查询。

1K40
您找到你想要的搜索结果了吗?
是的
没有找到

系统设计:社交网络服务

记住,我们每天有28B条。我们必须显示每条照片(如果有照片的话),但我们假设用户在他们时间线中每看三次视频。...2.App server将向所有数据库服务器发送查询,以查找这些人。 3.每个数据库服务器将找到每个用户tweet,按最近情况它们进行排序,并返回顶部 。...从某人关注的人那里获取所有最新,并按时间进行合并/排序。使用分页来获取/显示。只从所有关注的人那里获取前N条。...趋势主题:我们可以在最近N秒内缓存最频繁出现hashtag或搜索查询,并在每M秒后不断更新它们。我们可以根据、搜索查询、转发或喜欢频率趋势主题进行排名。...时刻:获取过去1或2小时内不同网站头条新闻,找出相关它们进行优先级排序,使用ML–监督学习或聚类它们进行分类(新闻、支持、金融、娱乐等)。然后我们可以在瞬间将这些文章显示为趋势主题。

4.3K30

一位付费API工程师如何制造了今年第七次崩溃?

大数据文摘出品 作者:Caleb “闹剧”还在继续。 3月6日,当用户像平常那样打开APP后,却发现很多推里面链接失效了,点击链接不会跳转到相关页面,而是得到一个很奇怪提醒。...2月1日,宣布不再支持其API免费访问,这在很大程度上限制了第三方客户端,同时也极大地影响了外部研究人员研究网络能力。 与之相对应一直在尝试建立一个新付费API供开发者使用。...尽管如此,马斯克接管时曾承诺将极大提高网站速度和稳定性。近几个月来,他们员工技术能力进行了测试和筛选,最终裁掉了数千名被认为“技术不够”打工人。...故障频出,马斯克却称公司将在第二季度实现正现金流 正如这位前雇员所说,这已经是今年第六次服务中断了。 1月23日,安卓用户无法加载新或发布。...2月8日,错误提醒告知用户,他们“超过了发送每日限额”,无法再发布。 2月15日,无法加载。 2月18日,时间线中断了,回复也消失了。 3月1日,时间线再次停止工作。

69210

刚刚!马斯克开源Twitter算法,GitHub Star数已破万

Twitter 官网博客详细介绍了算法在确定 For You 时间线所显示时,会具体参考哪些内容并如何进行排名和过滤。 用于构建时间线主要组件 从博来看,推荐管线由三个主要阶段组成。...首先,它会收集“来自不同推来源最佳”,之后使用“机器学习模型”进行排名。最后,它会过滤掉来自已屏蔽用户、已经看过或者在工作时间不宜观看内容,最后将结果显示在时间线上。...诚然,代码透明(用户能够看到系统到底在以怎样机制为时间线选择)和代码开源(允许社区提交自己代码作为备选,也可在其他项目中使用 Twitter 算法)并不完全是一码事。...排名信息 2017 年,Twitter 研究人员曾在一篇名为《在 Twitter 时间线使用大规模深度学习》文章中提到,为了预测某条是否会吸引用户,Twitter 模型考虑了以下几个要点:...作者:用户过去与这个作者互动,用户与他们联系强度,用户关系起源。 用户用户在过去觉得有吸引力用户使用频率和程度。

58220

Twitter推荐算法正式开源,GitHub Star飙升至 42.9K !

Twitter 官网博客详细介绍了算法在确定 For You 时间线所显示时,会具体参考哪些内容并如何进行排名和过滤。 用于构建时间线主要组件 从博来看,推荐管线由三个主要阶段组成。...首先,它会收集“来自不同推来源最佳”,之后使用“机器学习模型”进行排名。最后,它会过滤掉来自已屏蔽用户、已经看过或者在工作时间不宜观看内容,最后将结果显示在时间线上。...诚然,代码透明(用户能够看到系统到底在以怎样机制为时间线选择)和代码开源(允许社区提交自己代码作为备选,也可在其他项目中使用 Twitter 算法)并不完全是一码事。...排名信息 2017 年,Twitter 研究人员曾在一篇名为《在 Twitter 时间线使用大规模深度学习》文章中提到,为了预测某条是否会吸引用户,Twitter 模型考虑了以下几个要点:...作者:用户过去与这个作者互动,用户与他们联系强度,用户关系起源。 用户用户在过去觉得有吸引力用户使用频率和程度。

76720

Twitter新政:变革140字限定背后,Twitter有何新目标?

此前,用户发布中,这些内容大约要占25个字符左右,这在某种程度上放开了字符限制,用户在一条上可以发布更多内容。不知新浪微博会不会也做出相应改动呢?...此外,该公司将改变显示方式,用户包含艾特对象也将即时出现在用户时间线内。 这一改变用户习惯和互联网世界又意味着什么呢?...此外,以用户名最为开头不需要必须使用”.@” convention ,这个功能是将推送给所有的粉丝。...第三方客户端和其他API用户前后端兼容性是我们考虑主要问题。...为了支持这些变化,在API Endpoint方面会有新API选项用于创建或使用。如需获取详细信息,请查阅我们已经发布初期技术文档。

1.9K60

马斯克把公开给他纠错工程师开除了

那么这位特工程师到底做了什么,能让马斯克如此“公开处刑”? 在公开纠错马斯克 故事起因,还要从马斯克周日一条开始说起。...对于App冷启动,大概有20个请求加载主页时间线。大多数请求都是非阻塞,而且是在后台运行,包括图像、用户设置、hashflag等。...例如,他现在用笔记本电脑是这种状态: 嗯,被公司给“锁死”了…… 然后像福布斯等媒体这件事也做到报道,于是勇士哥也在上转发,并留言说: 一定是卡顿新一天。...那么网友们这事咋看呢? 有的人认为,勇士哥确实不该在这种公开场合纠自家老板错。 言外之意很明显,会让马斯克下不来台。...最后,可能实在是脸被打得太疼,马斯克选择删除了最开始。 事实上,马斯克一条之所以能激起如此大反应,还要从他入主推特以来推行种种政策说起。

31720

马斯克被Twitter脆弱代码“逼疯”,要求全部重写!网友:重构是空降领导了解当前系统最快方式?

有网友指出是“ Twitter API 传入和传出访问被破坏了”,底下有网友抱着“看热闹不嫌事大”心态称:“这个应用程序坏了会更有趣”。...他同事员工技术水平进行了筛选,最终裁掉了几千名“能力”不足以在马斯克治下取得成功员工。...· 2 月 8 日,一条错误消息提醒用户“您已超过每日发送上限”,导致其无法正常发帖。 · 2 月 15 日,无法加载。 · 2 月 18 日,时间线中断,回复消失。...· 3 月 1 日,时间线无法正常工作。 以上提到还只是服务宕机。此外,马斯克时间线上比其他用户更显眼等问题,也扰乱了用户正常体验。...不过,如今掌舵马斯克是否真正关心 Twitter 技术债还不得而知。 此前,马斯克在上表示,“对于 Twitter 在许多国家 / 地区超慢速度,我深表歉意。

82220

系统架构设计(3)-可扩展性

对此有如下 处理方案 方案一:关系型数据模型 将发送插入全局文集合。当用户查看时间线,首先找所有的关注对象,列出这些人所有,以时间为序来排序合并。...当用户推送新,查询其关注者,将插入到每个关注者时间线缓存中。因为已预先将结果取出,之后访问时间就是线性性能,很快。...Twitter最初使用方案一,但发现主页时间线读负载压力与日俱增,系统优化之路曲折,于是转向方案二,实践证明更好,因为时间线浏览压力几乎比发布要高出两个数量级,基此,在发布时多完成一些事情可加速读性能...每个用户关注者分布情况(还能结合用户使用频率进行加权)是该案例可扩展关键负载参数,因为它决定了扇出数。你应用可能具有不同特性,但能采用类似原则研究具体负载。...大多数用户在发布时继续以一多写入时间线,但少数大V用户除外,这些用户采用类似方案一,其被单独提取,在读取时才和用户时间线主表合井。这种混合方案能提供始终良好表现。

92320

系统设计面试:保姆指南

这里有一些问题对于设计在进入下一步之前应该回答问题: •我们服务用户是否能够发布并跟踪其他人? •我们是否也应该设计来创建和显示用户时间线? •会包含照片和视频吗?...•系统预期规模(例如,新tweet数量、tweet视图数量,每秒时间线生成数(等等)? •我们需要多少存储空间?我们将有不同号码,如果用户可以有照片和他们视频。...如果我们假设我们会如果有更多读流量(与写流量相比),我们可以决定使用单独服务器来处理这些场景。在后端,我们需要一个高效数据库,可以存储所有的和可以 支持大量读取。...我们是否应该尝试将一个用户所有数据存储在同一个服务器上数据库?会引起什么问题?(分布式数据库,分库分表,数据一致性) •我们将如何处理那些经常发或关注很多人热门用户?...(热数据问题) •由于用户时间线将包含最新(和相关),我们是否应该尝试存储我们数据在这样一种方式,是优化扫描最新

1.5K231

寒气遍布硅谷:员工公开指出马斯克错误遭解雇,亚马逊启动万人大裁员

加上今天曝出亚马逊,美国科技企业这波裁员潮正在如火如荼地进行中。...twitter@debarghya_das 员工公开指出马斯克错误,马斯克:「He’s fired」 与动不动裁撤几千人不同,最新一次的人事变动似乎是针对个人,马斯克刚刚解雇了在上公开指出他错误员工...看到老员工这么一番解释,似乎是为了澄清最初,马斯克随后回应道,「你没有意识到当有人使用 Twitter 应用程序时会调用多达 1200 个微服务,这样并不好。」...Frohnhoefer 表示花了大约 5 个小时才阻止自己访问公司笔记本电脑,但他还没有听到任何关于他被公司解雇正式消息。...至于 Frohnhoefer 本人,他在上表示,以他方式与马斯克对质绝对是愚蠢行为,尽管他似乎不太担心被解雇。

32030

马斯克官宣放弃收购,:法庭见

「近两个月来,马斯克一直在寻找必要数据和信息,以『平台上虚假或垃圾邮件账户普遍性进行独立评估』,」马斯克法律团队称。「未能或拒绝提供这些信息。」...然而,我们完全不清楚马斯克是否可以仅仅因为他上存在垃圾邮件数量过多而合法地放弃他协议——他本可以在签署协议之前就对此进行调查。 特已竭尽全力地遵守马斯克要求。...6 月初,该公司开放了其服务「firehose」数据源访问权限,以便马斯克可以接收和分析每条发布。该公司还不断试图向公众保证它已控制了垃圾邮件和机器人泛滥。...在此之前,员工曾发过一些非常幽默。有人在上说,他们单方面取消了我抵押贷款,很高兴他们不用再支付了,我不清楚马斯克是否可以合法地说不,然后走开。...「不然,你真的觉得一个发射得了火箭的人整治不了网络机器人」 从时间线上来看,马斯克宣布要收购始于今年 4 月中旬。

42230

把你的人生数据化,然后随时翻看,你愿意吗?这款搜索app就这么干了

在经过大概一个半月内测之后,这款号称要做你“人生搜索引擎”软件终于在2022年最后几天(平安夜前一天)正式上线了,其创始人兼CEO Dan Siroker在个人宣布了这一消息,并连发了十条介绍...鼠标拖动时间线,就可以实现App使用记录快速切换(正式版还增加了时间线切换快捷键和导航至指定日期功能)。...根据牛津大学人类未来研究所定义,全脑仿真技术会在扫描大脑收集数据基础上,这些数据进行解释并构建软件模型,并且该模型“非常忠实于原始模型,当在适当硬件上运行时,它行为本质上会和原来大脑一样”。...但不久前12月31日,Rewind又一次更新不得不让人注意——Siroker在里标出这次更新亮点之一,是可以转录任何音频,只要用户在Rewind设置中开启电脑麦克风音频捕获权限。...“Rewind在被两代人使用之后,这两代人就会出现明显差异,”他在写道,他觉得未来一代将会非常惊讶于我们曾使用纸笔写字,那时小孩会说,“爷爷,以前有没有人把树砍下来做成长方形木板,然后用树棍在上面画画

46020

马斯克失去自由,发特斯拉还得先“过审”

西风 发自 凹非寺 量子位 | 公众号 QbitAI 马斯克失去“自由”,发布特斯拉相关需要接受审查! 这是美国联邦上诉法院最新宣判结果。...所以,这一系列事件完整时间线究竟是什么? 马斯克与SEC恩怨情仇 事情还要从2018年一则文说起。...之后,马斯克在又接连进行了一串“骚操作”。 SEC忍无可忍,在给特斯拉信件中表示,尽管马斯克一再违规,特斯拉公司却未能执行这些程序和控制措施。...案件判决中,美国证券交易委员会表示“自2018年以来只对马斯克进行了三次调查”,并发现“每条都合理地违反了协议条款”。 看来,马斯克确实没把“审查令”这事儿放心上。...总结一下就是,马斯克虽然身为CEO,但却失去了发表特斯拉言论自由”。 但这并不意味着马斯克已经放弃了与审查作斗争。他律师Alex Spiro透露: 将寻求进一步审查。

21020

《数据密集型应用系统设计》读书笔记(一)

「主页时间线」:一个用户可以查看其关注对象发布(平均 300k 请求/秒) 上述操作难点在于巨大「扇出」(fan-out)结构,即每个用户会关注很多人,也会被很多人圈粉。...Twitter 给出了如下图所示两种处理方案: ? 方法 1 是将发送插入到全局特集合中,当用户查看时间线时,首先查找其所有的关注对象,列出这些人所有,最后以时间为序进行合并。...,当用户发布新时,查询其关注者,将该插入到每个关注者时间线缓存中。...Twitter 在最初版本中使用了方法 1,但随着主页时间线读负载压力与日俱增,开始切换为方法 2,因为时间线浏览压力要比发布多,所以在发布时多完成一些事情可以加速读性能。...目前 Twitter 正在考虑将两种方法结合起来,大部分用户发布时采用方法 2,以一多写入时间线,而部分超级用户则才用类似方法 1 方法,其被单独提取,当读取时才和用户时间线合并。

1.8K40

面试问题:如何设计一个微博

服务:处理发布、删除和检索。 关注服务:管理关注和取消关注操作以及粉丝列表。 信息流服务:为用户时间线聚合。 通知服务:为各种活动发送通知。...搜索服务:允许用户搜索、话题标签和用户。 3. 数据库设计 用户数据:存储与用户相关数据(用户名、电子邮件、密码、资料信息)。 数据:存储内容、元数据(时间戳、作者)。...数据库分片:根据用户ID或ID进行数据库分片,实现负载分布。 缓存:为频繁访问数据实现缓存,减少数据库负载。 负载均衡:使用负载均衡器在服务器之间分配流量。 5....实时信息流生成 模型:当用户发布时,将其推送到关注者信息流中。 拉模型:用户定期拉取/刷新他们时间线。 混合方法:推拉模型结合,优化性能。 6....异步处理:对于不需要同步处理操作,使用消息队列。 7. 数据一致性和可靠性 复制:使用数据库复制来实现数据持久性。 一致性模型:非关键数据采用最终一致性。 8.

17210

常见分布式应用系统设计图解(二):Feed 流系统

这里提给 push 和 pull 各提一个经典问题: 第一个问题是 push 模型下,由于粉丝众多,占用容量过大问题,一种解决思路是在粉丝时间线中只存储 id,但是这样的话在聚合时候需要一次额外根据...右侧 Tweet Storage:用户和帖子(关联数据,数据量会比较大,可以选择 Redis 这样 KV 数据库;而文本身,也可以使用 KV 数据库,或者使用 MongoDB 这一类文档数据库...关于 Sharding,这是一个 Feed 系统核心话题。...来缓和;(2)某些用户多而某些用户少,因此时间长了 shards 容量使用差异可能很大,这需要一个改进找 shard 路由算法。...用户时候,根据用户所应对策略,如果需要 fan out id 到粉丝时间线中,就要把这个事件进 queue,由于它是异步模型,这一步可能会有不同程度延迟。

84531

系统设计:Twitter搜索服务

需求 Twitter是最大社交网络服务之一,用户可以在其中共享照片、新闻和基于文本消息。在本章中,我们将设计一个可以存储和搜索用户服务。类似的问题:搜索。...Twitter用户可以随时更新他们状态。每个状态(称为tweet)都由纯文本组成,我们目标是设计一个允许搜索所有用户 系统。...2.系统要求和目标 •假设Twitter拥有15亿用户,每天有8亿活跃用户。 •平均每天收到4亿条。 •平均大小为300字节。 •假设每天有5亿次搜索。...如果我们使用“基于tweet对象切分”,暴力解决方案将是迭代整个数据库,并使用我们哈希函数过滤tweetid,以找出将存储在此服务器上所有必需tweet。...在将结果返回到聚合器服务器之前,每个分区都可以根据这个流行数字结果进行排序。聚合器服务器组合所有这些结果,根据受欢迎程度它们进行排序,并将排名靠前结果发送给用户

5.2K400
领券