前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >国外知名互联网公司的系统设计和推荐算法汇总

国外知名互联网公司的系统设计和推荐算法汇总

作者头像
深度学习与Python
发布2023-04-01 16:13:03
9720
发布2023-04-01 16:13:03
举报
文章被收录于专栏:深度学习与python

作者 | theinsaneapp.com

译者 | 张健欣

策划 | 万佳

今天,我们会讨论一些不同的东西,例如 Spotify、YouTube、Signal Messenger、Amazon 等科技巨头的推荐算法,以及像 Uber、Twitter、Netflix、Airbnb、Dropbox、Google Docs、Zoom 之类企业的系统设计。

说明:本文基于我的个人研究。有些东西可能不是 100% 准确,但我已经尽力保证它的准确性、信息和价值。

Uber 系统设计

图片来源:Geeks for Geeks

Uber 的技术可能看起来很简单,但当一个用户从应用程序发起一次乘车请求,一名司机到达将他们送往目的地的场景,这背后其实并不简单。

Uber 的基础设施由成千上万个服务和数兆字节的数据组成,来支持平台上的每次旅行。

这个系统主要是用 Python 编写的,使用 SQLAIchemy 作为数据库的 ORM 层。实际的架构对于少数城市中相对少量的旅行来说是不错的。

这个公司的后端现在不仅仅被设计来处理出租车,它还可以处理食品外卖、货物快递等等。

了解更多:https://medium.com/@narengowda/uber-system-design-8b2bc95e2cfe

YouTube 视频推荐算法

图片来源:KDNuggets

当用户看 YouTube 上的视频时,会在设备下方或右侧抛出一个推荐清单,用户可能会按照一定的顺序喜欢这些视频。

本文所描述的模型着重于两个主要目标。采用的广度 + 深度模型架构,结合了广度模型线性模型(记忆)的功能以及深度神经学习(泛化)的功能。广度 + 深度模型将为每个定义(参与度和满意度)的目标生成预测。

了解更多:https://www.kdnuggets.com/2019/10/youtube-recommending-next-video.html

Twitter 系统设计

图片来源:code karle

通过视频解说来获取更多细节:https://youtu.be/EkudBdvbDhs

Spotify 音乐推荐算法

图片来源:Harvard Business School

Spotify 是如何使用机器学习来推荐音乐的呢?

该公司同时使用了三种推荐模型和其它技术。哈佛商学院描述的这三种模型是:

  • CF 又名协作过滤(Collaborative Filtering)模型: 分析你的行为并与其它用户的行为进行比较
  • NLP 又名自然语言处理模型(Natural Language Processing Models)- 扫描互联网并分析有关 Spotify 的目录的文本
  • 音频分析(Audio Analysis)模型: 分析原始音频文件

了解更多:https://digital.hbs.edu/platform-rctom/submission/discover-weekly-how-spotify-is-changing-the-way-we-consume-music/

Netflix 系统设计

图片来源:Medium / Narendra L

Netflix 运行在两种云上:AWS 和 Open Connect。这两种云必须毫无差错地协同工作,从而提供无休止的让用户满意的视频。

三个主要的组件扮演了主要角色:CDN、后端和客户端。

任何不涉及视频服务的事务都在 AWS 中处理。在你点击播放之后发生的任何事都由 Open Connect 处理。Open Connect 是 Netflix 的定制全球化内容交付网络(CDN)。

了解更多:https://medium.com/@narengowda/netflix-system-design-dbec30fede8d

Netflix 针对个性化和推荐的系统架构

图片来源:Netflix Tech Blog

Netflix 使用了论文中提到的各种排名模型,但是没有具体说明每种模型的架构。下面是对它们的总结:

个性化视频排名(Personalised Video Ranking, PVR) — 这个算法是一种通用算法,通常根据特定标准(例如暴力电视节目、美国电视节目、浪漫爱情等)过滤目录,并结合用户特性和流行度等辅助特性。

Top-N 视频排名 — 与 PVR 类似,只是它只查看排名的最前面和整个目录。它用一些指标(即查看目录排名的头部,例如 MAP@K、 NDCG)进行优化。

了解更多:https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Fnetflixtechblog.com%2Fsystem-architectures-for-personalization-and-recommendation-e081aa94b5d8

Flipkart / Amazon System Design

图片来源:code karle

设计类似 Amazon 或 flipkart 这样的平台时的功能要求:

  • 应该提供一个用交货时间(delivery ETA)进行搜索的功能
  • 应该提供一个所有产品的目录
  • 应该提供购物车和愿望清单功能
  • 应该顺畅处理支付流程
  • 应该提供一个显示所有之前订单的页面
  • 还有许多其它功能

非功能性要求:

  • 低延迟
  • 高可用性
  • 高一致性

通过视频解释查看更多细节:https://youtu.be/EpASu_1dUdE

Signal 系统架构

图片来源:scc

Signal 是一个用于 Android 和 iOS 的端到端加密通信应用程序,有点儿像 WhatsApp,但是是开源的。它使用 TCP/IP(互联网)来发送一对一和群组消息,包括文本、文件、语音信息、图片和视频,以及一对一语音和视频通话。使用标准蜂窝移动电话号码进行用户识别。

了解更多:https://sorincocorada.ro/signal-messanger-architecture/)

Book My Show 系统设计

图片来源:GFG

在这篇文章中,我们将了解“如何设计一个类似 BookMyShow 的在线订票系统”。

BookMyShow 基于微服务架构构建。我们可以单独查看各个组件。在我们开始设计一个在线订票系统之前,可以先看看 Book My Show 使用的服务和技术。

BookMyShow 使用的技术:

  • 用户界面:ReactJS & BootStrapJS
  • 服务器语言和框架: Java、 Spring Boot、 Swagger、 Hibernate
  • 安全: Spring Security
  • 数据库: MySQL
  • 服务器: Tomcat
  • 缓存: 内存缓存 Hazelcast
  • 通知: RabbitMQ,一个用于推送通知的分布式消息队列
  • 支付 API:流行的支付 API 有 Paypal、Stripe 和 Square
  • 部署: Docker & Ansible
  • 代码仓库: Git
  • 日志: Log4J
  • 日志管理: Logstash、 ELK Stack
  • 负载均衡: Nginx

了解更多:https://www.geeksforgeeks.org/design-bookmyshow-a-system-design-interview-question/

Airbnb 系统设计

图片来源:code karle

像 Airbnb、Booking.com 和 OYO 这样的度假租赁巨头,是如何提供这样顺畅的从信息展示,到预订再到支付的流程的?从头到尾没有一点问题!可以通过视频看看他们的系统设计、技术、工作等方方面面。

通过视频了解更多细节:https://youtu.be/YyOXt2MEkv4

TikTok's 机器学习支持的推荐引擎

图片来源:TDS

TikTok 的推荐系统设计的原型是以用户为中心的设计。简单来说是,TikTok 只会推荐你喜爱的内容,从冷启动调整到对活跃用户的明确推荐。

TikTok 从不向公众或技术社区透露其核心算法。但是,基于该公司发布的零碎信息,以及极客们使用逆向工程技术发现的线索,提出了这个推荐流程。

我们可以将这个工作流拆分成几个步骤

步骤 0: 针对用户生成内容(User Generated Content, UGC)的双重审计系统

步骤 1: 冷启动

步骤 2: 基于权重的指标

步骤 3: 用户画像投射

步骤 4: 时尚潮流池

其它步骤: 延迟点火(Delayed Ignition)

了解更多:https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fwhy-tiktok-made-its-user-so-obsessive-the-ai-algorithm-that-got-you-hooked-7895bb1ab423

Google Maps 系统设计

图片来源:code karle

设计一个类似谷歌地图系统的功能要求:

  • 能够识别道路和路线
  • 在两点之间行驶时得出距离和预计到达时间(ETA)
  • 应该是一个可插拔的模型,以防我们想要建立在那些良好的需求

非功能性需求

  • 高可用性 - 这个系统永远不会宕机。我们不希望我们的用户中途迷失。
  • 良好的准确度 - 我们预估的预计到达时间应该与实际旅行时间之间偏差不会太大。
  • 迅速响应 - 响应应该在几秒内就绪。
  • 可伸缩性 - 像谷歌地图这样的系统每秒会收到巨量请求,因此它的设计方式应该能够处理这些请求,以及请求数量的任何激增。

通过视频查看更多细节:https://youtu.be/jk3yvVfNvds

Amazon 产品推荐算法

图片来源:AI with python

这个算法包含 5 个主要概念:

  • 多视图——显示多个组件,所有项目都显示在这里
  • 用户视图——显示会话中当前用户的特定信息
  • 产品视图——显示当前产品的详细信息
  • 推荐视图——显示基于当前产品的推荐产品
  • 数据视图——可视化推荐算法所使用的数据结构

Dropbox 系统设计

图片来源:Medium / Narendra L

你有没有想过这些服务是如何在内部提供文件上传、更新、删除和下载功能的?

  • 文件版本管理
  • 文件和目录同步

下面是这些系统如何在底层工作的高级解释:

视频解释:https://youtu.be/U0xTu6E2CT8

Google Docs 系统设计

图片来源:Medium Narendra L

Google Docs 系统设计分为 2 个视频。在第一个视频中,你将了解操作转换和差别同步。在第二个视频中,你会了解使用微服务架构和 API 网关的系统组件。

视频解释 1:https://youtu.be/2auwirNBvGg

视频解释:https://youtu.be/U2lVmSlDJhg

Zoom 系统设计

图片来源:code karle

到目前为止,谁还没使用过 Zoom、Microsoft teams、WebEx 或某种视频会议平台呢!现在甚至在 Zoom 上上课。如果你正在阅读本文,我确定你会对它是如何工作的感兴趣。因此,通过访问下面给出的视频链接,我确信在视频结束时,你能够成功设计一个视频会议系统。

视频解释:https://youtu.be/G32ThJakeHk

Yelp 系统设计

图片来源:Medium / Narendra L

让我们设计任何基于位置的服务,类似 Yelp 或 Trip Advisor,用户可以搜索附近的旅游景点、餐馆、剧院或超市等,用户还能够登录,添加或浏览评论、图片和景点评论。我们将以 Yelp 为例来了解相关的一切。

视频解释:https://youtu.be/TCP5iPy8xqo

Cricbuzz 系统设计

图片来源:Medium / Narendra L

视频解释:https://youtu.be/exSwQtMxGd4

股票交易系统设计

图片来源:Tech Dummies

系统设计的目标:

  • 每种股票每秒数千个订单匹配(作为参考,纳斯达克每秒处理超过 60k 条消息)
  • 高可用性、可伸缩性、可靠性和持久性
  • SLA/ 延迟
  • 允许 1 个数据中心故障
  • 为特定地址位置的用户服务将降低延迟

视频解释:https://youtu.be/dUMWMZmMsVE

原文链接:

https://www.theinsaneapp.com/2021/03/system-design-and-recommendation-algorithms.html

本周好文推荐

Mozilla怒喷当前推荐系统技术:算法“陈旧弱智”,效果非常糟糕!

才两年技术就已过时?微软100亿美元的云合同没了

数千员工受影响,IBM 邮件系统迁移或酿成“灾难”

低代码的确有缺点,但这恰恰是我们未来努力的方向

无代码将死,低代码长存

小米122人获1.2亿十年股股权激励,人均2440多万;字节跳动8月1日起取消大小周;原阿里钉钉CEO将离职创业 | Q资讯


每周精要上线移动端,立刻订阅,你将获得

InfoQ 用户每周必看的精华内容集合:

资深技术编辑撰写或编译的全球 IT 要闻

一线技术专家撰写的实操技术案例

InfoQ 出品的课程技术活动报名通道;

“码”上关注,订阅每周新鲜资讯

点个在看少个 bug👇

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
内容分发网络 CDN
内容分发网络(Content Delivery Network,CDN)通过将站点内容发布至遍布全球的海量加速节点,使其用户可就近获取所需内容,避免因网络拥堵、跨运营商、跨地域、跨境等因素带来的网络不稳定、访问延迟高等问题,有效提升下载速度、降低响应时间,提供流畅的用户体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档