设计Twitter时间线和搜索功能

这篇具有很好参考价值的文章主要介绍了设计Twitter时间线和搜索功能。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

设计Twitter时间线和搜索功能

设计 facebook feed 和 设计 facebook search是相同的问题

第一步:定义用例和约束

定义问题的需求和范围,询问问题去声明用例和约束,讨论假设
ps: 没有一个面试官会展示详细的问题,我们需要定义一些用例和约束

用例:

我们定义问题的范围,只是去处理以下Use Cases

  1. User 发布一个 tweet
  • Service push tweets 给 followers, 发送 push notification 和 email
  1. User 查看这个 user 的 timeline (行为发生来自 user)
  2. User 查看 home 的 timeline (行为发生来自 User follow的人)
  3. User 搜搜关键词
  4. Service 有高可用

问题域外

  1. Service 推送 tweets 到 Twitter Firehose 和其他的 stream
  2. Service 拉取 tweet 基于User的可视化设置
  • 隐藏 @reply 如果这个 User 不能回复被这个人 follow 的人
  • 添加 ‘hide retweets’ 设置
  1. Analystics

约束和假设:

状态假设

  1. 常用
  • Traffic 最终不被分发出去
  • 发布一个 tweet 应该是很快的
  • 发广播给所有的 followers 应该是快的,除非你有数百万的 followers
  • 1000 万活跃用户
  • 5000 万 tweet 每天 或者 150 亿 tweet 每个月
    每条推文的平均传播量为10次
    50 亿个tweet被传播一天
    1500亿tweet被传播每个月
  • 2500 亿个读请求每个月
  • 100 亿搜索每个月
  1. 时间线
  • 展示这个时间线应该很快
  • Twitter是读多写少 (优化为了快速的tweet的Read)
  • Ingesting tweets是写重的
  1. 搜索
  • 搜索应该很快
  • 搜索是读重的

计算使用量:

和面试官说明你是否需要进行粗略使用量估算

  1. 每 tweet 尺寸:
  • tweet_id - 8 bytes
  • user_id - 32 bytes
  • text - 140 bytes
  • media - 10 kb average
  • Total: ~10kb
  1. 每个月有150 TB的新 tweet 内容
  • 10 kb/tweet * 5000 万 tweet / day * 30 天 / 月
  • 三年内会有5.4 PB的新 tweet
  1. 10w read请求 / S
  • 2500 亿读请求每个月 * (400 请求每秒 / 10亿 请求每个月)
  1. 6000 tweets / s
  • 150 亿tweet每个月 * (400 请求每秒 / 10w 请求每个月)
  1. 6w 个 tweet 被广播 / 每秒
  • 1500 亿 tweet 每个月 * (400 请求每秒 / 10 w请求每个月)
  1. 4000 搜索请求每秒
  • 100亿搜索每个月 * (400 请求每秒 / 10 亿请求每个月)

转换规则:
250 万秒每个月
1 request/s = 250 万 request/ 月
40 request/s = 1000 万 request/月
400 request/s = 10 亿 request/月

高视角组件设计

描绘所有重要组件的 high level design

设计Twitter时间线和搜索功能,twitter,dreamweaver

设计核心组件

Case01: User post a tweet

我们可以存储用户自己的tweet来填充这个用户时间线,我们应该讨论这个用户Case的取舍在SQL和NoSQL之间
传播tweets和构建这个home timeline 是一个笑话,传播tweets给所有的follower(6w tweets delivered on fanout per second) 将 过载一个传统的关系型数据库。我们或许想选择一个数据存储(速度快的写,比如No SQL数据库和内存),从内存中序列化的读1MB数据需要250微秒,当从SSD需要4X,从硬盘中读需要 80X.

我们可以存储媒体文件比如图片和视频在 Object Store

  1. Client 发送一个 tweet 到 Web Server
  2. Web Server 转发这个 request到 Write API server
  3. Write API 存储 tweet 进 SQL 数据库在用户的时间线
  4. Write API 连接 Fan Out Service,会做下面的事情:
  • 使用 User Graph Service去查询这个User的 follower(存储在Cache中)
  • 存储tweet进用户的follower的home timeline(在内存里面)
  • 存储tweet进 Search Index Service,用来开启fast searching
  • 存储 media 进 Object Store
  • 使用 notification service去发送push 的notifications 给 follower
    使用一个 Queue 去异步发送 notifications

向你的面试官说明多少代码你期望去写

如果Cache是使用Redis,我们可以使用原生的Redis List伴随着如下结构:

           tweet n+2                   tweet n+1                   tweet n
| 8 bytes   8 bytes  1 byte | 8 bytes   8 bytes  1 byte | 8 bytes   8 bytes  1 byte |
| tweet_id  user_id  meta   | tweet_id  user_id  meta   | tweet_id  user_id  meta   |

新的 tweet 将会被放进 Memory Cache, 将填充这个User 的 home timeline

我们将使用一个 public REST API:

$ curl -X POST --data '{ "user_id": "123", "auth_token": "ABC123", \
    "status": "hello world!", "media_ids": "ABC987" }' \
    https://twitter.com/api/v1/tweet

Response:

{
    "created_at": "Wed Sep 05 00:37:15 +0000 2012",
    "status": "hello world!",
    "tweet_id": "987",
    "user_id": "123",
    ...
}

内部的服务通信,我们可以使用 Remote Procedure Calls

Case02: User view the home timeline
  1. Client 发送一个 home timeline request 到 Web Server
  2. Web Server 转发请求到 Read API server
  3. Read API server 连接 Timeline Service,会做下面的事情:
  • 得到存储在内存中的timeline数据,包含 tweet ids 和 user ids
  • 查询 Tweet Info Service 去得到额外的喜喜关于 tweet ids
  • 查询 User Info Service去得到额外的信息关于 user ids

REST API:

curl https://twitter.com/api/v1/home_timeline?user_id=123

Response:

{
    "user_id": "456",
    "tweet_id": "123",
    "status": "foo"
},
{
    "user_id": "789",
    "tweet_id": "456",
    "status": "bar"
},
{
    "user_id": "789",
    "tweet_id": "579",
    "status": "baz"
}
Case03: User views the user timeline
  1. Client 发送一个 user timeline request 到 Web Server
  2. Web Server 转发这个 request 到 Read API server
  3. Read API 从SQL 数据库接收 User Timeline

这个 Rest API应该是和 home timeline相同的,除了所有的 tweets应该才子与 User,而不是User 的 follower

Case04: User searches keywords
  1. Client 发送一个 search request 到 Web Server
  2. Web Server 转发 request 到 Search API server
  3. Search API 和 Search Service通信,会做下面的事情:
  • Parses/tokenizes 查询 query,决定什么需要被 search
  • 移除 markup
  • 分解 text 进 terms
  • 修复 typos
  • 格式化首字母
  • 转换query去使用bool操作
  • 查询 Search Cluster(比如 Lucene) 为了结果
  • 去集群中查询 query
  • 合并,排名,排序,然后返回结果

Rest API:

$ curl https://twitter.com/api/v1/search?query=hello+world

扩展设计

开始思考这四件事:

  1. 负载测试
  2. 分析系统瓶颈
  3. 定位瓶颈和分析不同方案和好处
  4. 重复

讨论初始化的Design,定位瓶颈的过程是非常重要的。比如:添加 Load Balancer到多Web Server会产生什么问题? CDN 呢?数据库主从架构呢?什么是最优解?

我么将介绍一些组件来完成这个Design并且去定位扩展性问题,内部的load balancer不被展示去减少
杂乱。

  • DNS
  • CDN
  • Load balancer
  • Horizontal scaling
  • Web server (reverse proxy)
  • API server (application layer)
  • Cache
  • Relational database management system (RDBMS)
  • SQL write master-slave failover
  • Master-slave replication
  • Consistency patterns
  • Availability patterns

分析设计发现,Fanout Service是潜在的瓶颈,Twitter 用户的数百万 follower会花费数分钟来完成广播流程。这可能导致推文 @replies 出现竞争状况,我们可以通过在服务时重新排序堆文件来缓解这种情况。

我们还可以避免将来自高关注度用户的推文散开,代替,我们可以搜索去找到高关注度用户的 tweet,合并搜索结果伴随着用户的 home timeline结果。然后重新排序 tweet 在服务器时间。

额外的优化包括:

  • 保持每个 home timeline只有若百个 tweets 在内存中
  • 保持只有活跃用户的 home timeline info在内存中
    • 如果一个 user 在过去的30天不活跃的化,我们可以从 SQL Database重新构建timeline
      • 查询 User Graph Service 去决定谁是这个 user 正在 following
      • 从数据库获取到 tweets 然后添加他们进内存
  • 只存储一个月的tweets进 Tweet Info Service
  • 只存储活跃用户进 User Info Service
  • Search Cluster 有可能需要保存 tweets 进内存去保证低延迟

我们也想要定位在数据库中的瓶颈。

尽管 Memory Cache 可以减少数据库的负载,仅仅SQL读取副本不足以处理缓存缺失。我们可能需要采用额外的SQL扩展模式。

大量的写入将压倒单个SQL写主从,这也表明需要额外的扩展技术。

  • Federation
  • Sharding
  • Denormalization
  • SQL Tuning

We should also consider moving some data to a NoSQL Database.

Additional talking points

Additional topics to dive into, depending on the problem scope and time remaining.

NoSQL
  • Key-value store
  • Document store
  • Wide column store
  • Graph database
  • SQL vs NoSQL

Caching

  • Where to cache
    • Client caching
    • CDN caching
    • Web server caching
    • Database caching
    • Application caching
  • What to cache
    • Caching at the database query level
    • Caching at the object level
  • When to update the cache
    • Cache-aside
    • Write-through
    • Write-behind (write-back)
    • Refresh ahead

Asynchronism and microservices

  • Message queues
  • Task queues
  • Back pressure
  • Microservices

Communications

  • Discuss tradeoffs:
    • External communication with clients - HTTP APIs following REST
    • Internal communications - RPC
  • Service discovery

Security

Refer to the security section.

Latency numbers

See Latency numbers every programmer should know.文章来源地址https://www.toymoban.com/news/detail-805677.html

Ongoing

  • Continue benchmarking and monitoring your system to address bottlenecks as they come up
  • Scaling is an iterative process

到了这里,关于设计Twitter时间线和搜索功能的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Twitter优化秘籍:置顶、列表、受众增长

    在 Twitter 上,将你的一条推送文置顶到个人数据顶部是提高可见性和吸引关注者的绝佳方式。无论你是个人用户还是企业,此功能都可以让你的重要信息常驻在众人眼前,即使你发布了新的推文。接下来,我们将分享一些优化建议,帮助你合理地使用此功能。 1、置顶要点:

    2024年02月07日
    浏览(29)
  • 微软、Google、Twitter、Facebook登录

    用户名密码方式的登录与注册繁琐,耗时长,用户体验差。 (1)官方文档地址 https://learn.microsoft.com/zh-cn/graph/auth/ (2)时序图 a、步骤10 服务器通过app获取到的授权码,请求Microsoft Graph获取令牌 POST /{tenant}/oauth2/v2.0/token Host: https://login.microsoftonline.com Content-Type: application/x-www-

    2024年02月04日
    浏览(39)
  • java代码编写twitter授权登录

    在上一篇内容已经介绍了怎么申请twitter开放的API接口。 下面介绍怎么通过twitter提供的API,进行授权登录功能。 首先在开发者页面开启“ 用户认证设置 ”,点击edit进行信息编辑。 我的授权登录是个网页,并且只需要进行简单的登录和获取登录人员基础信息这些信息,所以

    2024年02月04日
    浏览(30)
  • PHP Twitter 推特 第三方登录

    twitter登录文档 开发者平台 申请成为开发流程按引导操作就可以了, 但是要注意信息填写要真实完善的信息, 否则容易被拒绝(被拒绝可能不能二次申请, 之前不能, 现在不知道能不能) 目前推特一个号只能开通一个免费应用, 可付费开通多个 设置基础信息 User authentication setting

    2024年04月16日
    浏览(27)
  • 如何使用 Python 创建 Twitter 应用程序

    简介 通过访问 Twitter API,您可以管理社交媒体账户,并且可以从社交媒体中获取数据。如果您代表一个企业或组织,这对品牌推广很有帮助;对于个人用户和业余程序员来说,这也可以是一种有趣的娱乐方式。 在本文中,我们将概述创建 Twitter 应用程序所需的步骤。 然后,

    2024年02月20日
    浏览(50)
  • Twitter账号总被关联封号? 如何解决?

    Twitter是一个非常受欢迎的社交媒体平台,它允许用户分享自己的想法,交流意见,并与世界各地的人建立联系。然而,随着Twitter的日益普及,越来越多的人开始购买Twitter账号,并将它们与其他账号关联起来,以此来扩大自己的影响力和社交圈。但是,这种行为也带来了一些

    2024年02月13日
    浏览(26)
  • 如何使用Apache Kafka和Storm实时处理大规模的Twitter数据集 ?4 Streaming Large Collections of Twitter Data in RealTime

    作者:禅与计算机程序设计艺术 Twitter是一个巨大的社交媒体网站,每天都有数以亿计的用户参与其中。许多企业利用其数据的价值已经成为众矢之的。比如,广告、营销、市场调研等方面都依赖于Twitter数据。 Streaming Large Collections of Twitter Data in Real-Time with Apache Kafka and Stor

    2024年02月07日
    浏览(37)
  • 防止推特Twitter账号被冻结,应该选什么代理类型IP?

    在处理多个 Twitter 帐号时,选择合适的代理IP对于避免大规模帐户暂停至关重要。现在,问题出现了:哪种类型的代理是满足您需求的最佳选择?下面文章将为你具体讲解推特账号冻结原因以及重点介绍如何选择代理IP。 一、推特账号被冻结原因 1、IP问题 nbsp;使用不稳定或已

    2024年04月17日
    浏览(60)
  • Python潮流周刊#10:Twitter 的强敌 Threads 是用 Python 开发的!

    你好,我是猫哥。这里每周分享优质的 Python 及通用技术内容,大部分为英文,已在小标题注明。(标题取自其中一则分享,不代表全部内容都是该主题,特此声明。) 首发于我的博客:https://pythoncat.top/posts/2023-07-08-weekly 周刊已开通 Telegram 频道 ,欢迎关注:https://t.me/pytho

    2024年02月13日
    浏览(32)
  • 为什么 Twitter 和 Facebook 的网站页面变得越来越像?

    Twitter和Facebook这两个社交媒体平台在不同的领域取得了巨大的成功。Twitter以其独特的推文形式而闻名,而Facebook则以其广泛的社交网络和内容分享功能而著称。 然而,近年来,这两个平台在设计和布局上的相似之处越来越明显。 为什么会出现这种情况呢? 本文将深入探讨其

    2024年02月08日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包