首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Reddit 如何实现大规模的帖子浏览计数

/ 作者 | Krishnan Chandra 译者 | geekpi 我们希望更好地将 Reddit 的规模传达给我们的用户。...到目前为止,投票得分和评论数量是特定的帖子活动的主要指标。然而,Reddit 有许多访问者在没有投票或评论的情况下阅读内容。我们希望建立一个能够捕捉到帖子阅读数量的系统。...然后将该数量展示给内容创建者和版主,以便他们更好地了解特定帖子上的活动。 在这篇文章中,我们将讨论我们如何大规模地实现计数。 计数方法 对浏览计数有四个主要要求: ◈ 计数必须是实时的或接近实时的。...stream-lib 中的代码有很好的文档,但是要理解如何正确使用这个库并且调整它以满足我们的需求是有些困难的。 ☉ Redis 的 HLL 实现(我们选择的)。...Reddit 的数据管道主要围绕Apache Kafka [6] 。当用户查看帖子时,事件被激发并发送到事件收集器服务器,该服务器批量处理事件并将其保存到 Kafka 中。

1.3K90

【精选好文】Reddit如何统计每个帖子的浏览量

欢迎指正错误~ 我们想要更好的向用户展示 Reddit 的规模。为了这一点,投票和评论数是一个帖子最重要的指标。然而,在 Reddit 上有相当多的用户只浏览内容,既不投票也不评论。...所以我们想要建立一个能够计算一个帖子浏览数的系统。这一数字会被展示给帖子的创作者和版主,以便他们更好的了解某个帖子的活跃程度。 在这篇博客中,我们将讨论我们是如何实现超大数据量的计数。...3、显示的浏览量与真实浏览量间允许有小百分之几的误差。 4、Reddit 是全球访问量第八的网站,系统要能在生产环境的规模上正常运行,仅允许几秒的延迟。...2、stream-lib中提供的 HyperLogLog++, 采用 Java 实现。stream-lib 中的代码文档齐全,但有些难理解如何合适的使用并且改造的符合我们的需求。...总  结 我们希望浏览量可以让发帖者了解帖子全部的访问量,也帮助版主快速定位自己社区中高访问量的帖子。在未来,我们计划利用我们数据管道在实时方面的潜力来为 Reddit 的用户提供更多的有用的反馈。

1.4K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    如何在 GitHub 上找到你要的代码?

    你在 GitHub 上搜索代码时,是怎么样操作的呢?是不是就像这样,直接在搜索框里输入要检索的内容,然后不断在列表里翻页找自己需要的内容? ? 或者是简单筛选下,在左侧加个语言的过滤项。 ?...明确搜索仓库大小的 比如你只想看个简单的 Demo,不想找特别复杂的且占用磁盘空间较多的,可以在搜索的时候直接限定仓库的 size 。...而在 GitHub 上找项目的时候,不再需要每个都点到项目里看看最近 push 的时间,直接在搜索框即可完成。...元旦刚过,比如咱们要找临近年底依然在勤快更新的项目,就可以直接指定更新时间在哪个时间前或后的 通过这样一条搜索 pushed:>2019-01-03 spring cloud 咱们就找到了1月3号之后...像这样: language:java 关键词 7.明确搜索某个人或组织的仓库 比如咱们想在 GitHub 上找一下某个大神是不是提交了新的功能,就可以指定其名称后搜索,例如咱们看下 Josh Long

    2K30

    如何在Ubuntu上找到Redis日志

    日志对于Redis安装的故障排除至关重要。你可能会问自己“我的Redis在哪里登录?” 或者“Redis在Ubuntu 14.04上存储日志文件的位置是什么?”...在Ubuntu 14.04上使用默认apt-get安装,Redis日志文件位于/var/log/redis/redis-server.log。...要查看最后10行: sudo tail /var/log/redis/redis-server.log 在Ubuntu 14.04上使用默认的源代码安装,Redis日志文件位于/var/log/redis...打开该文件进行编辑: sudo nano /etc/redis/redis.conf 找到该logfile行: logfile /var/log/redis/redis-server.log 记下日志文件的位置...结论 如果您想了解有关设置Redis的更多信息,请阅读有关设置Redis群集的文章。 想要了解更多关于Linux的开源信息教程,请前往腾讯云+社区学习更多知识。

    5K30

    如何在 GitHub 上找到免费且实用的软件?

    GitHub 虽说是以程序员为主的社区,但是上面托管的项目类型却风格迥异。 有认真科研型的,也有上班划水型的。 有面向极客宅男的开发工具,也有给小白麻瓜使用的普通软件。...本周写了几篇文章,大多都在介绍与技术相关的开发工具与技巧。 今天稍微调整一下,分享 GitHub 上几个比较不错的项目合集,让你们可以在上面找到一些实用的软件。...macOS 作为一名 Mac 用户,平日自然少不了要跟许多杂七杂八的软件打交道。 每次当我要安装一个软件的时候,都会再三斟酌,上网搜索比对各个软件间的差异,以查看是否有更优的替代品。...后面,我发现了 GitHub 上的一份 macOS 资源清单 awesome-macOS,上面搜集与整理了许多非常优质的 macOS 软件,其中包含编辑器、命令行终端、聊天工具以及其它一些特别适用的生产力工具...,这大大减少了我查找一些同类别软件的时间。

    1.3K20

    在Facebook上看到这样的帖子,你还敢点开吗?

    这类钓鱼帖子正在通过Facebook上被威胁行为者侵入的账号大规模传播,与此同时,威胁行为者还利用盗取的账号在社交媒体平台上策划更多的网络钓鱼活动。...因为这些帖子来源于你朋友被盗的账户,看起来更具说服力和可信度,导致许多人上当受骗。 这场钓鱼活动大约在一年前开始,Facebook在阻止这些帖子方面遇到了麻烦,导致这些帖子活跃至今。...不过,当新的帖子发布并且被举报后,Facebook会停用帖子中的Facebook.com重定向链接,使它们不再起作用。...对Facebook钓鱼帖子中的链接进行测试时,发现这些链接会根据用户所用设备的类型导向不同的网站。...为了吸引访问者输入他们的密码,网站背景显示的是一段看似模糊的视频,但实际上,这只是威胁行为者从Discord下载的静态图片。

    25110

    如何使用 Python 抓取 Reddit网站的数据?

    使用 Python 抓取 Reddit 在本文中,我们将了解如何使用Python来抓取Reddit,这里我们将使用Python的PRAW(Python Reddit API Wrapper)模块来抓取数据...开发的应用程序 Reddit 应用程序已创建。现在,我们可以使用 python 和 praw 从 Reddit 上抓取数据。记下 client_id、secret 和 user_agent 值。...有 2 种类型的 praw 实例:   只读实例:使用只读实例,我们只能抓取 Reddit 上公开的信息。例如,从特定的 Reddit 子版块中检索排名前 5 的帖子。...抓取 Reddit 子 Reddit 从 Reddit 子版块中提取数据的方法有多种。Reddit 子版块中的帖子按热门、新、热门、争议等排序。您可以使用您选择的任何排序方法。...CSV 文件 抓取 Reddit 帖子: 要从 Reddit 帖子中提取数据,我们需要帖子的 URL。

    2.1K20

    如何在linux系统上找到占用硬盘空间最大的文件

    参考文章:3 Ways to find largest files in Linux在Linux系统上,有多种方法可以找到占用硬盘空间最大的文件。...以下是三种常用的方法:使用du和sort命令结合:打开终端,使用以下命令来找到当前目录下占用空间最大的文件:du -h . | sort -rh | head -n 5这将显示当前目录下占用空间最大的前...du -h .命令用于计算当前目录下所有文件和目录的大小,sort -rh命令按照人类可读的格式将结果进行倒序排序,head -n 5命令显示前5行结果。...该命令将递归地查找指定目录下的所有文件,使用du -Sh命令计算文件大小,sort -rh命令按照人类可读的格式进行倒序排序,head -n 5命令显示前5行结果。...这些工具可以可视化地显示文件和目录的大小,并帮助你找到占用空间最大的文件。无论你选择哪种方法,这些命令和工具都可以帮助你快速找到占用硬盘空间最大的文件,从而进行磁盘空间管理和优化。

    2.5K00

    如何使用 Redis 实现大规模的帖子浏览计数

    来源:http://t.cn/EL1FB0M 统计方法 ---- 英文原文 本文翻译自全球访问量排名第8位的论坛Reddit博客上的文章,讲的是关于Reddit如何在海量浏览量下实时统计浏览量的。...img 本文我们就来聊一聊,Reddit 是如何在大规模下统计帖子浏览量的。 统计方法 我们对统计浏览量有四个基本的要求 计数必须达到实时或者接近实时。 每个用户在一个时间窗口内仅被记录一次。...帖子显示的统计数量的误差不能超过百分之几。 整个系统必须能在生成环境下,数秒内完成阅读计数的处理。 满足上面四个条件,其实比想象中要复杂。...和Scale两种实现 Twitter的Algebird库,Scala实现,Algebird的文档撰写非常好,但是关于它是如何实现HLL的,不是很容易理解。...stream-lib库中的HyperLogLog++实现,Java编写。 stream-lib代码的文档化做的很好,但我们对如何适当调优它,还是有些困惑的。

    2.1K40

    如何找到被删除的文件

    但有的时候,会出现怎么也查不到大文件的情况,通过 du 查找的时候,统计出来的大小,跟 df 显示的占用空间对应不上。...这种情况,由于进程没有退出,因此文件占用的空间并不会释放;直到进程退出,磁盘空间才会真正释放。 ** 问题1:如何找到是哪个进程打开了该文件呢?...** linux上,由于进程仍然存活,因此可以通过查看所有进程打开的fd,如果该文件已经被删除,则查看时,会显示(deleted)。...zerotier-one zerotier-one 64 Aug 21 00:19 /proc/29400/fd/11 -> /tmp/ibG68kpG\ (deleted) ** 问题2:如何避免这种情况...** 不要直接删除该文件,而是通过将文件 truncate 的方式,释放磁盘空间。 一种方式是: cat /dev/null > ${filename} 或者(新get!)

    2.3K00

    使用Python Dash,主题分析和Reddit Praw API自动生成常见问题解答

    这些Reddit帖子显示了一个论坛可能会在几天不活动的情况下带来多大的混乱 在本文中,将更多地了解如何从Reddit等论坛中提取信息更容易,更直观。...这有助于在合适的时间保持联系。 为什么自动生成FAQ? 虽然总是有搜索引擎可以在这些论坛上找到需要的信息,但功能却受限制,特别是对于那些不活跃或落后于讨论流程的用户。...用Praw Python库提取Reddit 如何提取Reddit语料库?...身份验证从使用Reddit的praw库开始。由于有许多可用资源,不会详细讨论如何准备好身份验证。...Reddit Code获得某个subreddit频道 接下来使用以下元数据将hot_python导出到topics.csv 从Reddit Praw中提取帖子后检索的元数据 主题提取 本节说明如何在

    2.3K20

    如何找到合适的候选人

    收益&目标 如果我是面试官,我应该如何面试?为团队找到合适的人才? 降低人才流失率 提高人事匹配度 维持人才梯度专业度 持续进化团队 现状问题 我的团队应该找什么样的人? 学历优先?清北复交?...面试=八股文+算法,实际上还有极端情况,很多时候是面试=面试官心情。为什么这么说呢?因为面试官找不到合适优秀的人才,人才进不了面试,什么样的人能够八股文和算法贼溜呢?...是不是发现工作其实就是面试的日常,功在平时。 比如:你简历上做的这几个项目,你能简单讲下XX项目么?当时是处于什么背景呢?上线后的业务收益如何?在XX核心模块你是咋设计的?...&spssid=4a93ec3394c6800179755c84cfcbfac1&spsw=2&isFromH5Share=article 我觉得他里面有一点非常好,他觉得在现有能力基础上无法更好的带领团队...我觉得这个不是,而更多在于王老板常说的思考,你是否能够拿现有技术进行知识迁移,以及技术上的思想突破。

    3.4K93
    领券