访问旧的reddit帖子 - 腾讯云开发者社区

到目前为止，投票得分和评论数量是特定的帖子活动的主要指标。然而，Reddit 有许多访问者在没有投票或评论的情况下阅读内容。我们希望建立一个能够捕捉到帖子阅读数量的系统。...为了实时保持准确的计数，我们需要知道某个特定的用户是否曾经访问过这个帖子。要知道这些信息，我们需要存储先前访问过每个帖子的用户组，然后在每次处理对该帖子的新访问时查看该组。...有几个热门的帖子有超过一百万的唯一读者！对于这种帖子，对于内存和 CPU 来说影响都很大，因为要存储所有的 ID，并频繁地查找集合，看看是否有人已经访问过。...这种情况通常发生在人们查看已经被 Redis 删除的旧帖的时候。...为了保持对可能从 Redis 删除的旧帖子的维护，Abacus 定期将 Redis 的完整 HLL 过滤器以及每个帖子的计数记录到 Cassandra 集群中。

1.3K9 0

【精选好文】Reddit如何统计每个帖子的浏览量

欢迎指正错误~ 我们想要更好的向用户展示 Reddit 的规模。为了这一点，投票和评论数是一个帖子最重要的指标。然而，在 Reddit 上有相当多的用户只浏览内容，既不投票也不评论。...3、显示的浏览量与真实浏览量间允许有小百分之几的误差。 4、Reddit 是全球访问量第八的网站，系统要能在生产环境的规模上正常运行，仅允许几秒的延迟。...这种实现方式对于访问量低的帖子是可行的，但一旦一个帖子变得流行，访问量剧增时就很难控制了。甚至有的帖子有超过 100 万的独立访客！...这通常会发生在网友访问较老帖子的时候，这时该帖子的计数器很可能已经在 Redis 中过期了。为了存储存在 Redis 中的计数器过期的老帖子的浏览量。...总结我们希望浏览量可以让发帖者了解帖子全部的访问量，也帮助版主快速定位自己社区中高访问量的帖子。在未来，我们计划利用我们数据管道在实时方面的潜力来为 Reddit 的用户提供更多的有用的反馈。

1.4K4 0

您找到你想要的搜索结果了吗？

是的

没有找到

miniblink 的bug收集帖子

应广大网友的热情反馈，只好提前把miniblink 0.0.1 版放出来，果然一堆小问题。...可能是WebLayerImpl::setScrollPositionDouble 收到的太慢。（已解决。...发现ContentLayerDelegate::paintContents在全选时，耗时比正常情况大多了 8、右键菜单未实现 9、wke的鼠标捕获（已实现。...在wke的代码里调用setfocus没判断窗口句柄是否为空，导致系统取消了捕获） 10，某些种类的jpg显示不出来

1.3K5 0

Discuz导读里的最新热门没有帖子

a.进入后台——全局——手机版全局设置——是否开启热帖（选择“是”） b.全局——站点功能——导读设置（根据你网站的实际情况设置。...我设置的是：热度值聚合下限：3；热帖/精华聚合时间范围：一个月或更长） c、全局——站点功能——主题热度（根据你网站的实际情况设置。...我设置的是：热门主体显示级别：5,10,50，原来是10,100,200） 2、成功解决自己的问题：那就是后台进入每个版块，在权限一栏里，不要打钩任何一个用户组，全部留空。...只要有打钩的版块，那么这个版块就不会显示在导读里。板块多的话，可以复制设置。

951 0

God is Gril 帖子上看的有点感想「建议收藏」

God is Gril 一首不错的英文歌曲,一时光把歌词拷贝下来了,就没看曲作者和歌手可是不知道歌词,所以在google上搜索到了,谁知道找到了,god is a girl,do you...的帖子,没看歌词之前,看到帖子上的对话,比较有意思. god is girl ? do u believe that god is girl . can u receive it ?...I do not know.不过我知道你是女的。 Re:god is girl ?...我喜欢那首歌的,好听啊.GOD IS A GIRL 歌词如下: remembering me, discover and see all over the world, she’s known as...如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

2441 0

Reddit不再受漂移的Kubernetes配置困扰

当Reddit于2022年3月13日宕机时，它粗暴地提醒该公司需要以不同的方式管理其基础设施。...公司需要一个新的平台抽象，Reddit基础设施团队的高级软件工程师提到。随着公司的发展，他们需要新的平台抽象才能继续高效地运营。...使用标准 IaC，很难表示任意的业务逻辑，这是构建 Reddit 基础设施的主要要求。...现在，Reddit 应用开发人员无需学习 Helm 或 Kustomize，只需创建一个名为 Reddit Namespace 的自定义资源，并将其定向到一组集群即可。...对于用户而言，基于角色的访问控制 (RBAC) 简化为两个选项：操作员或读取器状态。

841 0

如何屏蔽 Emacs China 论坛指定用户的帖子

Emacs China 作为国内少数中文优质论坛，混的时间久了难免会对某些用户的帖子有些反感，虽然论坛自身有屏蔽的功能[1]，但仅仅是把内容用「ignored content」来替代，帖子本身还在，没法直接把帖子直接隐藏掉...@version 1.0 // @author https://github.com/jiacai2050 // @description Emacs-China 论坛，屏蔽指定用户的帖子...window.addEventListener('wheel', removeBlockedPosts); window.addEventListener('load', removeBlockedPosts); 引用链接 [1] 有屏蔽的功能

8863 0

Discourse 发布帖子的时候下载图片到本地

在默认情况，如果你的主题上有远程的图片的话，Discourse 会尝试现在到本地。但是需要注意的是 Discourse 采用的是后台进程批量上传的方式。...在你首先对你的发布内容进行编辑的时候，图片还是会引用远程图片地址。...这里有 2 个参数，第一个参数是： editing_grace_period 这个参数表示的是多少秒以后开始对图片下载到本地，默认是 300，对应的是 5 分钟。...那么在你内容创建并且发布后的 5 分钟后，Discourse 才会开始下载你内容中的图片到你的服务器上。...如果你不进行修改的话，你的 Discourse 站点将会在帖子发布后的 5 分钟开始下载图片到你的本地。 https://www.ossez.com/t/discourse/192

9220 0

Reddit 每日千亿请求背后的故事

随着更多多样化的内容被发布到平台上，我们一开始采用的方法开始不堪重负。今天，Reddit 上的内容在几分钟之内就会完全改变；而与某位用户相关的内容可能会根据他们最近访问的内容而改变。...Reddit 上的用户群体比以往任何时候都更加多样化。具有各种各样的背景、信仰和处境的人们每天都会访问 Reddit。...这些数据集用于训练多任务深度神经网络模型，这些模型学习个性化实现所需的一个子任务集合这些数据集包含一些在有限的时间范围内按每个用户、每个帖子汇总的特征（如上图所示）。...在这些数据集上，训练的模型会同时嵌入用户、subreddit、帖子和用户上下文，从而使它们能针对特定情况预测用户操作。...例如，对于每位 Reddit 用户，模型都可以分配一个用户对任意新帖子投票的概率，同时还可以分配一个用户订阅某个 subreddit 的概率，以及他们是否会对帖子发表评论的概率。

4011 0

N年前的旧代码，爆炸

最近刚接到的任务是要在官网商城PC版上面添加一些功能。第一次体会到糟糕的代码是多么的可怕。不论是从项目结构，还是代码风格，经历了“几代人”的“锤炼”，早已风化腐朽多时。...由于历史原因，整个PC站点是由Nginx拼装的html页面，Js也是由Nginx合并后的，杂乱的各种命名，年久失修的公共库。...以及一个09年的弹框插件，据说是从一号店那边过来的，好在此人留下了QQ号，已经33岁了。。。兼容性的代码，以及很多hack。...现在看来最大的坑是用的jsp模板渲染，函数调用都是直接写在DOM结构中，onclick事件触发。...到了今天，老代码不敢动，新代码只能不断的往上加，难以想象越是到后面会怎么样，每个刚接触的人都需要花费时间来阅读理解这些东西，后面的人更是不想接，这坑可真是大。eval，混乱的压缩，都是不规范导致的。

3052 0

使用Python Dash，主题分析和Reddit Praw API自动生成常见问题解答

很多时候对与他们一直在搜索的内容无关的评论数量感到沮丧。以Reddit为例，主页上有很多帖子。所有的信息杂乱都很难跟踪。...这些Reddit帖子显示了一个论坛可能会在几天不活动的情况下带来多大的混乱在本文中，将更多地了解如何从Reddit等论坛中提取信息更容易，更直观。...考虑以下知识矩阵知识矩阵及其间的解决方案在学习过程中存在四个知识领域。第一个涉及已知的知识，并且易于获取以帮助解决人们熟悉的问题。接下来将是已知的未知数，或者目前未发现但可访问的知识。...一个例子是查找有关python编程语法的信息，目前还不知道。第三种形式是未知的知识。这被定义为知道存在但不知道如何访问/获取的知识。一个例子是完成一项不知道如何开始/研究的任务。...Reddit Code获得某个subreddit频道接下来使用以下元数据将hot_python导出到topics.csv 从Reddit Praw中提取帖子后检索的元数据主题提取本节说明如何在

2.3K2 0

GitHub遭黑客攻击：窃取数百源码并勒索比特币

大数据文摘编辑部出品五一过后，一些程序员查看自己托管到GitHub上的代码时发现，他们的源代码和Repo都已消失不见，上周四，一位Reddit用户写了一篇帖子，说他的存储库被黑了。...警告的帖子 https://www.reddit.com/r/git/comments/bk1eco/git_ransomware_anyone_else_been_a_victim/?...所以，损失或许没有想象的那么大。成为受害者的用户大多是在他们的GitHub，GitLab和Bitbucket帐户使用了弱密码，或者忘记删除他们几个月没用过的旧应用程序的访问令牌，基本上都是这两种。...针对预防此类攻击，热心网友在帖子中给出建议 Daniel Ruf 说：之所以发生这种情况，是因为.git/config包含了远程URL，人们在其中添加了用户名，这种情况下不应该包含密码相关信息。...在今年4月份，Docker Hub数据库遭遇未授权人士访问，并导致约19万用户的敏感信息曝光在外，这批信息包含一部分用户名与散列密码，以及GitHub与Bitbucket存储库的登录令牌。

1.2K3 0

如何使用 Python 抓取 Reddit网站的数据？

有 2 种类型的 praw 实例：只读实例：使用只读实例，我们只能抓取 Reddit 上公开的信息。例如，从特定的 Reddit 子版块中检索排名前 5 的帖子。...抓取 Reddit 子 Reddit 从 Reddit 子版块中提取数据的方法有多种。Reddit 子版块中的帖子按热门、新、热门、争议等排序。您可以使用您选择的任何排序方法。...Reddit 的 Python subreddit 中提取 5 篇热门帖子： subreddit = reddit_read_only.subreddit("Python") for post in...CSV 文件抓取 Reddit 帖子：要从 Reddit 帖子中提取数据，我们需要帖子的 URL。...(url=url) 我们将从我们选择的帖子中提取最佳评论。

2.1K2 0

每个帖子的评论数

每行可以是一个帖子或对该帖子的评论。如果是帖子的话，parent_id 就是 null。对于评论来说，parent_id 就是表中对应帖子的 sub_id。...编写 SQL 语句以查找每个帖子的评论数。结果表应包含帖子的 post_id 和对应的评论数 number_of_comments 并且按 post_id 升序排列。...Submissions 可能包含重复的评论。您应该计算每个帖子的唯一评论数。 Submissions 可能包含重复的帖子。您应该将它们视为一个帖子。...表中 ID 为 3 的评论重复出现了，所以我们只对它进行了一次计数。表中 ID 为 2 的帖子有 ID 为 5 和 10 的两个评论。 ID 为 12 的帖子在表中没有评论。...表中 ID 为 6 的评论是对 ID 为 7 的已删除帖子的评论，因此我们将其忽略。

6680 0

如何使用 Redis 实现大规模的帖子浏览计数

来源：http://t.cn/EL1FB0M 统计方法 ---- 英文原文本文翻译自全球访问量排名第8位的论坛Reddit博客上的文章，讲的是关于Reddit如何在海量浏览量下实时统计浏览量的。...img 本文我们就来聊一聊，Reddit 是如何在大规模下统计帖子浏览量的。统计方法我们对统计浏览量有四个基本的要求计数必须达到实时或者接近实时。每个用户在一个时间窗口内仅被记录一次。...帖子显示的统计数量的误差不能超过百分之几。整个系统必须能在生成环境下，数秒内完成阅读计数的处理。满足上面四个条件，其实比想象中要复杂。...Reddit的浏览统计系统，分为两个顺序执行的组成部分，其中的第一部分是，被称为Nazar的kafka队列『消费者』(consumer) ，它会从kafka中读取事件，然后将这些事件通过特定的条件进行过滤...为了让维护一个在Redis可能被剔除的旧文章，Abacus会定期的，从Redis中将HLL过滤数据，包括每篇文章的计数，全部写入到Cassandra集群中，当然为了避免集群过载，这个步骤会分为每篇文章10

2.1K4 0

高效爬取Reddit：C#与RestSharp的完美结合

介绍在数据驱动的时代，网络爬虫已经成为获取网页数据的重要工具。Reddit，作为全球最大的社区平台之一，以其丰富的用户生成内容、广泛的讨论话题和实时的信息更新吸引了大量用户。...对于研究人员和开发者而言，Reddit提供了宝贵的数据源，可用于文本分析、舆情监控和趋势研究等多个领域。然而，由于Reddit的内容实时更新频繁、用户互动活跃，直接爬取其数据面临诸多挑战。...首先，Reddit对频繁的自动化访问有严格的限制，容易触发反爬虫机制，导致IP封禁。其次，高流量请求可能会导致请求速度限制，影响数据获取的效率。...为了解决这些问题，本文将探讨如何使用C#和RestSharp库，结合代理IP技术和多线程技术，实现高效的Reddit内容爬取。...输出部分帖子标题及统计结果，包括帖子数量、平均得分和平均评论数结论通过本文的技术分析和代码实现，展示了如何使用C#和RestSharp库，结合代理IP和多线程技术，实现高效的Reddit内容爬取。

3741 0

用 Javascript 和 Node.js 爬取网页

HTTP 客户端：访问 Web HTTP 客户端是能够将请求发送到服务器，然后接收服务器响应的工具。下面提到的所有工具底的层都是用 HTTP 客户端来访问你要抓取的网站。...为了展示 Cheerio 的强大功能，我们将尝试在 Reddit 中抓取 r/programming 论坛，尝试获取帖子名称列表。...}; 22 23getPostTitles() 24.then((postTitles) => console.log(postTitles)); getPostTitles() 是一个异步函数，将对旧的...这将得到所有帖子，因为你只希望单独获取每个帖子的标题，所以必须遍历每个帖子，这些操作是在 each() 函数的帮助下完成的。...为了演示如何用 JSDOM 与网站进行交互，我们将获得 Reddit r/programming 论坛的第一篇帖子并对其进行投票，然后验证该帖子是否已被投票。

10.2K1 0

【Java】已解决：net.dean.jraw.http.NetworkException异常

该异常通常发生在尝试通过网络请求获取Reddit数据时，例如获取帖子列表或提交评论等操作。...场景：在一个Java应用中，开发者试图通过JRAW库从Reddit获取指定子版块（subreddit）的帖子列表。...导致net.dean.jraw.http.NetworkException异常的原因有多种，常见的包括：网络连接问题：网络不稳定或无法访问Reddit服务器。...OAuthHelper.automatic(new OkHttpNetworkAdapter(), credentials); try { // 尝试获取一个不存在的子版块的帖子列表...：尝试访问一个不存在的子版块，导致请求失败。

791 0

【旧代码】mysql备份的shell脚本

思路类似 http://bazaar.launchpad.net/~lenzgr/mylvmbackup/trunk/view/head:/mylvmbacku...

4612 0

旧台式电脑的 10 种用途

引言无论你是自己组装了新电脑，还是请了最好的定制电脑制造商为你组装，接下来要做的就是如何处理你的旧电脑。...用自制云服务器代替 Google Drive 降低对云服务订阅的依赖即便你选用的是免费云存储服务而非付费订阅，把数据放在别人的服务器上总归是有风险的。...如果旧硬件遇到问题，你也可以选择 Ubuntu，但配置 Kubernetes 会稍微复杂一些。 7....打造一台 Windows 服务器将旧 Windows 电脑变成服务器非常简单如果你觉得为旧电脑选择新操作系统来搭建家庭服务器太麻烦，为什么不直接使用现有的 Windows 系统呢？...无论你选择哪种方案，将启动驱动器升级到 SSD 都是一个值得的投资，因为它能显著提升旧硬件的性能。

1610 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Reddit 如何实现大规模的帖子浏览计数

【精选好文】Reddit如何统计每个帖子的浏览量

miniblink 的bug收集帖子

Discuz导读里的最新热门没有帖子

God is Gril 帖子上看的有点感想「建议收藏」

Reddit不再受漂移的Kubernetes配置困扰

如何屏蔽 Emacs China 论坛指定用户的帖子

Discourse 发布帖子的时候下载图片到本地

Reddit 每日千亿请求背后的故事

N年前的旧代码，爆炸

使用Python Dash，主题分析和Reddit Praw API自动生成常见问题解答

GitHub遭黑客攻击：窃取数百源码并勒索比特币

如何使用 Python 抓取 Reddit网站的数据？

每个帖子的评论数

如何使用 Redis 实现大规模的帖子浏览计数

高效爬取Reddit：C#与RestSharp的完美结合

用 Javascript 和 Node.js 爬取网页

【Java】已解决：net.dean.jraw.http.NetworkException异常

【旧代码】mysql备份的shell脚本

旧台式电脑的 10 种用途

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐