学习
实践
活动
专区
工具
TVP
写文章

Reddit 每日千亿请求背后的故事

作者丨 Reddit 译者丨王强 策划丨万佳 多年来,Reddit 已经发展成互联网世界一片广阔而多样化的土地。Reddit 的核心是众多社区组成的网络。 从你时间线的内容到整个站点的无数讨论中反映的文化,社区犹如 Reddit 流动的血液,让它变成今天这个模样。Reddit 多年来的增长给一直以来为我们服务的数据处理和服务系统带来了极大压力。 Reddit 具备的庞大规模和多样性,一开始可能很容易让人头晕。如果 Reddit 是一个城市,则 r/popular 页面就会是市政厅,你可以在其中看到那些吸引最多讨论的内容。 今天,Reddit 上的内容在几分钟之内就会完全改变;而与某位用户相关的内容可能会根据他们最近访问的内容而改变。 Reddit 上的用户群体比以往任何时候都更加多样化。 具有各种各样的背景、信仰和处境的人们每天都会访问 Reddit。此外,我们用户的兴趣和态度会随着时间而改变,并期望他们的 Reddit 体验能反映出这种变化。

8910

Reddit竟成为Tik Tok最大竞争对手!短视频应用Dubsmash被社交平台Reddit收购

Reddit收购了短视频应用程序Dubsmash,蓄力进军拥挤的短视频市场。 据悉,Reddit想要借这次收购来整合自己的视频创作部门。 Reddit 2017年就推出了本地视频,而且在2020年使用量获得了2倍的增长。 虽然如此,但Reddit本身仍然以文本内容为主,视频、图片以及动图(GIF)更多来自其他平台,缺乏本地原创视频,所以收购Dubsmash可以帮助Reddit创建自己的视频平台。 Reddit CEO史蒂夫 · 霍夫曼说: 「 Dubsmash 提升了代表性不足的创作者,而 Reddit 则通过成千上万不同的主题和激情培养了一种社区和归属感。」 而Reddit在「乔治·弗洛伊德事件」之后,平台出现了大量的仇恨言论,这在敏感时刻的影响是巨大的。

11420
  • 广告
    关闭

    有奖征文丨玩转 Cloud Studio

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    OpenAI用Reddit训练聊天机器人

    ,但是OpenAI仅仅是使用Reddit上的数据,所以不会有这个顾虑。 gohrt:在学习算法中设置“仅包含长评论”可能是Reddit上脏话问题最简单的解决办法。 anexprogrammer:虽然过于口语化,但Reddit上有很多的长讨论都是非常正式的。 qxf2:我用过Reddit上的数据,当时我制作了一个AI来帮助作家调查人们对问题的看法,就是用Reddit上的评论作为训练样本。 如果你想获得Reddit的数据集,以下链接可能会帮到你(同样出自Hacker News评论): Syllogism:Reddit语料库是一个非常好的数据库。 BigQuery使用Reddit的数据”指导: http://minimaxir.com/2015/10/reddit-bigquery/ chokma:这里有数据集的种子文件: magnet:?

    65040

    基于用户投票的排名算法(二):Reddit

    Reddit是美国最大的网上社区,它的每个帖子前面都有向上和向下的箭头,分别表示"赞成"和"反对"。用户点击进行投票,Reddit根据投票结果,计算出最新的"热点文章排行榜"。 Reddit的程序是开源的,使用Python语言编写。 结合以上几个变量,Reddit的最终得分计算公式如下: 这个公式可以分成两个部分来讨论: (一) 这个部分表示,赞成票与反对票的差额z越大,得分越高。 结论就是,Reddit的排名,基本上由发帖时间决定,超级受欢迎的文章会排在最前面,一般性受欢迎的文章、有争议的文章都不会很靠前。 这决定了Reddit是一个符合大众口味的社区,不是一个很激进、可以展示少数派想法的地方。 [参考资料]   * How Reddit ranking algorithms work

    61860

    Reddit关闭暗网社区,引发用户热议

    但巨大的地下市场也催生了表网中与暗网有关的社区,Reddit 网站中的 /r/DarkNetMarkets 社区就是一个例子。近日,Reddit 关闭了这个社区,当时其订阅用户数量高达 18 万。 在论坛关闭之前,Reddit 管理员发布了一条新的“直接交易”禁令,禁止用户在论坛或社区中交易某些特定形态的商品。 事实上,Reddit 早就开始探讨实施新的“直接交易”禁令,2 月份美国 Stoneman Douglas 高中的枪击案促使 Reddit 管理员开始批准并执行这项新禁令,主要是为了防止在平台上进行枪支和弹药交易 Reddit 的很多用户对此也期待已久: r / DarkNetMarkets 的用户担心 Reddit 将对他们重磅出击。 但是一旦 Reddit 管理员发现用户通过这些新社区进行非法商品交易的证据,这些克隆论坛也会消失。

    1.2K60

    快讯 | Reddit关闭Deepfakes论坛,遏制“非自愿换脸情色”

    大数据文摘作品 编译:蒋宝尚 近日,Reddit终于采取行动,关闭了Deepfakes论坛,并更新了全网规则,称将会严格审查涉及非自愿情色和未成年性暗示的网站。 Reddit官方禁令声明? 事情还要从一个机器学习的程序说起:Reddit论坛的网友deepfake用一种AI技术将“小电影”女主角的脸替换成明星盖尔·加朵(神奇女侠的主演)。 在Reddit上,deepfakes组建了一个同名社区,短短一个月,这个板块已经聚集了近两万名订阅者。 而被“抓来”被迫色情的女星也越来越多,从艾玛·沃森到Sophie Turner…… 遏止“非自愿换脸色情片” 不仅仅在reddit,这一“换脸色情片”迅速蔓延到了各大社交网站、论坛,并受到了很多关注。 昨天,Reddit Inc.也终于发出“抵制AI技术合成的爱情动作片”声明。这标志着抵制“假视频”的做法获得了各大平台的认可。 这些公司发布禁令的最主要原因是“非自愿情色”。

    2.1K40

    Reddit中发现并分类语言偏见 (CS CL)

    我们提出了一种数据驱动的方法,使用词嵌入来发现讨论平台Reddit上的语言偏见并进行分类。作为独立的用户社区空间,Reddit等平台与种族主义、性别歧视和其他形式的歧视问题联系越来越紧密。 这使得这些方法不适合处理较小的和以社区为中心的数据集,例如Reddit上的数据集,这些数据集包含较小的词汇表和俚语,以及可能是该社区特有的偏见。 本文提出了一种数据驱动的方法来自动发现Reddit上在线社区词汇中编码的语言偏见。在我们的方法中,受保护的属性被连接到数据中发现评价性词语,然后通过语义分析系统进行分类。 然后,我们成功发现了不同Reddit社区中的性别偏见、宗教偏见和种族偏见。最后,我们讨论了这种数据驱动偏见发现方法的潜在应用场景和局限性。 Such, Natalia Criado 原文地址:https://arxiv.org/abs/2008.02754 在Reddit中发现并分类语言偏见 (CS CL).pdf

    32220

    【精选好文】Reddit如何统计每个帖子的浏览量

    欢迎指正错误~ 我们想要更好的向用户展示 Reddit 的规模。为了这一点,投票和评论数是一个帖子最重要的指标。然而,在 Reddit 上有相当多的用户只浏览内容,既不投票也不评论。 4、Reddit 是全球访问量第八的网站,系统要能在生产环境的规模上正常运行,仅允许几秒的延迟。 要全部满足以上四个需求的困难远远比听上去大的多。 Reddit 的数据管道依赖于 Kafka。当一个用户访问了一篇博客,会触发一个事件,事件会被发送到事件收集服务器,并被持久化在 Kafka 中。 之后,计数系统会依次顺序运行两个组件。 在未来,我们计划利用我们数据管道在实时方面的潜力来为 Reddit 的用户提供更多的有用的反馈。 Java我最强,是专注Java技术的垂直社群,加入精品技术群请公众号后台留言“加群”。

    87140

    扫码关注腾讯云开发者

    领取腾讯云代金券