作者丨 Reddit 译者丨王强 策划丨万佳 多年来,Reddit 已经发展成互联网世界一片广阔而多样化的土地。Reddit 的核心是众多社区组成的网络。 从你时间线的内容到整个站点的无数讨论中反映的文化,社区犹如 Reddit 流动的血液,让它变成今天这个模样。Reddit 多年来的增长给一直以来为我们服务的数据处理和服务系统带来了极大压力。 Reddit 具备的庞大规模和多样性,一开始可能很容易让人头晕。如果 Reddit 是一个城市,则 r/popular 页面就会是市政厅,你可以在其中看到那些吸引最多讨论的内容。 今天,Reddit 上的内容在几分钟之内就会完全改变;而与某位用户相关的内容可能会根据他们最近访问的内容而改变。 Reddit 上的用户群体比以往任何时候都更加多样化。 具有各种各样的背景、信仰和处境的人们每天都会访问 Reddit。此外,我们用户的兴趣和态度会随着时间而改变,并期望他们的 Reddit 体验能反映出这种变化。
Reddit收购了短视频应用程序Dubsmash,蓄力进军拥挤的短视频市场。 据悉,Reddit想要借这次收购来整合自己的视频创作部门。 Reddit 2017年就推出了本地视频,而且在2020年使用量获得了2倍的增长。 虽然如此,但Reddit本身仍然以文本内容为主,视频、图片以及动图(GIF)更多来自其他平台,缺乏本地原创视频,所以收购Dubsmash可以帮助Reddit创建自己的视频平台。 Reddit CEO史蒂夫 · 霍夫曼说: 「 Dubsmash 提升了代表性不足的创作者,而 Reddit 则通过成千上万不同的主题和激情培养了一种社区和归属感。」 而Reddit在「乔治·弗洛伊德事件」之后,平台出现了大量的仇恨言论,这在敏感时刻的影响是巨大的。
新智元报道 来源:Reddit 编辑:小芹 PyTorch可以和TensorFlow一样快,有时甚至比TensorFlow更快了?这是怎么回事?最近Reddit的一个帖子引起热议。 近日,Reddit 上有一个热帖:为什么 PyTorch 和 TensorFlow 一样快 (有时甚至比 TensorFlow 更快)? ? 格式 (TensorFlow 的默认格式) 的性能更好:https://devblogs.nvidia.com/tensor-core-ai-performance- ones/ 这个问题引发了诸多 Reddit
,但是OpenAI仅仅是使用Reddit上的数据,所以不会有这个顾虑。 gohrt:在学习算法中设置“仅包含长评论”可能是Reddit上脏话问题最简单的解决办法。 anexprogrammer:虽然过于口语化,但Reddit上有很多的长讨论都是非常正式的。 qxf2:我用过Reddit上的数据,当时我制作了一个AI来帮助作家调查人们对问题的看法,就是用Reddit上的评论作为训练样本。 如果你想获得Reddit的数据集,以下链接可能会帮到你(同样出自Hacker News评论): Syllogism:Reddit语料库是一个非常好的数据库。 BigQuery使用Reddit的数据”指导: http://minimaxir.com/2015/10/reddit-bigquery/ chokma:这里有数据集的种子文件: magnet:?
Reddit是美国最大的网上社区,它的每个帖子前面都有向上和向下的箭头,分别表示"赞成"和"反对"。用户点击进行投票,Reddit根据投票结果,计算出最新的"热点文章排行榜"。 Reddit的程序是开源的,使用Python语言编写。 结合以上几个变量,Reddit的最终得分计算公式如下: 这个公式可以分成两个部分来讨论: (一) 这个部分表示,赞成票与反对票的差额z越大,得分越高。 结论就是,Reddit的排名,基本上由发帖时间决定,超级受欢迎的文章会排在最前面,一般性受欢迎的文章、有争议的文章都不会很靠前。 这决定了Reddit是一个符合大众口味的社区,不是一个很激进、可以展示少数派想法的地方。 [参考资料] * How Reddit ranking algorithms work
但巨大的地下市场也催生了表网中与暗网有关的社区,Reddit 网站中的 /r/DarkNetMarkets 社区就是一个例子。近日,Reddit 关闭了这个社区,当时其订阅用户数量高达 18 万。 在论坛关闭之前,Reddit 管理员发布了一条新的“直接交易”禁令,禁止用户在论坛或社区中交易某些特定形态的商品。 事实上,Reddit 早就开始探讨实施新的“直接交易”禁令,2 月份美国 Stoneman Douglas 高中的枪击案促使 Reddit 管理员开始批准并执行这项新禁令,主要是为了防止在平台上进行枪支和弹药交易 Reddit 的很多用户对此也期待已久: r / DarkNetMarkets 的用户担心 Reddit 将对他们重磅出击。 但是一旦 Reddit 管理员发现用户通过这些新社区进行非法商品交易的证据,这些克隆论坛也会消失。
Krishnan Chandra 本文导航 ◈ 计数方法 08% ◈ 总结 88% 编译自 | https://redditblog.com/2017/05/24/view-counting-at-reddit / 作者 | Krishnan Chandra 译者 | geekpi 我们希望更好地将 Reddit 的规模传达给我们的用户。 然而,Reddit 有许多访问者在没有投票或评论的情况下阅读内容。我们希望建立一个能够捕捉到帖子阅读数量的系统。然后将该数量展示给内容创建者和版主,以便他们更好地了解特定帖子上的活动。 Reddit 的数据管道主要围绕Apache Kafka [6] 。当用户查看帖子时,事件被激发并发送到事件收集器服务器,该服务器批量处理事件并将其保存到 Kafka 中。
新智元报道 来源:Reddit 编辑:小芹 【新智元导读】PyTorch可以和TensorFlow一样快,有时甚至比TensorFlow更快了?这是怎么回事? 最近Reddit的一个帖子引起热议。 近日,Reddit 上有一个热帖:为什么 PyTorch 和 TensorFlow 一样快 (有时甚至比 TensorFlow 更快)? ? 格式 (TensorFlow 的默认格式) 的性能更好:https://devblogs.nvidia.com/tensor-core-ai-performance- ones/ 这个问题引发了诸多 Reddit
网址:https://arxiv.org/abs/1910.03867 基于 GPT-2 的 Reddit 机器人(343⬆️️) 作者建立了一个由 OpenAI 的 GPT-2 驱动的 Reddit via:https://heartbeat.fritz.ai/best-of-machine-learning-in-2019-reddit-edition-5fbb676a808
大数据文摘作品 编译:蒋宝尚 近日,Reddit终于采取行动,关闭了Deepfakes论坛,并更新了全网规则,称将会严格审查涉及非自愿情色和未成年性暗示的网站。 Reddit官方禁令声明? 事情还要从一个机器学习的程序说起:Reddit论坛的网友deepfake用一种AI技术将“小电影”女主角的脸替换成明星盖尔·加朵(神奇女侠的主演)。 在Reddit上,deepfakes组建了一个同名社区,短短一个月,这个板块已经聚集了近两万名订阅者。 而被“抓来”被迫色情的女星也越来越多,从艾玛·沃森到Sophie Turner…… 遏止“非自愿换脸色情片” 不仅仅在reddit,这一“换脸色情片”迅速蔓延到了各大社交网站、论坛,并受到了很多关注。 昨天,Reddit Inc.也终于发出“抵制AI技术合成的爱情动作片”声明。这标志着抵制“假视频”的做法获得了各大平台的认可。 这些公司发布禁令的最主要原因是“非自愿情色”。
第一作者还在 Reddit 上进行了解答说明,具体可以戳:这里 ,本文为了便于学习,翻译了第一作者的解读说明,不妥则删。
我们提出了一种数据驱动的方法,使用词嵌入来发现讨论平台Reddit上的语言偏见并进行分类。作为独立的用户社区空间,Reddit等平台与种族主义、性别歧视和其他形式的歧视问题联系越来越紧密。 这使得这些方法不适合处理较小的和以社区为中心的数据集,例如Reddit上的数据集,这些数据集包含较小的词汇表和俚语,以及可能是该社区特有的偏见。 本文提出了一种数据驱动的方法来自动发现Reddit上在线社区词汇中编码的语言偏见。在我们的方法中,受保护的属性被连接到数据中发现评价性词语,然后通过语义分析系统进行分类。 然后,我们成功发现了不同Reddit社区中的性别偏见、宗教偏见和种族偏见。最后,我们讨论了这种数据驱动偏见发现方法的潜在应用场景和局限性。 Such, Natalia Criado 原文地址:https://arxiv.org/abs/2008.02754 在Reddit中发现并分类语言偏见 (CS CL).pdf
新智元报道 来源:Reddit 编辑:肖琴,鹏飞 【新智元导读】今天,Reddit机器学习版块的一个热帖引起了许多人的感同身受:“如何阅读大量的学术论文,而不发疯?” 今天,Reddit机器学习版块的一个热帖引起了许多人的感同身受:“如何阅读大量的学术论文,而不发疯?”
这个仓库在Reddit上获得不少点赞,虽然目前不到1000星,但这个项目实在是太过野心勃勃。为什么这么说?因为它涵盖了从深度学习、图形内核、到统计指纹和分解等领域的优秀论文以及对应的Python实现。
选自Reddit 机器之心编译 昨日,DeepMind 在《自然》杂志上发表了一篇论文,正式推出人工智能围棋程序 AlphaGo 的最新版本 AlphaGo Zero。 今天,David Silver 与团队另一成员 Julian Schrittwieser 代表 AlphaGo 创造者在 Reddit 上回答了读者的一系列问题。本文对这些问答作了编译介绍。 ? David Silver 视频介绍 AlphaGo Zero 以下为 David Silver 与 Julian Schrittwieser 代表 AlphaGo 创造团队在 Reddit 上的问答: 原文链接:https://www.reddit.com/r/MachineLearning/comments/76xjb5/ama_we_are_david_silver_and_julian_schrittwieser
欢迎指正错误~ 我们想要更好的向用户展示 Reddit 的规模。为了这一点,投票和评论数是一个帖子最重要的指标。然而,在 Reddit 上有相当多的用户只浏览内容,既不投票也不评论。 4、Reddit 是全球访问量第八的网站,系统要能在生产环境的规模上正常运行,仅允许几秒的延迟。 要全部满足以上四个需求的困难远远比听上去大的多。 Reddit 的数据管道依赖于 Kafka。当一个用户访问了一篇博客,会触发一个事件,事件会被发送到事件收集服务器,并被持久化在 Kafka 中。 之后,计数系统会依次顺序运行两个组件。 在未来,我们计划利用我们数据管道在实时方面的潜力来为 Reddit 的用户提供更多的有用的反馈。 Java我最强,是专注Java技术的垂直社群,加入精品技术群请公众号后台留言“加群”。
美国最大的社交新闻论坛Reddit,最近有一个热帖。 一个程序员说自己喝醉了,软件工程师已经当了10年,心里有好多话想说,我可能会后悔今天说了这些话。
课程包含视频讲座,PPT,每周的jupyter的作业(colab友好)和大量的链接,非常具有实用性,在Reddit机器学习板块获得高赞。 ?
近日,Reddit上一个小哥「大方地」承认了自己的调参行为,并感觉自己是来公司骗工资的。他连连后悔,当初就该做一个软件开发工程师(去做调包侠?)。 下面是这个小哥的Reddit译文: X说我每天的工作就是清洗数据、写脚本、数据可视化、基础的机器学习算法(如tSNE降维,k-means聚类等),只是运用前人提出的经典算法。 参考资料: https://www.reddit.com/r/MachineLearning/comments/m1kss2/d_i_feel_like_an_impostor_who_just_pushes_buttons
作者顺势做了个全面整理写成了一篇论文,相关讨论在reddit上直接收获了700+的热度: 网友纷纷感叹:这总结真的是太酷了!
扫码关注腾讯云开发者
领取腾讯云代金券