Reddit上拥有将近90万个社区,这使其能够提供海量的、源源不断的、门类繁多的、口语化的训练样本。 ,但是OpenAI仅仅是使用Reddit上的数据,所以不会有这个顾虑。 gohrt:在学习算法中设置“仅包含长评论”可能是Reddit上脏话问题最简单的解决办法。 anexprogrammer:虽然过于口语化,但Reddit上有很多的长讨论都是非常正式的。 qxf2:我用过Reddit上的数据,当时我制作了一个AI来帮助作家调查人们对问题的看法,就是用Reddit上的评论作为训练样本。 我们用Reddit训练过一个word2vec模型,这里是demo: https://explosion.ai/blog/sense2vec-with-spacy minimaxir: 他们用的Reddit
但巨大的地下市场也催生了表网中与暗网有关的社区,Reddit 网站中的 /r/DarkNetMarkets 社区就是一个例子。近日,Reddit 关闭了这个社区,当时其订阅用户数量高达 18 万。 在论坛关闭之前,Reddit 管理员发布了一条新的“直接交易”禁令,禁止用户在论坛或社区中交易某些特定形态的商品。 事实上,Reddit 早就开始探讨实施新的“直接交易”禁令,2 月份美国 Stoneman Douglas 高中的枪击案促使 Reddit 管理员开始批准并执行这项新禁令,主要是为了防止在平台上进行枪支和弹药交易 Reddit 的很多用户对此也期待已久: r / DarkNetMarkets 的用户担心 Reddit 将对他们重磅出击。 但是一旦 Reddit 管理员发现用户通过这些新社区进行非法商品交易的证据,这些克隆论坛也会消失。
提供包括云服务器,云数据库在内的90+款云计算产品。打造一站式的云产品试用服务,助力开发者和企业零门槛上云。
我们提出了一种数据驱动的方法,使用词嵌入来发现讨论平台Reddit上的语言偏见并进行分类。作为独立的用户社区空间,Reddit等平台与种族主义、性别歧视和其他形式的歧视问题联系越来越紧密。 这使得这些方法不适合处理较小的和以社区为中心的数据集,例如Reddit上的数据集,这些数据集包含较小的词汇表和俚语,以及可能是该社区特有的偏见。 本文提出了一种数据驱动的方法来自动发现Reddit上在线社区词汇中编码的语言偏见。在我们的方法中,受保护的属性被连接到数据中发现评价性词语,然后通过语义分析系统进行分类。 然后,我们成功发现了不同Reddit社区中的性别偏见、宗教偏见和种族偏见。最后,我们讨论了这种数据驱动偏见发现方法的潜在应用场景和局限性。 Such, Natalia Criado 原文地址:https://arxiv.org/abs/2008.02754 在Reddit中发现并分类语言偏见 (CS CL).pdf
Reddit是美国最大的网上社区,它的每个帖子前面都有向上和向下的箭头,分别表示"赞成"和"反对"。用户点击进行投票,Reddit根据投票结果,计算出最新的"热点文章排行榜"。 Reddit的程序是开源的,使用Python语言编写。 结合以上几个变量,Reddit的最终得分计算公式如下: 这个公式可以分成两个部分来讨论: (一) 这个部分表示,赞成票与反对票的差额z越大,得分越高。 结论就是,Reddit的排名,基本上由发帖时间决定,超级受欢迎的文章会排在最前面,一般性受欢迎的文章、有争议的文章都不会很靠前。 这决定了Reddit是一个符合大众口味的社区,不是一个很激进、可以展示少数派想法的地方。 [参考资料] * How Reddit ranking algorithms work
新智元报道 来源:Reddit 编辑:小芹 【新智元导读】PyTorch可以和TensorFlow一样快,有时甚至比TensorFlow更快了?这是怎么回事? 最近Reddit的一个帖子引起热议。 近日,Reddit 上有一个热帖:为什么 PyTorch 和 TensorFlow 一样快 (有时甚至比 TensorFlow 更快)? ? 格式 (TensorFlow 的默认格式) 的性能更好:https://devblogs.nvidia.com/tensor-core-ai-performance- ones/ 这个问题引发了诸多 Reddit
新智元报道 来源:Reddit 编辑:小芹 PyTorch可以和TensorFlow一样快,有时甚至比TensorFlow更快了?这是怎么回事?最近Reddit的一个帖子引起热议。 近日,Reddit 上有一个热帖:为什么 PyTorch 和 TensorFlow 一样快 (有时甚至比 TensorFlow 更快)? ? 格式 (TensorFlow 的默认格式) 的性能更好:https://devblogs.nvidia.com/tensor-core-ai-performance- ones/ 这个问题引发了诸多 Reddit
不得不说,Roy对Reddit确实是爱得深沉,甚至连公司最初的宣传标语也是从Reddit上找到的灵感。 Reddit可能是过去十年来给我带来最简单快乐的社交平台。 我看完一部电影或电视节目后做的第一件事,就是花几个小时在Reddit逛逛。 在搜索时,我仍然习惯在名字后面加一个「reddit」。 我曾经发表过一次婚礼演讲,其中所有婚礼建议都是从Reddit上收集的。 当时的Reddit给我的感觉是,上面聊的东西和我在《金融时报》上看到的专业信息工具之间的碎片化内容太不一样了。 而在2021年,情况完全不同了,无数的对冲基金都在关注Reddit上的讨论。每个受人尊敬的金融媒体都有无数来自关于Reddit用户的头条新闻。 「我们希望Reddit更具视觉吸引力,这样当新用户来到Reddit时,可以更好了解到这里有什么,能干什么。」 对于任何使用过Reddit的人来说,它的简单至上始终是一个关键的卖点。
订阅我的技术与商业案例解读专栏的人应该对Reddit不是很陌生。我在专栏里专门分析了Reddit这个论坛的方方面面。 融资金额是5000万美元,给Reddit的估值是5亿美元。 2017年7月,Reddit进行了第二轮融资,这一轮融资金额是2亿美元,给Reddit的估值高达18亿美元。 美国总统奥巴马开创了通过Reddit回答网名问题的先例,前前后后陆陆续续有很多的名人政客使用过Reddit举办活动,这让Reddit进一步树立了美国最大论坛的地位。 Reddit最核心的功能是打分机制。通过访问者对帖子打分来决定在哪里展示。这是Reddit最有别于其他网站的特色。 但是腾讯领投Reddit是为了什么,我就不太能够看明白了。Reddit这几年的发展充分证明了吆喝赚很多,但是钱赚不到的论坛生存艰难。Reddit在如何把流量变现问题上一直没什么好办法。
据外媒报道,当地时间周二,Reddit 表示他们已经确认并清除了上百个涉嫌跟俄罗斯在社交媒体上散布虚假消息活动有关的账号。 而在这份透明度报告之前,Reddit CEO Steve Huffman 曾表示正在配合国会对其网站是否在 2016 年美总统大选中成为一个误导信息源头的调查工作。 不过有7个账号却在网站上拥有不错的 karma 分,这意味着它们受到了 Reddit 其他用户的好评。 “我还想澄清的是这 944 名用户中没有一个人在 Reddit 上发布任何广告。我们也没发现任何有效利用这些账号进行投票操纵的行为。” 为进一步提高公司透明度,Reddit 还分享了一个被清除 944 个账号的链接。
keyword: &str) -> Option<Keyword> { KEYWORDS.get(keyword).cloned() } Read more Lemmy 使用rust寫的一個Reddit like的網站框架 Read more kubernix 啟動 5個 node Kubernetes 的 cluster 只要40秒 Read more reddit 中學的機器人課,rust線上文件
Google仍然是访问量最大的网站,其次是YouTube、Reddit和Facebook,Amazon排在前五名。 根据亚马逊的网站流量分析平台Alexa的数据,在美国,访问Reddit网站的流量已经超过Facebook。 这个发现当然马上就被Reddit用户发布在r/technology板块。 虽然使用Alexa这类工具来分析web流量并不是精确的,不过值得注意的是,该排行把Reddit放到了Facebook前面。 美国流量前10的网站 Reddit用户平均每天花15分钟10秒的时间上Reddit网站,这个数字比其他竞争对手要高得多。 Reddit的老用户是否对增加的新流量感到满意是另一回事。毕竟,说实话,他们什么时候满意过? ?
大数据文摘作品 编译:蒋宝尚 近日,Reddit终于采取行动,关闭了Deepfakes论坛,并更新了全网规则,称将会严格审查涉及非自愿情色和未成年性暗示的网站。 Reddit官方禁令声明? 事情还要从一个机器学习的程序说起:Reddit论坛的网友deepfake用一种AI技术将“小电影”女主角的脸替换成明星盖尔·加朵(神奇女侠的主演)。 在Reddit上,deepfakes组建了一个同名社区,短短一个月,这个板块已经聚集了近两万名订阅者。 而被“抓来”被迫色情的女星也越来越多,从艾玛·沃森到Sophie Turner…… 遏止“非自愿换脸色情片” 不仅仅在reddit,这一“换脸色情片”迅速蔓延到了各大社交网站、论坛,并受到了很多关注。 昨天,Reddit Inc.也终于发出“抵制AI技术合成的爱情动作片”声明。这标志着抵制“假视频”的做法获得了各大平台的认可。 这些公司发布禁令的最主要原因是“非自愿情色”。
美国最大的社交新闻论坛Reddit,最近有一个热帖。 一个程序员说自己喝醉了,软件工程师已经当了10年,心里有好多话想说,我可能会后悔今天说了这些话。
[ 摘要 ]瓦尼安分享了其创办Reddit、离开并再次回到Reddit后的经历和体会,同时基于其经历向创业公司的领导者分享了管理创业团队的12个“不要”。 如今,他和好伙伴、Reddit的联合创始兼CEO史蒂夫·霍夫曼(Steve Huffman)又一次全职加入公司,带领Reddit走向新的未来。 ? 梅茨告诉《连线》编辑,她跟Reddit联合创始人见过面,并且Reddit好像越来越受到用户的关注。 而在Reddit,这些事情都不重要。它对我们而言,也算不上是好的策略。 Reddit有超过3亿用户。其中,有些酷爱Reddit的用户甚至把Reddit的logo都纹在了自己身上。 正是基于此,Reddit就决定推出新的用户个人主页。 长时间以来,Reddit在内容运营方面,都基本依靠内容质量和社群相关性来保证内容的热度。
2021年1月,散户投资者在Reddit上协调,针对对冲基金对GameStop股票的卖空活动,导致股价飙升,并导致相关基金遭受重大损失。如此有效的集体行动在金融业是前所未有的,其动力仍不明朗。 在这里,我们分析了Reddit和金融数据,并根据最近的发现对事件进行合理化,这些发现描述了一小部分忠诚的个人可能会引发行为连锁反应。首先,我们在财务讨论中落实个人承诺的概念。 其次,我们发现Reddit内承诺的增加早于价格的最初飙升。第三,我们发现最初的忠实用户占据了Reddit对话网络的中心位置。最后,我们展示了更广泛的Reddit社区的社会身份随着集体行动的展开而增长。 原文题目:From Reddit to Wall Street: The role of committed minorities in financial collective action 原文: 从Reddit到华尔街.pdf
Krishnan Chandra 本文导航 ◈ 计数方法 08% ◈ 总结 88% 编译自 | https://redditblog.com/2017/05/24/view-counting-at-reddit / 作者 | Krishnan Chandra 译者 | geekpi 我们希望更好地将 Reddit 的规模传达给我们的用户。 然而,Reddit 有许多访问者在没有投票或评论的情况下阅读内容。我们希望建立一个能够捕捉到帖子阅读数量的系统。然后将该数量展示给内容创建者和版主,以便他们更好地了解特定帖子上的活动。 Reddit 的数据管道主要围绕Apache Kafka [6] 。当用户查看帖子时,事件被激发并发送到事件收集器服务器,该服务器批量处理事件并将其保存到 Kafka 中。
新智元报道 来源:Reddit 编辑:肖琴,鹏飞 【新智元导读】今天,Reddit机器学习版块的一个热帖引起了许多人的感同身受:“如何阅读大量的学术论文,而不发疯?” 今天,Reddit机器学习版块的一个热帖引起了许多人的感同身受:“如何阅读大量的学术论文,而不发疯?”
欢迎指正错误~ 我们想要更好的向用户展示 Reddit 的规模。为了这一点,投票和评论数是一个帖子最重要的指标。然而,在 Reddit 上有相当多的用户只浏览内容,既不投票也不评论。 4、Reddit 是全球访问量第八的网站,系统要能在生产环境的规模上正常运行,仅允许几秒的延迟。 要全部满足以上四个需求的困难远远比听上去大的多。 Reddit 的数据管道依赖于 Kafka。当一个用户访问了一篇博客,会触发一个事件,事件会被发送到事件收集服务器,并被持久化在 Kafka 中。 之后,计数系统会依次顺序运行两个组件。 在未来,我们计划利用我们数据管道在实时方面的潜力来为 Reddit 的用户提供更多的有用的反馈。 Java我最强,是专注Java技术的垂直社群,加入精品技术群请公众号后台留言“加群”。
我们收集了 Reddit 上网友 2019 最喜欢的论文,供大家一起分享、学习与探讨。 我们收集了 Reddit 上,网友分享的「2019 最喜欢的论文」,与大家分享,希望大家能从这些论文中,对 2020 年人工智能的发展方向、前沿技术,略窥一二。 ? Reddit 传送门:http://dwz.win/wke 1 理论研究 《借助欠平滑 HAL,有效估计路径可微分目标参数》 ? 以上就是 Reddit 上用户分享的 2019 年机器学习精选论文,大家可以复制链接在浏览器打开查看。 —— 完 ——
云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。 腾讯云服务器(CVM)为您提供安全可靠的弹性云计算服务。只需几分钟,您就可以在云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。
扫码关注云+社区
领取腾讯云代金券