首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何用 GPT2 和 BERT 建立一个可信的 reddit 自动回复机器人?

对我来说,我很惊讶竟然找不到一个关于如此大的项目的中心页面,但我用了几个 reddit 和 medium 帖子来拼凑我需要的查询格式。...此查询用于从 bigquery 中提取特定年份和月份({ym})的注释。...我让另一个 Colab notebook 生成了成千上万的虚假评论,然后创建了一个数据集,将我的虚假评论与成千上万的真实评论混在一起。...幸运的是,我可以使用 praw 库和下面的代码片段,从几个我认为会产生一些有趣响应的 reddit 中的前 5 个「上升」帖子中获取所有评论。...= reddit.subreddit(subreddit_name) for h in subreddit.rising(limit=5): 我可以在生成器和鉴别器中运行每条评论以生成一个回复。

3.3K30

如何使用 Python 抓取 Reddit网站的数据?

使用 Python 抓取 Reddit 在本文中,我们将了解如何使用Python来抓取Reddit,这里我们将使用Python的PRAW(Python Reddit API Wrapper)模块来抓取数据...有 2 种类型的 praw 实例:   只读实例:使用只读实例,我们只能抓取 Reddit 上公开的信息。例如,从特定的 Reddit 子版块中检索排名前 5 的帖子。...="", # 您的客户秘密 user_agent="") # 您的用户代理 subreddit = reddit_read_only.subreddit("redditdev")..., subreddit.title) # 显示 Subreddit 的描述 print("Description:", subreddit.description) 输出: 名称、标题和描述 现在让我们从...我们还将在 for 循环中添加一个 if 语句来检查任何评论是否具有 more comments 的对象类型。如果是这样,则意味着我们的帖子有更多可用评论。因此,我们也将这些评论添加到我们的列表中。

2.1K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    为不让OpenAI和谷歌白拿数据,Reddit 收取巨额API 费用还诽谤开发者,社区爆发大规模抗议

    显然,Reddit 这一决定不只是让 Christian 感到不满,更是引发了整个社区的愤怒。“Reddit 决定挖自己的坟墓。”“他们知道这是不合理的。...Christian 帖子下面充斥着对 Reddit 的不满,并且不止一位网友表示会选择放弃 Reddit。 “我成为 Reddit 用户已有 17 年了。这会让我离开。”“那么再见 Reddit。...“如果他们不妥协或找不到其他解决方案,那么我肯定不会再成为活跃的 Reddit 用户,因为我几乎只使用 Apollo。” Reddit 浇油:诽谤开发者?...我甚至愿意花一半或六个月的时间做这件事:1000 万美元,太划算了!” Christian:“我说‘如果你想让 Apollo 停下来’。我想说,它在 API 使用方面非常引人注目。”...他表示,Christian 的“行为和与我们的沟通无处不在——对我们说一套,对外却完全是另一套话;录音并泄露私人电话——以至于我不知道我们该如何与他做生意。”

    24130

    使用Python Dash,主题分析和Reddit Praw API自动生成常见问题解答

    很多时候对与他们一直在搜索的内容无关的评论数量感到沮丧。以Reddit为例,主页上有很多帖子。所有的信息杂乱都很难跟踪。...这有助于在合适的时间保持联系。 为什么自动生成FAQ? 虽然总是有搜索引擎可以在这些论坛上找到需要的信息,但功能却受限制,特别是对于那些不活跃或落后于讨论流程的用户。...Reddit Code获得某个subreddit频道 接下来使用以下元数据将hot_python导出到topics.csv 从Reddit Praw中提取帖子后检索的元数据 主题提取 本节说明如何在...因此用户可以快速浏览一下此仪表板,而不是点击所有可用帖子,以便了解讨论情况。 只需点击几下即可过滤相关帖子。 Dash Python Visualization 调查:应用程序有用吗?...在构建以下原型之后,构建了一个调查,以确认应用程序的有用性。这些是发现的结果,表明93%对非常有用是有用的。用户还发现该应用程序非常直观,可以节省手动搜索未分类帖子的时间。

    2.3K20

    Reddit 每日千亿请求背后的故事

    从你时间线的内容到整个站点的无数讨论中反映的文化,社区犹如 Reddit 流动的血液,让它变成今天这个模样。Reddit 多年来的增长给一直以来为我们服务的数据处理和服务系统带来了极大压力。...在这些数据集上,训练的模型会同时嵌入用户、subreddit、帖子和用户上下文,从而使它们能针对特定情况预测用户操作。...例如,对于每位 Reddit 用户,模型都可以分配一个用户对任意新帖子投票的概率,同时还可以分配一个用户订阅某个 subreddit 的概率,以及他们是否会对帖子发表评论的概率。...用户以多种方式与多种类型的内容互动,而互动水平(engagement)则告诉我们他们重视哪些内容和社区。这种类型的训练还能隐式地捕获了负面反馈——用户选择不参与的内容、投出的反对票或他们退订的社区。...在 Reddit,我们将顺序蒙特卡洛算法放在最上面,以在给定子任务集合的情况下搜索模型拓扑。这让我们可以轻装上阵,并系统地探索搜索空间,以证明深度和多任务结构的相对价值。

    40010

    Python 数据科学入门教程:TensorFlow 聊天机器人

    最后,你还可以通过 Google BigQuery 查看所有 Reddit 评论。 BigQuery 表似乎随着时间的推移而更新,而 torrent 不是,所以这也是一个不错的选择。...我们也可以处理特定的subreddit,来创建一个说话风格像特定 subreddit 的 AI。现在,我会处理所有 subreddit。...这个函数用来构建插入语句,并以分组的形式提交它们,而不是一个接一个地提交。...5-10,10-15,20-25 和 40-50,我们最终将训练数据放入适合输入和输出的最小桶中,但这不是很理想。 然后,我们有了 NMT 代码,处理可变输入,没有分桶或填充!...然而,如果一个聊天机器人从来没有或者从来不应该是一个“正确”的答案,那么只要 BLEU 和 PPL 上升,我就会警告不要继续训练,因为这样可能会产生更多的机器人似的反应,而不是高度多样的。

    1.2K10

    Reddit技术分享被群嘲为「无耻的自我宣传」

    不幸的是,这篇文章被贴上了「无耻的自我宣传」的标签,而对技术问题的回答也被其他评论所掩盖。 他恳请那些真正尝试过这个库的人再对这个帖子进行评论。...整个项目只是「我的朋友/我的母亲认为我做了什么与我实际做了什么」的备忘录。 对于管理层和投资者来说,这是一个漂亮的视觉效果。对于实际工作的人来说,这几乎是毫无意义的。...大多数开发者使用命令行和文本的原因是你要处理如此多的数据,而视觉效果只是一个障碍而非帮助; 也有网友持不同意见:如果你考虑到有多高比例的潜水和这个subreddit上的人实际上并不是以ML为职业,也有很多学生和软件工程师...我看到更多的是人们在速度上下功夫,或者如何在代码上打补丁,尽管这对SLA来说不是必要的。分析性能不需要很大工作量,主要是因为很多从业者来自软件工程背景,他们认为可以努力和取得进展的内容就是运行速度。...据作者所知,目前还没有开源的库来结合市场上的各种DL编译器来找出最适合用户模型的编译器。他们相信,这个库可以做出强有力的贡献,使人工智能开发者越来越容易使他们的模型更有效率,而不需要花费过多的时间。

    53310

    WordPress 初学者词汇表(术语解释)

    使用相同的示例,可以对帖子类型进行样式设置,以便博客具有特色图像然后是文本,员工可能包括图像和社交链接,并且投资组合可能只显示图像集合(注意 – 这些只是演示如何发布的示例类型通常有不同的样式,这并不是说每个博客...谈到 WordPress Meta是指有关您的内容的关键信息。Meta标签用于帮助搜索引擎或社交平台确定您的网站是什么以及您的帖子是关于什么的。这可以包括帖子作者,您的帖子何时发布,有多少评论等。...Genesis父主题包括所有核心主题功能,而子主题包括自定义样式和布局。 Plugin(插件) 插件是一种扩展功能或向其他软件添加特定功能的软件。...基本上,搜索引擎优化确保您的网站出现在搜索结果中,而不是消失在以太网中——这意味着更多的网站访问者。...Database(数据库) 数据库是有组织的数据集合,就 WordPress 而言,它指的是整个网站数据。这是你所有的帖子、评论、主题、插件、设计——一切。

    7.2K20

    REST API 最佳实践

    如果你有一个像 https://mysite.com/post/123 这样的端点,用 DELETE 请求删除一个帖子,或用 PUT 或 PATCH 请求更新一个帖子,可能是可以的,但它没有告诉用户在这个集合中可能还有一些其他的帖子...因此,您应该在URL中使用动词而不是名词,来清楚的区分资源请求和非资源请求。 9.考虑特定资源搜索和跨资源搜索 提供对特定资源的搜索很容易。...此外,搜索引擎也更喜欢使用连字符来分隔单词,使用连字符分隔单词,它们让搜索引擎更准确地理解 URL 中的单词和短语,这样搜索引擎就可以索引单个单词,有助于 SEO,很容易检索到这个 URL,排名靠前。...其原则就是客户端与服务器的交互完全由超媒体动态提供,客户端无需事先了解如何与数据或服务器交互。相反的,在一些 RPC 服务或 Redis、MySQL 等软件,需要事先了解接口定义或特定的交互语法。...注意,点赞文章我选择了 PUT 而不是 POST,因为我觉得点赞这种行为应该是幂等的,多次操作的结果应该相同。 4.FAQ 批量删除接口如何设计?

    1.7K20

    腾讯领投美国天涯论坛Reddit,估值30亿美元

    订阅我的技术与商业案例解读专栏的人应该对Reddit不是很陌生。我在专栏里专门分析了Reddit这个论坛的方方面面。...完全无法和现在中国的任何一个互联网门户比较,颇有上古时代的感觉。在美国这也是奇葩。通过访问Reddit网站去获取信息注定是徒劳无功的,主页也没有一个什么好的搜索功能。...Reddit的内容分享主要基于叫做subreddit的子版块。这些子版块通常包含一个特定主题,有一小圈到一大圈的活跃用户。...无论如何,这样的打分机制在一定程度上还是体现了所谓的网民当家做主。但是其机制的安排有避免了极端。这让Reddit很讨巧。受到各类人的欢迎。...Reddit在如何把流量变现问题上一直没什么好办法。这和天涯猫扑论坛变现困难逐渐衰败有着相似之处。 而Reddit的用户投票机制,也使得腾讯对于舆论管控的领先技术无法在Reddit上施展开来。

    1.3K30

    网络爬虫的实战项目:使用JavaScript和Axios爬取Reddit视频并进行数据分析

    概述网络爬虫是一种程序或脚本,用于自动从网页中提取数据。网络爬虫的应用场景非常广泛,例如搜索引擎、数据挖掘、舆情分析等。...本文将介绍如何使用JavaScript和Axios这两个工具,实现一个网络爬虫的实战项目,即从Reddit这个社交媒体平台上爬取视频,并进行数据分析。...本文的目的是帮助读者了解网络爬虫的基本原理和步骤,以及如何使用代理IP技术,避免被目标网站封禁。正文1....得分、评论数、时长、文件或链接等信息判断视频的来源,如果是直接上传到Reddit的视频,直接下载视频文件;如果是来自其他网站的视频链接,使用第三方工具或API,获取视频文件或链接保存视频文件或链接到本地或数据库对视频数据进行分析...本文的目的是帮助读者了解网络爬虫的基本原理和步骤,以及如何使用代理IP技术,避免被目标网站封禁。本文的代码仅供参考,读者可以根据自己的需要,修改或扩展代码,实现更多的功能。

    54750

    全球主流社交媒体算法解析:Facebook、YouTube、Twitter如何利用算法推荐内容?

    算法的重要性还体现在哈佛商学院的一项研究中,研究发现人们更有可能遵循来自算法的建议,而不是人的建议。这正是本文诞生的原因之一。 本文提供了一种指导方法——当算法控制了你的阅读时,你该如何思考。...LinkedIn的状态更新优先级将给予那些敢于展示更多个性化和个人生活的专业用户。 所有的平台都将优先展示自己平台上的原创内容,而不是第三方链接。...通过围绕特定主题或领域来建立粉丝基础,以此提高相关性和参与度 有些人为了使自己看起来很有影响力而买粉,或者他们用机器人来关注或取关大量账号,以此快速增加自己的粉丝数。...人们使用机器人和代理服务来自动关注或取消关注他人帐户,用机器人来点赞或对他人内容进行评论,这种情况在Instagram上比比皆是。 这并不是真正的粉丝关系和互动参与,而是一种对系统的操纵。...Stories,直播或其他特殊功能的用户 通过DM分享的帖子会被算法排名 评论的权重比仅点赞的权重更高 使用不多于30个话题标签来优化内容,这样更容易被用户发现。

    2.8K20

    Scrapy入门

    Scrapy 是一个基于 Python 的网络爬虫,可以用来从网站提取信息。它快速简单,可以像浏览器一样浏览页面。 但是,请注意,它不适合使用JavaScript来操纵用户界面的网站和应用程序。...它没有任何设施能够执行网站可以使用来定制用户体验JavaScript。 安装 我们使用Virtualenv来安装scrapy。这使我们能够安装scrapy而不影响其他系统安装的模块。...Reddit帖子中提取标题。...提取所有必需的信息 我们还要提取每个帖子的subreddit名称和投票数。为此,我们只更新yield语句返回的结果。...总结 本文提供了如何从使用Scrapy的网站中提取信息的基本视图。要使用scrapy,我们需要编写一个Spider模块,来指示scrapy抓取一个网站并从中提取结构化的信息。

    1.6K10

    深入探寻Engagement奥秘 - 6个核心指标

    在本文中,我首先将分享6个须在整个渠道中衡量的Engagement指标,在下一篇关于Engagement的系列文章中我将会继续分享优化这些的策略,从而最终帮助你优化营销业绩。 1....对话率的计算公式如下: 总评论数/关注者数* 100 =对话率 例如,有30条评论的帖子可能对一些人来说似乎是不太重要的帖子,但是对于只有250个喜欢的Facebook页面来说,这个数字将变得很有意义。...使用上面的公式我们可以计算这篇文章的对话率是12%。 然而,并非所有的粉丝都可能看到您的帖子,而上述计算方式并没有考虑到看到您的内容的“非追随者”。...导入链接:使用网站管理员工具或Ahrefs可以监测哪些网页会链接到你的网站。 评论:像GetApp和Trustpilot这样的网站可以帮助了解用户如何评价你品牌的产品和服务。 5....事实上你的用户同时在不同的平台上活跃,不只是博客,社交平台或网站。问题在于如何让他们进入你的自有媒体和营销渠道? 在他们活跃的平台上培养受众是实现这一目标的最佳方式。

    2.1K90

    语言处理AI被谷歌地图训练:年删帖过亿条,训练样本海量

    这条关于维持谷歌地图可靠性的帖子,还提到了在2021年新冠疫情缓和、商业活动重新开张后,谷歌如何保护商家免遭地图应用程序上相关虚假评论损害所采取的措施。...这些信息中包括随时更新的商户经营时间、联系方式和顾客评论。 在整个2021年,用户提供的信息帮助谷歌地图完善了商户页面服务。2021年在谷歌地图上出现的商家比2020年多了30%。...例如,系统会判别评论的语言模式、用户或企业帐户的历史记录、以及是否存在与特定经营地点相关的任何异常活动(例如一星或五星评论数量的突然剧增)。...因此,谷歌地图团队经常对AI进行质量测试并进行额外的训练,以教授系统特定单词和短语的各种语境背景,以此完善机器学习模型、减少偏见值、保证让AI在删除有害内容和保护有用评论之间取得平衡。...现在,当某个区域出现新建筑物或商铺时,谷歌的机器学习算法会识别变化并更新现有地图,而不是重新绘制整个区域的地图。这为服务的供需双方都节省了大量的时间和精力。

    79620

    WordPress 数据库详解

    WordPress 数据库支持您的网站加载和运行,并存储和保存您博客的内容,例如帖子和评论,以及您(甚至您的访问者)所做的更改。...表的名称让您对每个表负责存储的内容有一个非常可靠的概念。 此外,每个表将包含存储更多指定数据位的各种字段和列。例如,wp_comments 表包含与您的帖子和页面上的用户评论相关的所有数据。...wp_posts WordPress 数据的核心是帖子。此表存储您发布的任何帖子或页面的内容,包括自动保存修订和帖子选项设置。此外,页面和导航菜单项存储在此表中。...如何优化我的 WordPress 数据库? 随着时间的推移和使用,WordPress 数据库可能会损坏或需要良好的整体管理。这就是数据库优化介入的地方。...这将导出一系列 SQL 命令,而不是其他数据格式,例如 CSV,这不适用于此备份过程。当您看到特定于格式的部分时,请继续保持原样。

    5.4K40

    纽约蹭饭手册:怎样利用Python和自动化脚本在纽约吃霸王餐?

    这是个技术活,达成这个目标有两种方法:要么让代码做这件事,要么有大量的空闲时间。 本文会简要介绍一下使用的技术和编程语言,但不会给出代码或相关内容。...响应变量为0或1(即差或好),具有许多特征。每篇帖子的元数据可以提供我以下信息: ? 从这七个解释变量里,我改变了一些我认为有用的特征。例如,我改变了评论的数量和点赞率。...尽管这种简单粗暴的方法并不是那么完美,但至少比不这么“默认”强上好几倍,不失为一种值得尝试的方法。 我总是能精准地标注出图片的正确来源。实际上,人们还多次在我的图片下评论道“感谢分享!”...我浏览了20多个相关帐户,关注了他们的粉丝,赞他们的照片或评论他们的帖子。...关注用户数大于粉丝数的用户(关注与粉丝的比例大于1.0)更愿意与我互粉。 从上面的洞察,我优化了最初对搜索用户的方式。我调整了我的设置,只在早上去关注,主要寻找女性用户。

    1.4K30

    纽约蹭饭手册:怎样利用Python和自动化脚本在纽约吃霸王餐?

    这本来没什么稀奇,关键在于我将整个过程自动化了,我的意思是100%不用手动操作了。...响应变量为0或1(即差或好),具有许多特征。每篇帖子的元数据可以提供我以下信息: ? 从这七个解释变量里,我改变了一些我认为有用的特征。例如,我改变了评论的数量和点赞率。...尽管这种简单粗暴的方法并不是那么完美,但至少比不这么“默认”强上好几倍,不失为一种值得尝试的方法。 我总是能精准地标注出图片的正确来源。实际上,人们还多次在我的图片下评论道“感谢分享!”...我浏览了20多个相关帐户,关注了他们的粉丝,赞他们的照片或评论他们的帖子。...关注用户数大于粉丝数的用户(关注与粉丝的比例大于1.0)更愿意与我互粉。 从上面的洞察,我优化了最初对搜索用户的方式。我调整了我的设置,只在早上去关注,主要寻找女性用户。

    1.3K60

    GitHub 上只卖5美元的脚本,却给我带来了一年数十万元报酬

    整理|燕珊 “一年多之前我把工作‘自动化’了,没有告诉任何人。” 日前 Reddit 一个关于“利用自动化程序完成工作”的帖子迅速走红,收获八万多个赞,以及超 5000 条评论。...我仍然每天都会收到电子表格,用它来验证我的日志。” 虽然有人觉得作者这是懒惰、甚至在浪费生命,但他不觉得自己是这样的人,他说自己另外有做一个出于热情的项目,而不是说白天就只躺着玩游戏。...基本代码非常简单,其中大部分来自谷歌搜索‘批处理文件传输’(.bat transfer files)之类的内容,例如‘如何批处理传输某些类型的文件’等等。...在律所程序员的帖子下面,有 Reddit 用户提到通过程序自动化工作是个趋势,并可能会影响他们的下一个就业决定。...“我觉得所有这些类型的帖子教会我的是我需要 1)学习如何编码和 2) 找到一份悠闲的办公室工作。” 获得最多赞同的第一热评则说,“将你的工资看成是自动化程序的订阅服务,哈哈。

    33910

    什么是社交聆听,它为什么很重要?

    社交聆听是跟踪特定主题,关键字,词组,品牌或行业的帖子消息,并利用分析洞察发现新的商业机会或为这些受众创建特定内容的过程。...而此聆听的内容不只限于@你的评论,如果只关注这些@你的消息,那你就会错过在社交媒体上一大群谈论你的品牌和产品的互动消息。 ? 所以社交聆听和社交监听的区别到底是什么?...Networked Insights CEO Dan Neely这样回答的: “监控只是在观察树木;聆听是瞭望整个森林。” 监控收集每一个@消息和交互消息,而聆听需要分析和思考。...这时你可以让供应商解决问题,而不是不停的为客户道歉和退款。这就是社交聆听。 社交媒体聆听让你可以更高的视角来看待问题。...另一种方式是优化你的社交媒体帖子内容提高搜索量。 主流的社交网络都使用算法来确定帖子的展示机会。 使用关联性强的主题标签和关键字可以增加目标受众搜索到你的机会。

    3.6K20
    领券