首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何使用 Python 抓取 Reddit网站的数据

使用 Python 抓取 Reddit 在本文中,我们将了解如何使用Python来抓取Reddit,这里我们将使用Python的PRAW(Python Reddit API Wrapper)模块来抓取数据...有 2 种类型的 praw 实例:   只读实例:使用只读实例,我们只能抓取 Reddit 上公开的信息。例如,从特定的 Reddit 子版块检索排名前 5 的帖子。...在本教程,我们使用只读实例。 抓取 RedditRedditReddit 子版块中提取数据的方法有多种。Reddit 子版块的帖子按热门、新、热门、争议等排序。...我们需要 praw 模块的 MoreComments 对象。为了提取评论,我们将在提交对象上使用 for 循环。所有评论都会添加到 post_comments 列表。...因此,我们也这些评论添加到我们的列表。最后,我们列表转换为 pandas 数据框。

77720

RedditC2:一款基于Reddit API的C2流量托管工具

关于RedditC2 RedditC2是一款基于Reddit API的C2流量托管工具,该工具能够使用Reddit API来托管C2流量,由于大部分蓝队研究人员都会使用Reddit,因此使用Reddit...接下来,使用下列命令安装工具所需的PRAW库: pip3 install praw 工具下载 广大研究人员可以使用下列命令将该项目源码克隆至本地: git clone https://github.com.../kleiton0x00/RedditC2 (向右滑动,查看更多) 工具配置 Teamserver 1、创建一个Reddit账号,并创建第一个App; 2、clientid和密钥粘贴到config.json...Post,然后使用命令“in:”发布一个新的评论; 2、读取包含了单词“out:”的新评论; 3、如果没有找到这样的评论,则返回第二步; 4、解析并解密评论,并读取输出; 5、现有评论编辑修改为“executed...; 4、加密命令的输出结果,并在相应的评论回复(“out:”); 工具使用截图 下面给出的是异或加密的C2流量演示: 扫描结果 由于该工具本质上属于一个自定义C2植入物,因此我们需要使用反病毒产品来进行检测和测试

27230
您找到你想要的搜索结果了吗?
是的
没有找到

工作时怎么“偷懒”?交给工作流自动化吧

而且,由于ZIP文件还可以容纳许多文件夹和子文件夹,因此通过文件打包成一个文件,可成为备份文件的便捷方式。 可以使用zipfile模块的Python函数自动创建单个ZIP文件(称为存档文件)。...视频发布到Reddit主题 我们最近看到和想到的另一个一劳永逸的想法是自动执行可能经常执行的任务:使用脚本多个视频发布到Reddit上。...在Reddit帖子中发布YouTube视频也可以实现自动化。使用PRAW(一种允许抓取数据的Python包装器)可以为Reddit体验提供更多功能。 开始使用前,请使用pip安装PRAW。...下面的脚本会自动YouTube视频发布到Reddit主题。..." + i) subreddit.submit(post_msg, url=video_url) print("Done") 结论 自动化任务可以带来很多乐趣,特别是看着程序自动登录喜欢的站点,或数百个文件加载到数据

1.7K10

使用Python Dash,主题分析和Reddit Praw API自动生成常见问题解答

这些Reddit帖子显示了一个论坛可能会在几天不活动的情况下带来多大的混乱 在本文中,更多地了解如何从Reddit等论坛中提取信息更容易,更直观。...身份验证从使用Redditpraw库开始。由于有许多可用资源,不会详细讨论如何准备好身份验证。...相关链接如下: http://www.storybench.org/how-to-scrape-reddit-with-python/ Reddit praw代码输入授权配置文件 然后获得将被导出的...Reddit Code获得某个subreddit频道 接下来使用以下元数据hot_python导出到topics.csv 从Reddit Praw中提取帖子后检索的元数据 主题提取 本节说明如何在...Python中进行近似主题建模 将使用一种称为非负指标因子分解(NMF)的技术,该技术用于从单词包(单词列表)查找提取主题。

2.3K20

如何用 GPT2 和 BERT 建立一个可信的 reddit 自动回复机器人?

SEP]reply」的 reddit 文本 步骤 2:微调两个 BERT 分类器: a:区分真实回复和 GPT-2 生成的回复 b:预测评论获得多少次支持 步骤 3:使用 praw 下载当前评论 步骤...4:使用微调的 GPT2 为每个评论生成多个回复 步骤 5:生成的回复传递给两个 BERT 模型,以生成对真实性和投票数的预测 步骤 6:使用一些标准来选择要提交的回复 步骤 7:使用 praw 提交所选评论...下面我更详细地解释如何将此类数据输入 GPT-2 微调脚本。现在,你可以使用此脚本数据转换为 GPT-2 微调所需的格式,并将其保存为 gpt2_finetune.csv。...用PRAW拉实时评论 尽管我可以使用 bigquery 上的数据生成训练集,但大多数数据实际上都是几个月前的。...幸运的是,我可以使用 praw 库和下面的代码片段,从几个我认为会产生一些有趣响应的 reddit 的前 5 个「上升」帖子获取所有评论。

3.2K30

Anubis:一款功能强大的子域名枚举与信息收集工具

关于Anubis  Anubis是一款功能强大的子域名枚举与信息收集工具,该工具可以帮助广大研究人员整理来自各种数据源的数据,其中包括HackerTarget、DNSPumpster、x509 certs...值得一的是,Anubis还有个姊妹项目,名为AnubisDB,该项目主要作为子域名的集中存储库。  工具依赖  如果你需要使用Anubis来执行端口扫描和证书扫描的话,则需要使用到Nmap。...://github.com/jonluca/Anubis.git 接下来,切换到项目目录,并使用pip3命令和requirements.txt来安装该工具所需的依赖组件: cd Anubispip3...t --target                      设置目标(多个目标用逗号分隔)  -f --file                        设置目标(从文件读取,每个域名单独一)...anubis -t reddit.com 上述命令直接运行子域名枚举,结果如下: Searching for subdomains for 151.101.65.140 (reddit.com)Testing

45320

【Rust日报】Shiva - 解析和生成任何类型的文档

但不幸的是,在 Rust 世界没有可以解析所有类型文档的库。 因此,我必须使用 Apache Tika 并从我的 Rust 代码调用它。这种解决方案有什么缺点?...需要在每台启动我的搜索引擎的计算机上安装 Java。 内存要求非常高。 Apache Tika 使用大量内存。因为Java有一个效率不是很高的垃圾收集器,所以它必须分配大量内存给JVM。...例如,您可以定义一有两列,A 和 B,其中 A 占用 5 位,B 占用 3 位。这意味着数据的每一恰好消耗 1 个字节的数据。...我想介绍一下“serde-sqlite-jsonb”,这是一个新的 Rust 库,旨在 SQLite 最近引入的 JSONB 列直接序列化和反序列化到您的数据结构。...它消除了从 JSONB 到 JSON,然后再到您自己的数据结构的双重转换,从而提高了效率和性能。

9410

Python 数据科学入门教程:TensorFlow 聊天机器人

自然,这把我带到了 Reddit。起初,我认为我会使用 Python Reddit API 包装器,但 Reddit 对抓取的限制并不是最友好的。为了收集大量的数据,你必须打破一些规则。...相反,我发现了一个 17 亿个 Reddit 评论的数据转储。那么,应该使用它! Reddit 的结构是树形的,不像论坛,一切都是线性的。父评论是线性的,但父评论的回复是个分支。...这里的想法是我们可以评论数据插入到这个数据。所有评论按时间顺序排列,所有评论最初都是“父节点”,自己并没有父节点。...我们可以使用json.loads()数据取到 python 对象,这只需要json对象格式的字符串。...因此,父级文件的第15是父评论,然后在回复文件的第 15 是父文件第 15 的回复。 要创建这些文件,我们只需要从数据获取偶对,然后将它们附加到相应的训练文件

1.1K10

代码调试神器:VS Code 开源新工具!

让 VS Code 画个图,自动帮你理清数据结构与代码思路,这就是 Reddit 2K 多点赞的开源新工具。...我们先看看效果,如下动图断点设置为第 32 定义双向链表,随后一行运行代码就会在右图展现出对应的数据结构图。...可视化调试器使用的是特定的 JSON 数据,相关支持的 JSON 数据模式可参考原 GitHub 项目。...在其种类非常丰富的同时,操作性也较为简便,效果非常直观,小编选取了几种类型作为案例: Plotly 可视化 AST 可视化 在使用 AST 可视化还会呈现源代码,在选择其节点时,还会突出显示源代码的跨度...我们需要以 JSON 格式来表示数据,并完成自定义可视化,注意该 JSON 需要满足 Debug Visualizer 的格式定义。

1.1K20

requests-html快速入门

安装 安装requests-html非常简单,一命令即可做到。...看了下源代码,因为requests-html广泛使用了一个Python 3.6的新特性——类型注解。...这里其实和requests库的使用方法差不多,获取到的响应对象其实其实也没啥用,这里的关键就在于r.html这个属性,它会返回requests_html.HTML这个类型,它是整个requests_html...首先先来看看CSS选择器语法,它需要使用HTML的find函数,该函数有5个参数,作用如下: - selector,要用的CSS选择器; - clean,布尔值,如果为真会忽略HTMLstyle...JavaScript支持 有些网站是使用JavaScript渲染的,这样的网站爬取到的结果只有一堆JS代码,这样的网站requests-html也可以处理,关键一步就是在HTML结果上调用一下render

1.3K71

你想要的——redux源码分析

大家好,今天给大家带来的是redux(v3.6.0)的源码分析~首先是redux的github接下来我们看看redux在项目中的简单使用,一般我们都从最简单的开始入手哈备注:例子结合的是react进行使用...payload;type代表了action的类型,指明了这个action对state修改的意图,而payload则是传入一些额外的数据供reducer使用export const REQUEST_POSTS...requestPosts = reddit => ({ type: REQUEST_POSTS, reddit})export const receivePosts = (reddit, json...(`https://www.reddit.com/r/${reddit}.json`) .then(response => response.json()) .then(json => dispatch...push到nextListeners nextListeners.push(listener) // 返回一个取消监听的函数 // 原理很简单就是从当前函数从数组删除,使用的是数组的

12710

网络爬虫的实战项目:使用JavaScript和Axios爬取Reddit视频并进行数据分析

本文介绍如何使用JavaScript和Axios这两个工具,实现一个网络爬虫的实战项目,即从Reddit这个社交媒体平台上爬取视频,并进行数据分析。...Axios的安装和使用非常简单,只需要在Node.js执行以下命令:// 安装Axiosnpm install axios// 引入Axiosconst axios = require('axios'...爬取Reddit视频的步骤爬取Reddit视频的步骤如下:定义目标URL,即要爬取的视频的主题和排序方式使用Axios发送GET请求,获取目标URL的JSON数据解析JSON数据,提取视频的标题、作者、...得分、评论数、时长、文件或链接等信息判断视频的来源,如果是直接上传到Reddit的视频,直接下载视频文件;如果是来自其他网站的视频链接,使用第三方工具或API,获取视频文件或链接保存视频文件或链接到本地或数据库对视频数据进行分析...Axios发送GET请求,获取目标URL的JSON数据axios.get(targetURL, axiosConfig) .then(response => { // 如果请求成功,解析JSON

39750

GORM 读取别名字段(非表结构字段)值的方法

问题是查询结果包含了表不存在的一个别名字段,如何这个非表结构字段的查询结果通过 GORM 读取到表对应的模型结构体?...方案一 意思是说,如果没有使用 GORM 的自动迁移,可以把结构体 MoreInfo 字段的 gorm 标签改成 ->,告诉 GORM 这是一个只读字段,就能够把查询结果的字段值读取到模型结构体。...然后原结构体只保留表结构存在的字段,原结构体嵌入到扩展结构体,再将表结构不存在的别名字段添加到扩展信息结构体,gorm 标签还是设置成只读权限。...这样在使用 GORM 时, Model 设置成原结构体 &Test{},查询结果接收器设置为扩展信息结构体 &TestExt{},就可以完美解决啦,即不影响原结构体的自动迁移,也可以正常读取到别名字段的值...因为我确实不需要使用 GORM 的自动迁移,所以我当时选择了方案一,毕竟一代码能解决的事情,就不要用 10 代码去解决,多写多错,少写少错,是吧。

3.6K10

C#网络爬虫实例:使用RestSharp获取Reddit首页的JSON数据并解析

Reddit 是一个非常受欢迎的分享社交新闻聚合网站,用户可以在上面发布和内容。我们的目标是抓取 Reddit 首页的数据 JSON,以便进一步分析和使用。...在本文中,我们将使用C#编写一个网络爬虫,使用RestSharp库来发送HTTP请求,并获取Reddit首页的JSON数据。在Reddit的API文档,我们可以找到获取首页JSON数据的接口。...我们将使用RestSharp库来发送GET请求,并获取返回的JSON数据。首先,我们需要找到数据源。在代码,我们需要设置代理信息,以确保我们的请求不会被Reddit的反爬拦截。...目标网站抓取过程:首先,我们需要找到Reddit首页的数据源。在Reddit的API文档,我们可以找到获取首页JSON数据的接口。...Reddit的API返回的数据JSON格式的,我们可以使用C#的Newtonsoft.Json库来解析这些数据。通过解析JSON数据,我们可以提取所需的信息,并进行进一步的处理和分析。

30130

实时可视化 Debug:VS Code 开源新工具,一键解析代码结构

我们先看看效果,如下动图断点设置为第 32 定义双向链表,随后一行运行代码就会在右图展现出对应的数据结构图。 ?...可视化调试器使用的是特定的 JSON 数据,相关支持的 JSON 数据模式可参考原 GitHub 项目。...而其它没有数据抽取器的语言,就需要自定义数据结构与可视化器之间的关系了 多种可视化器皆可定制 该扩展还内置了其他可自定义的可视化调节器,尤其在 debug 时使用起来非常直观,可以根据面对不同的处理对象...AST 可视化 在使用 AST 可视化还会呈现源代码,在选择其节点时,还会突出显示源代码的跨度。 Python 怎么解?...我们需要以 JSON 格式来表示数据,并完成自定义可视化,注意该 JSON 需要满足 Debug Visualizer 的格式定义。 ?

73510
领券