首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一天可抓取 1300 万条数据的新浪微博爬虫

爬虫抓取微博的速度可以达到 1300万/天 以上,具体要视网络情况,我使用的是校园网(广工大学城校区),普通的家庭网络可能才一半的速度,甚至都不到。...start_requests 中根据用户ID启动四个Request,同时对个人信息、微博、关注和粉丝进行爬取。 将新爬下来的关注和粉丝ID加入到待爬队列(先去重)。...运行截图: 数据库说明: SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。...URL:微博的个人首页。 Tweets 表: _id:采用 “用户ID-微博ID” 的形式作为一条微博的唯一标识。...Like:微博被点赞的数量。 PubTime:微博发表时间。 Tools:发微博的工具(手机类型或者平台) Transfer:微博被转发的数量。

1.8K80

一节课让你学会从 MySQL 到 Kibana 微博用户及推文数据可视化

微博数据可视化 熟悉 Elastic Stack 的小伙伴对上面的图会感觉并不新鲜,对其中的技术栈也如数家珍,如下图一把梭走起: 数据同步 MySQL 数据借助 Logstash 同步到 Elasticsearch...kafka数据同步 logstash_input_log4j 日志数据同步 2、从数据流全局视角看待数据 当我们要进行数据分析、数据可视化的时候,首先要梳理清楚的是:数据从哪里来?...了解了这个本质之后,我们最终要考虑对数据可视化,往前推最重要的是需要考虑数据的模型和建模。 而数据源是微博数据(假数据),微博数据又细分为微博用户数据及微博推文数据,我们是一整条宽表存储到一起的。...可以预估实现的维度包含但不限于: 字段名称 字段含义 可视化类型 publish_time 推文时间 时间走势图 un 用户名 用途推文量排序统计图 ugen 用户性别 性别统计 location 发布省份...省份统计图 uv 是否认证 认证用户统计 cont 推文内容 推文内容词云 sent 情感 情感分类统计 自己完善 经纬度 地图打点图 这个环节为以 MySQL 已有数据为蓝本,然后构造出上面的表格

1K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    使用新版本微博话题爬虫抓取到的 50w 武汉疫情数据情感随时间的变化

    为保证良好的阅读体验,文中所有广告位已移除~ 前面几次分享讲到了对新版微博话题爬虫的优化。...修复话题爬虫时间格式错乱等问题 新版微博话题爬虫总是爬一些无关数据的原因 本次以武汉疫情为话题,抓取武汉疫情从爆发封城到解封五个月时间线上的相关微博,去重后共计约 50w 条微博数据,10 个字段,...接着对着几十万条微博随机抽样了 1w 条数据,用情感分析,得到微博正文的情感倾向(或者说极性),正向 pos,负向 neg和中立 neg,情感倾向统计值随日期的演化趋势可视化结果如下。...微博话题爬虫本次更新了一些 bug,可去 2021 新版微博话题爬虫发布 (点击蓝字直达地址)获取 2021 新版本微博话题爬虫文件,下面说一下配置 json 文件的注意事项。...一个话题可能会多次抓取,保存的文件是追加写的,难免会有表头或者数据上的重复,对于表头上的重复,可以在 Pycharm 中打开 csv,搜索列名 user_link 或其他定位到重复的行,删除掉该行即可。

    1K30

    利用API接口获取社交媒体上特定用户或话题相关信息

    社交媒体已成为人们获取信息、交流、分享的重要平台。利用API接口可以方便地获取社交媒体上特定用户或话题相关的信息,帮助我们了解用户需求、抓取时下热点等。...一、了解API接口  1.选择目标社交媒体平台:  不同的社交媒体平台提供不同的API接口。在开始之前,我们需要选择要获取信息的目标平台,如微博、短视频平台等,并查找相应的API文档或接口说明。  ...三、案例:获取某微博用户的最新推文```python  import requests  #设置API请求的URL和参数  url="https://api.weibo.com/1.1/statuses.../user_timeline.json"  params={  "screen_name":"example_user",  "count":10  }  #发送API请求并获取数据(需要替换为您的API...)  response=requests.get(url,params=params,auth=("API_KEY","API_SECRET"))  data=response.json()  #提取推文内容

    50110

    Python情感分析:鹿晗的粉丝们究竟原谅他了吗?

    到目前,这条微博已经有了280多万条评论。有点赞祝福的,有质疑的,当然也少不了悲痛欲绝,甚至表示取关粉转路人的。那么究竟粉丝们对此事的态度如何,真的“原谅”鹿晗了吗?...这是我们通过一些数据分析得出的结论,到底是不是可信,可以一起来看下我们的分析过程。 1. 抓取微博评论 抓取微博使用了爬虫框架 scrapy,并结合 mongodb 作为数据存储。...通常来说,手机版网页会比 PC 版网页更容易抓取数据,所以我们通过 m.weibo.cn 找到了此条微博的评论数据接口: https://m.weibo.cn/api/comments/show?...得到数据之后,通过正则或 bs4 对信息进行提取(我们的代码里用了正则),将评论内容文本存入数据库。 2....我们找到了“腾讯文智” — 腾讯出品的中文语义平台,支持 NLP、转码、抽取、全网数据抓取等中文语义分析需求。这个平台是收费的,不过有一些免费配额,足够我们做一些小的实验分析。

    99370

    JavaCV推流实战(MP4文件)

    = System.currentTimeMillis(); log.info("开始初始化帧抓取器"); // 初始化帧抓取器,例如数据结构(时间戳、编码器上下文、...startTime = System.currentTimeMillis(); log.info("开始初始化帧抓取器"); // 初始化帧录制器,例如数据结构(音频流...,请改为自己电脑上MP4文件存放的位置 SRS_PUSH_ADDRESS是SRS服务的推流地址,请改为自己的SRS服务部署的地址 grabber.start(true)方法执行的时候,内部是帧抓取器的初始化流程...,会取得MP4文件的相关信息 recorder.record(frame)方法执行的时候,会将帧推送到SRS服务器 编码完成后运行此类,控制台日志如下所示,可见成功的取到了MP4文件的帧率、时长、解码器...、媒体流等信息,然后开始推流了: 23:21:48.107 [main] INFO com.bolingcavalry.grabpush.PushMp4 - 开始初始化帧抓取器 23:21:48.267

    1.4K20

    增量微博备份工具:指定时段,单博主可备份十万条微博文本、高清图片和 HD 视频

    比如有个博主有 10w 条博文,如果手动备份,估计备份到后年去,调研发现现有微博备份工具在备份数据量、备份速度和数据丰富度上很难同时让人满意,于是就就开发了这个工具,它具有以下功能。...1、可以备份自己或者他人的微博数据。可以是任意公开微博和粉丝可见的微博(需要先关注目标博主)。...微博保存的 csv 文件字段多达十余个:用户主页、用户认证类型、微博链接、微博正文文本、图片链接、视频链接、转评赞数。 2、增量更新,本月备份后,下月底备份只会备份下月更新的微博。...4、指定年份,默认选择的是最近两年,可多选,每次指定年份开始抓取后是累计已经抓取过的年份的所有微博。 5、如果不是原创微博,会自动带上转发理由和转发原文。...分别是博文 csv 文件夹(包括分月的微博 CSV 和总的微博 CSV)、图片和视频文件夹,zip 文件名就是 {uid}.zip。

    80910

    干货 | 携程酒店统一云手机平台探索与实践

    我们通过抓帧操作,数据通过ffmpeg进行处理后依次进行h.264转码,并将编码信息推给到web端直播服务,当前30s的视频约 30M,h.264转码后只有 3MB,画面流目前设置为1秒20帧。...(1)Client请求画面流端口并逐帧抓取图片 通过ffmpeg请求画面流端口,通过解码器抓取每一张jpeg图片。...通过引入框架团队提供的JAR包,便可方便将数据推流至服务器上。 ffmpeg编码器标准输出的每一帧,都会用设备在平台上的主键作为唯一标识标记发送给流服务器。...24的基础上适当加入了关键帧,将Client推流帧率定在30帧/s,码率上限设定为4.5mbps,实测占用带宽350KB/s左右,画面显示流畅、清晰、无花屏。...而我们使用的WIFI下载速度最高值在7.5MB/s左右,因此推流码率和带宽不是瓶颈。瓶颈主要在于ffmpeg将图片流转换为视频流的效率。

    25110

    视频直播技术干货:一文读懂主流视频直播系统的推拉流架构、传输协议等

    将M3U8文件地址喂给video就可以直接播放,PC端用MSE解码后大部分浏览器也都能够支持。但是由于其分片加载的特性,直播的延迟相对较长。...首先开头是头部信息:464C56转换ASCII码后是FLV三个字符,01指的是版本号,05转换为2进制后第6位和第8位分别代表是否存在音频和视频,09代表头部长度占了几个字节。...I帧就是我们通常说的关键帧,关键帧内包括了完整的帧内信息,可以直接作为其他帧的参考帧。B帧和P帧为了将数据压缩得更小,需要由其他帧推断出帧内的信息。...同层播放问题:是指在移动端H5页面中,一些浏览器内核为了提升用户体验,将video标签被劫持替换为native播放器,导致其他元素无法覆盖于播放器之上。...iOS系统中大部分浏览器的同层问题,剩下的低系统版本的浏览器以及一些APP内的webview容器(譬如微博),用上面提的属性并不管用,调用三方库iphone-inline-video可以解决大部分剩余问题

    5.2K43

    当人们在讨论 ChatGPT 时,都在讨论什么

    笔者分别使用微博和推特爬虫爬取了国内外网民对 ChatGPT 的讨论,并使用 Bert 预训练模型进行主题建模和可视化,从多个角度对比了各类人群对 ChatGPT 的不同看法。...首先来看国内微博网友的观点。...笔者抓取了微博上 2022.12.01 至 2023.02.06 关于 ChatGPT 的讨论共计 2.6 w 条,对所有数据预处理后使用 BertTopic 建模,时间序列可视化如下。...主题分布 时间序列主题演化 然后抓取了同时期的推特推文,做同样的处理,结果如下, 主题分布 时间序列主题演化 对比主题分布可知,微博和推特网友对 ChatGPT 讨论的话题有显著差异: 微博网友主要表达了对职业取代的担忧和对...然后按照性别划分,分析微博上不同性别人群对 ChatGPT 的看法。

    52830

    分享几个免费 AI 生成工具 (第一期)

    https://reemix.co/ 是一款独特的 Discord 机器人,可将文本提示转换为引人入胜的三秒视频。...释放创造力:让您的想象力尽情发挥,探索视觉叙事的无限可能。 易于使用:使用此机器人可以毫不费力地将文本提示转换为视频。 引人入胜的内容:创建引人入胜的视频,让您的观众参与其中。...主要特点和优势包括: 用户友好的界面:提供文字转视频、文字转图像、文字转语音、换脸视频、会说话的照片和创意编辑器 AI 头像:超过 100 个不同种族、年龄和姿势的 AI 头像来增强视频 生成式 AI...:创建无穷无尽的社交媒体内容,包括想法、帖子、推文、线程、标题、挂钩、脚本和大纲 图片 二维彩虹 https://www.erweicaihong.cn/ 二维彩虹生成器,可以将文件、网址、视频、图片等生成...还可以生成一个包含多个社交媒体渠道的链接,比如官网、小程序、微信、微博、抖音、小红书、B站、知乎、淘宝、京东等渠道信息。可以了解各种最新营销知识。 图片

    3.6K30

    相信坚持的力量!Elastic 日报 1000期+ 了......

    积累的境内外优秀博客资源库文章筛选,如:Elasticsearch 官方博客 平时工作实战中发现的优秀博文或者精彩问答 国内外资源库的检索 包含但不限于:google,stackoverflow,discuss.elastic.co...,github,twitter, facebook, 微信搜索,微博搜索,知乎,简书等 平时关注的 Elasticsearch 相关公众号的推文 朋友圈、看一看等发现的好友推荐的文章 等等等等 总之,各位编辑不会放过全球任何一篇...主要做了:短地址转长地址,长地址提取主域名,主域名统计分析。 ? ? 看的出来,这就是Elastic Stack 最牛逼博文来源的排行榜!...这也给我们后续筛选优质技术博文提供了依据。 6、实践避坑 6.1 词云呈现 text 类型本身不支持聚合,建模阶段需要开启:fielddata:true。以实现 text 字符串的切分。...然后将长地址的主域名解析提取出来。

    32520

    设计 Twitter:合并 k 个有序链表和面向对象设计

    一、题目及应用场景简介 Twitter 和微博功能差不多,我们主要要实现这样几个 API: ? 举个具体的例子,方便大家理解 API 的具体用法: ? 这个场景在我们的现实生活中非常常见。...个用户,我们就可以用合并 k 个有序链表的算法合并出有序的推文列表,正确地 getNewsFeed 了!...2、User 类的实现 我们根据实际场景想一想,一个用户需要存储的信息有 userId,关注列表,以及该用户发过的推文列表。...其中关注列表应该用集合(Hash Set)这种数据结构来存,因为不能重复,而且需要快速查找;推文列表应该由链表这种数据结构储存,以便于进行有序合并的操作。画个图理解一下: ?...PS:本文前两张图片和 GIF 是我第一次尝试用平板的绘图软件制作的,花了很多时间,尤其是 GIF 图,需要一帧一帧制作。如果本文内容对你有帮助,点个赞分个享,鼓励一下我呗!

    94620

    最新NLP研究 | Twitter上的情绪如何预测股价走势(附代码)

    普及一个知识: 1、Twitter(推特):是国外的一个社交网络及微博客服务的网站。...3、微博(MicroBlog):是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。...国内的雪球早已将$标记融入自己的微博服务中,且这些投资社区对$标记利用得更好。点击$标记后可显示出对应公司/股票的实时股价等交易信息及其他投资者对于这支股票的讨论。...为tweet数据创建每日平均值 在将每条推文与其情绪相结合后,将其乘以该帐户的关注者数量。这样,在最终的模型中,更多“有影响力”账户的推文情绪将得到了更多的权重。...tweet数据是通过使用其Developer API“抓取”Twitter而收集的。

    7.4K41

    分析了2020年3万多条的微博热搜,我看到了什么

    微博热搜以娱乐为主,头条的热搜更偏向民生与时事。今天,我们先分析分析微博一整年的热搜。...数据抓取 由于微博平台不能查看历史热搜,本文所有的数据都是从云合数据旗下的一个热搜榜抓取的,具体地址见文末。 抓取数据的代码是用Python写的,代码非常简单,就是模拟请求和数据统计两个部分。...抓取到了从2020年1月1日到2020年12月31日一共35901条数据,将抓取的数据存入Excel,数据格式如下图: 数据分析‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ 用pyecharts做可视化分析,先将所有的热搜数据按照热度做成一个词云...美国总统特朗普从看不起新冠,到最后夫妻双双确诊,打脸来的不要太快。“特朗普夫妇确诊新冠”的新闻也曾引爆微博甚至全球。 在前十榜单里面,“李文亮医生去世”和“李文亮仍在抢救”这两条热搜引人注目。...我分析了几年的微博热搜数据,确实发现了一些问题,有些热搜非常莫名其妙,热度来得快去的也快,再结合一下其他平台的数据就能容易分析出这个热搜的真实性了。

    1.1K20

    工业机器人——传感元件简介(一)

    问题描述 工业机器人以刚体动力学为基础,把驱动、传感和控制集成到一起,例如:机械臂对货物进行抓取时,其过程为:1、任务规划:确定机械臂如何运动可以实现货物抓取;2、目标响应:确定驱动元件如何响应(电机转几圈...关于空间机构运动学、动力学分析,本公众号前期推文进行了简单的介绍,本推文主要介绍工业机器人如何进行感知,采用何种元件(附录)。...个人理解(有误地方还望莫见笑,):机器人涉及的有任务规划、运动学分析、动力学分析、电机控制等,如果是仅仅对相关技术进行集成,使之满足简单的工业应用,所需要的技术难度不高,可以较容易实现。...然而要想对机器人性能进行一点点改进,需要大量的技术积累,例如:1、运动学、动力学分析:当我们忽略结构的受力变形时,可以很轻易的计算出驱动元件应该如何运动,但是特殊的应用场合,结构的变形往往不能忽略,例如...,了解背后矩阵方程的迭代求解过程,还是有好处的, 附录:编码器相关资料 编码器是一种将旋转位移转换为一串数字脉冲信号的旋转式传感器,广泛应用于电机角位移和旋转位置的测量,前期接触过亨氏乐牌子的编码器:http

    48420

    突破:SRS4支持WebRTC,迎来两位新作者

    直播连麦:可以在一对一通话基础上,在主播端开OBS抓取通话窗口,合流成为RTMP后再直播出去。比较完善的是在服务器上合流,SRS目前还没有计划,可以自行开发。...支持UDP端口复用,默认UDP/8000端口传输数据。 支持通过ENV设置IP,在docker中比较方便使用。 裁剪的FFMEPG库,静态库链接,后续会支持动态库链接。...支持动态链接FFMPEG的库,遵守LGPL协议。 高级丢弃B帧,根据引用关系丢帧,避免局部花屏。 WebRTC上行推流,避免音频转码。 支持切网,移动端可能会变更网络。...另外,SRS用到的ST的库支持ARM的汇编代码,也是John实现的;而且,John也完整调研了用微信libco替代ST的可能性,结果发现ST是最合适的协程库。...B.P.Y(Bepartofyou),B神,只用了4天就完成了aac转opus,将FFMPEG代码从84MB裁剪到了8MB左右,只保留了必要的代码;aac转opus意味着直播和RTC的打通,是极其重要的能力

    2.5K10
    领券