前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >推特(X) 关于 ChatGPT 话题的高质量推文数据集

推特(X) 关于 ChatGPT 话题的高质量推文数据集

作者头像
月小水长
发布2024-02-22 12:40:04
1814
发布2024-02-22 12:40:04
举报
文章被收录于专栏:月小水长月小水长

自从 2023 年推特被火星人马斯克先生收购并进行全面商业化之后,推特 API 的费用就水涨船高了。

注,推特已于 2023.7.24 日改名为 X ,并启用“X”标志,告别原有的小蓝鸟形象。

目前推特开发者官网有下面几个版本的 API 服务:

翻译成中文,意即:

  1. 免费版本的 API 接口服务每月可提供 1500 个发帖请求。(write-only,也就是不能获取只能发帖
  2. 基础版每月收费 100 美元,每月可提供 10,000 个阅读请求和 50,000 个发帖请求。(阅读请求貌似不能搜索
  3. Pro 版本则是每月收费 5000 美元,对应 1,000,000 个 GET 请求和 300,000 个发帖请求。(开始有全局推文搜索能力,一次搜索算作一次 GET
  4. 企业版本需要另外申请,据说每月需要至少消费 42,000 美元,相应的 API 能力更强,配额更大。

获取推特开发者账户的难度暂且按下不表,单就目前这个价格,就让不少科研人员、数据爱好者等望而却步。

2023 年被公认为 ChatGPT 大模型元年,这一年在推特上关于 ChatGPT 的讨论推文数笔者初步估计应该在千万量级。

笔者采集了 2023.01.01 至 2023.02.01 这个时间段有关 ChatGPT 的所有原创推文(不包含回复),合计 445238 条。

代码语言:javascript
复制
df = pd.read_csv('./chatgpt_tweets_202301_445238条.csv')
print(df.shape)
# (445238, 47)

每一条数据都包含推文 ID、发布时间、正文、发布来源、语言、推文查看数(阅读量)、回复数(评论数)、转推数、喜欢数、引用数等推文字段和作者 ID、用户名、注册时间、关注数、粉丝数、发布推文数是否蓝 V 认证等用户字段,合计 47 个字段信息

代码语言:javascript
复制
print(df.columns)
"""
Index(['tweet_create_time', 'publish_time', 'tweet_id', 'content', 'source',
       'hashtags', 'urls', 'user_mentions', 'view_count', 'reply_count',
       'retweet_count', 'favorite_count', 'quote_count', 'bookmark_count',
       'lang', 'geo', 'coordinates', 'place', 'photo_entity', 'video_url',
       'reply_to_user_id', 'reply_to_user_link', 'reply_to_tweet_id',
       'reply_to_screen_name', 'reply_to_tweet_link', 'user_id', 'user_name',
       'screen_name', 'user_link', 'tweet_link', 'location', 'description',
       'user_url', 'url_entities', 'followers_count', 'fast_followers_count',
       'normal_followers_count', 'friends_count', 'user_created_at',
       'blue_verified', 'verified', 'favourites_count', 'statuses_count',
       'media_count', 'listed_count', 'user_lang', 'pinned_tweet_ids'],
      dtype='object')
"""

推文来自于 242288 个作者,其中 12% 是蓝 V。

代码语言:javascript
复制
part_df = df.drop_duplicates(subset=['user_id'], keep='last')
print(part_df.shape[0], 'authors')
# 242288 authors

这 44w 条推文所属语言达 67 种之多,

代码语言:javascript
复制
print(len(df['lang'].unique()))
# 67

其中 en(英文)、ja(日文)、es(西班牙语)、fr(法语) 和 pt (葡萄牙语)五种语言的推文最多,均超过了 10000 条,出乎笔者意料的是日文推特数居然高居第 2 位,zh(中文)推特数排在第 13 位。

各语言推文数

一共 40 余字段,可分析的信息不少,不一一列举

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
API 网关
腾讯云 API 网关(API Gateway)是腾讯云推出的一种 API 托管服务,能提供 API 的完整生命周期管理,包括创建、维护、发布、运行、下线等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档