AI科技评论消息,近日,Kaggle平台上公布了Twitter客户支持数据集,这个数据集包括来自大企业的超百万条推文与回复,大家可以利用这个数据集做很多有意思的工作。...,也对客户支持实践与影响效果的相关研究有所帮助。...说对不起有用吗内容 数据集是CSV格式,每一行为一条推文。对列的描述如下所示,每段对话至少包含一条用户请求和一条公司回复。可以用inbound字段来计算哪个用户ID是公司用户ID。...response_tweet_id 与请求推文相关的回复推文ID,用逗号隔开。...in_response_to_tweet_id 该条推文所回复的推文ID(如果存在) 数据集下载地址:https://www.kaggle.com/soaxelbrooke/customer-support-on-twitter
在推特同期发布的技术博客上,工程师们对推荐系统算法进行了一番解释。 推特推荐系统的基础是一套核心模型和功能,从推文、用户和相关数据中提取潜在的信息。...准确地回答这些问题使 Twitter 能够提供更相关的推荐。 推荐流程由三个主要阶段组成: 1. 从不同的推荐源中获取最佳推文,这个过程被称为候选搜寻(candidate sourcing)。...候选推文源 Twitter 有几个候选推文源,他们用这些候选源来为用户检索最近的相关推文。对于每个请求,他们试图通过这些来源从数以亿计的推文池中提取最好的 1500 条推文。...例如,删除其屏蔽或静音的帐户的推文。 作者多样性:避免来自同一作者的太多连续推文。 内容平衡:确保推特提供网络内和网络外推文的公平和平衡。...对话:通过将回复与原始推文串连在一起,为回复提供更多上下文。 已编辑的推文:确定设备上当前的推文是否过时,并发送指令以将其替换为已编辑的版本。
IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。...在我们从储罐的另一侧注入气体之后,气体粒子的分布会收敛于一个均匀值。低熵意味着高密度的气体粒子聚集在某个特定的区域,而这是永远不会自发发生的。...在李弘毅的讲解中,KL 散度可以从极大似然估计中推导而出。...若对似然函数取对数,那么累乘 ∏ 就能转化为累加 ∑,并且这一过程并不会改变最优化的结果。...信息增益大的特征具有更强的分类能力。 根据信息增益准则的特征选择方法是:对训练数据集(或子集)D,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。
选自Medium 作者:Frank Preiswerk 机器之心编译 参与:Nurhachu Null、蒋思源 信息论与信息熵是 AI 或机器学习中非常重要的概念,我们经常需要使用它的关键思想来描述概率分布或者量化概率分布之间的相似性...在本文中,我们从最基本的自信息和信息熵到交叉熵讨论了信息论的基础,再由最大似然估计推导出 KL 散度而加强我们对量化分布间相似性的理解。...在我们从储罐的另一侧注入气体之后,气体粒子的分布会收敛于一个均匀值。低熵意味着高密度的气体粒子聚集在某个特定的区域,而这是永远不会自发发生的。...在李弘毅的讲解中,KL 散度可以从极大似然估计中推导而出。...若对似然函数取对数,那么累乘 ∏ 就能转化为累加 ∑,并且这一过程并不会改变最优化的结果。
因此,让我们看看能否从工程的角度增进对这个对话的了解。 Twitter 是如何工作的 主时间线视图 Twitter 为用户提供了两个版本的主时间线视图:默认的算法推送“主页”以及 “最新推文”。...核心推文关系 时间线(Timelines)—— 来自特定账户的逆时推文流。 喜欢(Likes)—— 喜欢推文是一种核心的用户互动行为,表达对推文的兴趣。请注意,“喜欢”在历史上曾被称为“收藏”。...每当你登录、查看推文、点击推文、查看用户资料、发布推文、回复推文等——你在 Twitter 上的每一次互动都会被记录到内部数据库。...推文作者:你过去与这个作者的互动,你与他们联系的强度,你们关系的起源。 你:你在过去觉得有吸引力的推文,你使用推特的频率和程度。...为了应对这一挑战,Twitter 为特定的 API 合作伙伴提供公共 Tweet Firehose 的 1% 抽样版本,以及获取更小过滤流子集的能力。
主要思想 提出SNAP_R(SocialNetwork Automated Phishing with Reconnaissance)递归神经网络,可学习向特定用户(即攻击目标)发送钓鱼推文。...该模型采用鱼叉式网络钓鱼渗透测试数据进行训练,为提升点击成功率,还动态嵌入从目标用户和转发或关注用户处抽取的话题,并在发送推文时@攻击目标。 ? 图3 SNAP_R递归神经网络简介 2....,用户个人信息包括用户名、转发/响应的推文的频率/时间、对某主题的态度、位置信息、行为模式、已参加或者将要参加的大型活动等,也包括工作、职位头衔、知名度等反映用户价值大小的信息。...② 自动化鱼叉钓鱼 选取攻击目标后,攻击者利用SNAP_R递归神经网络模型抽取目标感兴趣话题以及该目标发送推文或者回复推文的情况以便于产生钓鱼推文内容。...除介词等停止词之外,最频繁出现的推文内容都可以用于构造推文内容,推文内容会选择用户经常发送或转推推文的时间进行发送。
Twitter 官网博客详细介绍了算法在确定 For You 时间线所显示的推文时,会具体参考哪些内容并如何对其进行排名和过滤。 用于构建时间线的主要组件 从博文来看,推荐管线由三个主要阶段组成。...首先,它会收集“来自不同推来源的最佳推文”,之后使用“机器学习模型”对各推文进行排名。最后,它会过滤掉来自已屏蔽用户的推文、已经看过的推文或者在工作时间不宜观看的内容,最后将结果显示在时间线上。...大规模专有网络图 像 Twitter 这样的社交网络就是超大图的实例,节点是用户和推文的模型,边则是回复、转发和喜欢等互动的模型。...用户登录、查看推文、点击推文、查看用户资料、发布推文、回复推文等,在 Twitter 上的每一次互动都会被记录到内部数据库。...推文作者:用户过去与这个作者的互动,用户与他们联系的强度,用户关系的起源。 用户:用户在过去觉得有吸引力的推文,用户使用推特的频率和程度。
作者 | 褚杏娟 近日,推特全球用户再次遇到了一个持续了约 90 分钟的故障,他们无法正常发送推文,而是收到一条自动消息,说他们“超过了每天发送推文的限制”,甚至当天一次还没有发布过用户都收到了该消息...据悉,Twitter 的帮助中心表示,每天的推文数量上限为 2,400 条。中断不仅影响了新推文发布,还影响了推文的转发和回复。...推特的开发团队在出现故障后发推文称,对其 API 的免费访问将再延长四天。但目前尚不清楚这次故障是否与 API 更改有关。...该公司表示,从 2 月 9 日开始,将提供一个付费的基础层面来访问其应用程序编程接口,即 API,开发人员可以使用它来分析包括推文在内的一些内部数据,并用它来构建工具。...点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!
特定推文传播的模式是“流言级联”(rumor cascade)。如果一条推文在一条完整的链中被转发了10次,那么它就是一个大小为10的级联。...对于每个级联,研究人员确定了级联的大小(即从开始到结束参与到级联的人数),深度(在单个不间断链中转发的数量),最大广度(任何深度的级联中最大数量的人)以及结构病毒式传播(衡量造成特定推文传播的人数)。...以下是他们的发现: 被“更多的人”转推的,通常包含虚假新闻的推文,而不是包含真实新闻的推文。...他们还检查了这些推文回复的情感内容,发现虚假推文引发了更多的惊讶和厌恶感。而真实的推文,得到的回复则更多表示悲伤和信任。...“假消息比真相传播得更远、更快、更深和更广泛,因为人类而不是bot更有可能转发假消息,”作者写道。 如果所有这些让你对未来感到绝望,Vosoughi,Roy和Aral建议你坚持下去。
获取推特开发者账户的难度暂且按下不表,单就目前这个价格,就让不少科研人员、数据爱好者等望而却步。...2023 年被公认为 ChatGPT 大模型元年,这一年在推特上关于 ChatGPT 的讨论推文数笔者初步估计应该在千万量级。...笔者采集了 2023.01.01 至 2023.02.01 这个时间段有关 ChatGPT 的所有原创推文(不包含回复),合计 445238 条。 df = pd.read_csv('....(阅读量)、回复数(评论数)、转推数、喜欢数、引用数等推文字段和作者 ID、用户名、注册时间、关注数、粉丝数、发布推文数是否蓝 V 认证等用户字段,合计 47 个字段信息。...各语言推文数 一共 40 余字段,可分析的信息不少,不一一列举
具体而言,作者展示了如何通过自然语言处理和文本挖掘技术来分析NBA球员的推文从而测算他们的赛前情绪,结合现有赔率的大数据算法达到提高对球员赛场表现的预测的准确性。...特别地,文章的目的在于展示如何利用NBA球员的赛前情绪状态(通过他们在推特发布的推文的获取)来预测他们的赛场表现。...AGC数据集中所收集的推文,除了内容以外,还包含其他描述性属性,比如发布时间等。从量上来看,整个赛季中,球员一共发布了91,659条推文,75.3%的球员发布了至少100条推文。...因此我们也将推文中的表情符号与手工组建的表情符号延伸列表相比对来获取推文背后的球员情绪。...球员的tweets更直接的展示了他们的想法和观点,这些数据是从其他渠道如访谈和调查中是很难获取的。
此外,该公司将改变推文的显示方式,用户包含艾特对象的推文也将即时出现在用户的推特时间线内。 这一改变对用户习惯和互联网世界又意味着什么呢?...我们简化了在推特上回复和增加附件的工作,把推文上的某些“骨架”移到显示元素,使它们不再受到字符的限制。...回复: @names会在回复的开始部分自动生成,这部分将不再受到字符限制(但是以@mention开始的新的未答复的推文会计算字符,明显由用户加到推文正文部分的@mentions也会计算字符)。...对第三方客户端和其他API用户的前后端兼容性是我们考虑的主要问题。...为了支持这些变化,在API Endpoint方面会有新的API选项用于创建或使用推文。如需获取详细的信息,请查阅我们已经发布的初期技术文档。
因为从发出这条推文到我去开讲座只有两天的时候,所以我没能汇总所有的建议。但是我设法找到了最受欢迎的部分回复以及从事游戏行业的人的回复。 但是很多建议都无法展现出来。我需要分析这些回复。...获取数据 首先,我设法按照 Twitter 上的时间线挨个浏览,然后把内容复制出来。但是很显然如果某条推文的回复达到一定的大小,Twitter 就会限制你能看到的回复。所以我只能看到285条回复。...编程是一件持续学习的事情 13个回复明确说“永远不要停止学习”。 763条推文中有82条谈到了学习或练习的方法。占总比的10.7%。...保证确定性的唯一方法是通过调试仔细观察! 鸣谢 像这样的推文非常罕见。如此多的人愿意拿出宝贵的时间来回复出乎了我的预料。 感谢各位的回复、转发与点赞!...我希望这条推文能激发你的灵感,我也希望这篇博文对你有所帮助。
欢迎各位同行及对数据分析感兴趣的朋友加入,共同分享交流。 欢迎熟悉外语(含各种“小语种”)的朋友,加入大数据文摘翻译志愿者团队,回复“翻译”和“志愿者”了解详情。...这在告诉我们一个事实:利用社交网络来获取影响股票价格的新闻,并不是一个理论神话,它真实地存在着。...去年,“社交情绪分析”大获成功:金融信息巨头彭博将推文列入它的财经数据递送服务。...推特意识到推文在投资行业的巨大价值,2012年它在数据授权服务中赚取了四千七百五十万美金,相比2011年上涨了66%。...基于以上算法来评估的“S值”将“社交情绪”反映在特定股票“回望(lookback)”时期内的变动上。 普遍传言对于特定的股票是好消息还是坏消息,可以通过这些“情绪”指数来预测。
今天记录 Feed 流系统的设计学习笔记,Feed 流常见系统包括 Twitter、微博、Instagram 和抖音等等,它们的特点是,每个用户都是内容创作者,每个用户也都是内容消费者,每个用户看到的内容都是不同的...id 去获取推文的 I/O;另一种解决思路是只给活跃用户 push。...关于对推文的 Sharding,这是一个 Feed 系统的核心话题。...第三种方式是根据用户 id 来做 hash,保证某一个特定用户的推文只存储在同一台机器上,但这个方式有两个问题,(1)有时候某特定几个用户会火,导致 load 不均,这种情况需要用良好设计的 Cache...Aggregation Service 是用来从多个存储节点中为某个用户拉取数据(pull 模型),合并时间线,并返回的。为了提高效率,这里是多个并行拉取,再聚合的。
对于用户节点,提取其最近的200条推文,然后利用预训练好的word2vec和BERT对推文进行编码,然后平均以得到用户偏好嵌入向量。对于新闻节点,同样得到其嵌入向量表示。...为了获得丰富的历史信息用于用户偏好建模,本文对每个账号最近的200条推文进行了抓取,总共抓取了近2000万条推文。...因此,本文在可访问用户的推文中进行随机抽样,以组成这些无法被访问用户的历史推文。 为了对新闻文本信息和用户偏好进行编码,本文采用了两种基于语言预训练的文本表示学习方法。...具体来讲,首先将用户最近200条推文进行合并,然后对其中已有单词的向量进行平均,得到用户偏好表示,新闻文本的嵌入也利用此方式得到。...如果用户 v_i 没有关注包括源用户(发布该新闻的用户)在内的转发序列中的任何用户,则认为该用户从关注者数量最多的用户处获取到该新闻。
很多人都知道社交媒体可以成为对外发布消息的平台,其实更重要的是你可以利用社交媒体对特定的人群在特定的时间内进行发布内容的洞察。 社交媒体聆听概念有些混乱,我们经常会把它与社交媒体监控混在一起。...另外单独查看这些推文也无法分析出趋势的全貌。 聆听的价值也在此。 通过社交聆听,你不会关注于每个具体的推文。你将它们视为一个整体。...例如,如果你发现有关产品的负面推文激增,那么这是一个出现问题的指标。 通过有效的社交聆听,你不仅仅看到对你的品牌感到不满的信息。根据汇总数据,你还可以开始看到消极或积极的情绪如何整体上影响品牌。...但是注意他的回答,特别是第一句: 这显然不是特斯拉第一次听说这个问题。在Twitter上快速搜索一下,你就会发现在Loic发布此推文之前和之后都有几条类似的推文,很多特斯拉车主都在经历着同样的事情。...虽然我们无法确定社交聆听是否是特斯拉战略的一部分,但显然有人正在关注社交媒体上不断增加的客户抱怨,这正是社交聆听应该如何发挥作用的例子。 关键要点: 聆听获取机会:特斯拉收到了有关特定问题的一致反馈。
作者还扩展了这个集合,从互联网上的其他网站收集了病理数据,经过严格的数据质量过滤,最终创建了一个包含208,414个病理图像-文本对的数据集,称为OpenPath。...作者使用这32个标签从2006年3月21日(第一条Twitter帖子的日期)到2022年11月15日检索相关的推文(如图1a所示),以建立迄今为止带有每个图像的自然语言描述的最大的公开病理学数据集:OpenPath...作者在检索数据时遵循了Twitter和其他实体的使用政策和指南。为了确保数据质量,OpenPath遵循了严格的队列包含和排除协议,包括删除转发、敏感推文和非病理图像,以及额外的文本清理(如图1a)。...最终的OpenPath数据集(如图1b所示)包括:(1)推文:来自32个病理学专业特定标签(如图1c所示)的116,504个图像-文本对,来自Twitter帖子;(2)回复:来自与推文相关的回复中得到最多赞的回复的...59,869个图像-文本对(如图1c所示);以及(3)PathLAION:从互联网和LAION数据集中获取的32,041个额外的图像-文本对。
从2010年到2020年,一个基于高与低情绪变化的加权和月度再平衡的多空投资组合每年产生7.2%且统计显著的平均回报。...我们使用Twitter academic API获取了在2009年1月1日至2020年12月31日,所有匹配以下商品名称关键词的推文(如Table 1 Commodity Name),总共近4160,000,000...计算每条推文的情绪时基于词性的统计,s(w)表示词语w的情绪值: 某日d,商品i的情绪值使用以下公式计算: 即先统计每条推文所有词语的情绪和,再计算当天所有与该商品相关的推文的情绪之和,最后除以相关推文的数量...如果情绪诱发的错误定价是有影响力的推文的结果,我们预计,当只使用非零转发和/或点赞的推文衡量商品情绪时,比使用所有推文衡量商品情绪时,会观察到更强(或类似)的表现。...此外,情绪是基于高关注还是低关注的推文来衡量,在统计上并没有差异。总的来说,这些发现表明情绪的预测能力取决于群体的集体智慧,而不是特定的用户群体。
领取专属 10元无门槛券
手把手带您无忧上云