首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

开发 | Twitter客户支持数据集公布:来自大企业超百万条回复

AI科技评论消息,近日,Kaggle平台上公布了Twitter客户支持数据集,这个数据集包括来自大企业超百万条回复,大家可以利用这个数据集做很多有意思工作。...,也客户支持实践与影响效果相关研究有所帮助。...说对不起有用吗内容 数据集是CSV格式,每一行为一条描述如下所示,每段对话至少包含一条用户请求和一条公司回复。可以用inbound字段来计算哪个用户ID是公司用户ID。...response_tweet_id 与请求相关回复ID,用逗号隔开。...in_response_to_tweet_id 该条回复ID(如果存在) 数据集下载地址:https://www.kaggle.com/soaxelbrooke/customer-support-on-twitter

1.6K50

特开源了,马斯克说到做到

特同期发布技术博客上,工程师们推荐系统算法进行了一番解释。 特推荐系统基础是一套核心模型和功能,、用户和相关数据中提取潜在信息。...准确地回答这些问题使 Twitter 能够提供更相关推荐。 推荐流程由三个主要阶段组成:  1. 从不同推荐源中获取最佳,这个过程被称为候选搜寻(candidate sourcing)。...候选源 Twitter 有几个候选源,他们用这些候选源来为用户检索最近相关。对于每个请求,他们试图通过这些来源数以亿计池中提取最好 1500 条。...例如,删除其屏蔽或静音帐户。  作者多样性:避免来自同一作者太多连续。 内容平衡:确保特提供网络内和网络外公平和平衡。...对话:通过将回复与原始串连在一起,为回复提供更多上下文。 已编辑:确定设备上当前是否过时,并发送指令以将其替换为已编辑版本。

1.4K10
您找到你想要的搜索结果了吗?
是的
没有找到

香农熵到手KL散度:一带你纵览机器学习中信息论

IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 信息论是应用数学一个分支,主要研究一个信号包含信息多少进行量化。...在我们储罐另一侧注入气体之后,气体粒子分布会收敛于一个均匀值。低熵意味着高密度气体粒子聚集在某个特定区域,而这是永远不会自发发生。...在李弘毅讲解中,KL 散度可以极大似然估计中推导而出。...若似然函数取对数,那么累乘 ∏ 就能转化为累加 ∑,并且这一过程并不会改变最优化结果。...信息增益大特征具有更强分类能力。 根据信息增益准则特征选择方法是:训练数据集(或子集)D,计算其每个特征信息增益,并比较它们大小,选择信息增益最大特征。

71180

香农熵到手KL散度:一带你纵览机器学习中信息论

选自Medium 作者:Frank Preiswerk 机器之心编译 参与:Nurhachu Null、蒋思源 信息论与信息熵是 AI 或机器学习中非常重要概念,我们经常需要使用它关键思想来描述概率分布或者量化概率分布之间相似性...在本文中,我们最基本自信息和信息熵到交叉熵讨论了信息论基础,再由最大似然估计推导出 KL 散度而加强我们量化分布间相似性理解。...在我们储罐另一侧注入气体之后,气体粒子分布会收敛于一个均匀值。低熵意味着高密度气体粒子聚集在某个特定区域,而这是永远不会自发发生。...在李弘毅讲解中,KL 散度可以极大似然估计中推导而出。...若似然函数取对数,那么累乘 ∏ 就能转化为累加 ∑,并且这一过程并不会改变最优化结果。

1.1K100

Twitter 算法开源究竟会是什么样

因此,让我们看看能否工程角度增进这个对话了解。 Twitter 是如何工作 主时间线视图 Twitter 为用户提供了两个版本主时间线视图:默认算法推送“主页”以及 “最新”。...核心关系 时间线(Timelines)—— 来自特定账户逆时流。 喜欢(Likes)—— 喜欢是一种核心用户互动行为,表达兴趣。请注意,“喜欢”在历史上曾被称为“收藏”。...每当你登录、查看、点击、查看用户资料、发布回复等——你在 Twitter 上每一次互动都会被记录到内部数据库。...作者:你过去与这个作者互动,你与他们联系强度,你们关系起源。 你:你在过去觉得有吸引力,你使用频率和程度。...为了应对这一挑战,Twitter 为特定 API 合作伙伴提供公共 Tweet Firehose 1% 抽样版本,以及获取更小过滤流子集能力。

99440

一种基于机器学习自动化鱼叉式网络钓鱼思路

主要思想 提出SNAP_R(SocialNetwork Automated Phishing with Reconnaissance)递归神经网络,可学习向特定用户(即攻击目标)发送钓鱼。...该模型采用鱼叉式网络钓鱼渗透测试数据进行训练,为提升点击成功率,还动态嵌入目标用户和转发或关注用户抽取的话题,并在发送时@攻击目标。 ? 图3 SNAP_R递归神经网络简介 2....,用户个人信息包括用户名、转发/响应频率/时间、某主题态度、位置信息、行为模式、已参加或者将要参加大型活动等,也包括工作、职位头衔、知名度等反映用户价值大小信息。...② 自动化鱼叉钓鱼 选取攻击目标后,攻击者利用SNAP_R递归神经网络模型抽取目标感兴趣话题以及该目标发送或者回复情况以便于产生钓鱼内容。...除介词等停止词之外,最频繁出现内容都可以用于构造内容,内容会选择用户经常发送或转推推时间进行发送。

1.3K10

Twitter推荐算法正式开源,GitHub Star飙升至 42.9K !

Twitter 官网博客详细介绍了算法在确定 For You 时间线所显示时,会具体参考哪些内容并如何其进行排名和过滤。 用于构建时间线主要组件 来看,推荐管线由三个主要阶段组成。...首先,它会收集“来自不同推来源最佳”,之后使用“机器学习模型”进行排名。最后,它会过滤掉来自已屏蔽用户、已经看过或者在工作时间不宜观看内容,最后将结果显示在时间线上。...大规模专有网络图 像 Twitter 这样社交网络就是超大图实例,节点是用户和模型,边则是回复、转发和喜欢等互动模型。...用户登录、查看、点击、查看用户资料、发布回复等,在 Twitter 上每一次互动都会被记录到内部数据库。...作者:用户过去与这个作者互动,用户与他们联系强度,用户关系起源。 用户:用户在过去觉得有吸引力,用户使用频率和程度。

73320

刚刚!马斯克开源Twitter算法,GitHub Star数已破万

Twitter 官网博客详细介绍了算法在确定 For You 时间线所显示时,会具体参考哪些内容并如何其进行排名和过滤。 用于构建时间线主要组件 来看,推荐管线由三个主要阶段组成。...首先,它会收集“来自不同推来源最佳”,之后使用“机器学习模型”进行排名。最后,它会过滤掉来自已屏蔽用户、已经看过或者在工作时间不宜观看内容,最后将结果显示在时间线上。...大规模专有网络图 像 Twitter 这样社交网络就是超大图实例,节点是用户和模型,边则是回复、转发和喜欢等互动模型。...用户登录、查看、点击、查看用户资料、发布回复等,在 Twitter 上每一次互动都会被记录到内部数据库。...作者:用户过去与这个作者互动,用户与他们联系强度,用户关系起源。 用户:用户在过去觉得有吸引力,用户使用频率和程度。

56520

用户无法正常发,马斯克:暂停新功能开发, API 免费访问延长四天

作者 | 褚杏娟 近日,特全球用户再次遇到了一个持续了约 90 分钟故障,他们无法正常发送,而是收到一条自动消息,说他们“超过了每天发送限制”,甚至当天一次还没有发布过用户都收到了该消息...据悉,Twitter 帮助中心表示,每天数量上限为 2,400 条。中断不仅影响了新发布,还影响了转发和回复。...开发团队在出现故障后发称,其 API 免费访问将再延长四天。但目前尚不清楚这次故障是否与 API 更改有关。...该公司表示, 2 月 9 日开始,将提供一个付费基础层面来访问其应用程序编程接口,即 API,开发人员可以使用它来分析包括在内一些内部数据,并用它来构建工具。...点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

84220

【人类才是传谣机器】Science刊发最大规模社交网络假新闻研究,人比机器更爱转发谣言

特定文传播模式是“流言级联”(rumor cascade)。如果一条在一条完整链中被转发了10次,那么它就是一个大小为10级联。...对于每个级联,研究人员确定了级联大小(即从开始到结束参与到级联的人数),深度(在单个不间断链中转发数量),最大广度(任何深度级联中最大数量的人)以及结构病毒式传播(衡量造成特定文传播的人数)。...以下是他们发现: 被“更多的人”转,通常包含虚假新闻,而不是包含真实新闻。...他们还检查了这些回复情感内容,发现虚假引发了更多惊讶和厌恶感。而真实,得到回复则更多表示悲伤和信任。...“假消息比真相传播得更远、更快、更深和更广泛,因为人类而不是bot更有可能转发假消息,”作者写道。 如果所有这些让你未来感到绝望,Vosoughi,Roy和Aral建议你坚持下去。

94370

特(X) 关于 ChatGPT 话题高质量数据集

获取特开发者账户难度暂且按下不表,单就目前这个价格,就让不少科研人员、数据爱好者等望而却步。...2023 年被公认为 ChatGPT 大模型元年,这一年在特上关于 ChatGPT 讨论数笔者初步估计应该在千万量级。...笔者采集了 2023.01.01 至 2023.02.01 这个时间段有关 ChatGPT 所有原创(不包含回复),合计 445238 条。 df = pd.read_csv('....(阅读量)、回复数(评论数)、转数、喜欢数、引用数等文字段和作者 ID、用户名、注册时间、关注数、粉丝数、发布数是否蓝 V 认证等用户字段,合计 47 个字段信息。...各语言数 一共 40 余字段,可分析信息不少,不一一列举

14510

重磅|如何利用NBA球员预测其球场表现?

具体而言,作者展示了如何通过自然语言处理和文本挖掘技术来分析NBA球员从而测算他们赛前情绪,结合现有赔率大数据算法达到提高球员赛场表现预测准确性。...特别地,文章目的在于展示如何利用NBA球员赛前情绪状态(通过他们在特发布获取)来预测他们赛场表现。...AGC数据集中所收集,除了内容以外,还包含其他描述性属性,比如发布时间等。量上来看,整个赛季中,球员一共发布了91,659条,75.3%球员发布了至少100条。...因此我们也将文中表情符号与手工组建表情符号延伸列表相比对来获取背后球员情绪。...球员tweets更直接展示了他们想法和观点,这些数据是其他渠道如访谈和调查中是很难获取

1.2K81

Twitter新政:变革140字限定背后,Twitter有何新目标?

此外,该公司将改变显示方式,用户包含艾特对象也将即时出现在用户特时间线内。 这一改变用户习惯和互联网世界又意味着什么呢?...我们简化了在特上回复和增加附件工作,把某些“骨架”移到显示元素,使它们不再受到字符限制。...回复: @names会在回复开始部分自动生成,这部分将不再受到字符限制(但是以@mention开始未答复会计算字符,明显由用户加到正文部分@mentions也会计算字符)。...第三方客户端和其他API用户前后端兼容性是我们考虑主要问题。...为了支持这些变化,在API Endpoint方面会有新API选项用于创建或使用。如需获取详细信息,请查阅我们已经发布初期技术文档。

1.8K60

编程入门,这763位老程序员有话讲!

因为发出这条到我去开讲座只有两天时候,所以我没能汇总所有的建议。但是我设法找到了最受欢迎部分回复以及从事游戏行业的人回复。 但是很多建议都无法展现出来。我需要分析这些回复。...获取数据 首先,我设法按照 Twitter 上时间线挨个浏览,然后把内容复制出来。但是很显然如果某条回复达到一定大小,Twitter 就会限制你能看到回复。所以我只能看到285条回复。...编程是一件持续学习事情 13个回复明确说“永远不要停止学习”。 763条文中有82条谈到了学习或练习方法。占总比10.7%。...保证确定性唯一方法是通过调试仔细观察! 鸣谢 像这样非常罕见。如此多的人愿意拿出宝贵时间来回复出乎了我预料。 感谢各位回复、转发与点赞!...我希望这条能激发你灵感,我也希望这篇博你有所帮助。

92020

[译]特和脸书能否预测股票变动?

欢迎各位同行及对数据分析感兴趣朋友加入,共同分享交流。 欢迎熟悉外语(含各种“小语种”)朋友,加入大数据文摘翻译志愿者团队,回复“翻译”和“志愿者”了解详情。...这在告诉我们一个事实:利用社交网络来获取影响股票价格新闻,并不是一个理论神话,它真实地存在着。...去年,“社交情绪分析”大获成功:金融信息巨头彭博将列入它财经数据递送服务。...特意识到在投资行业巨大价值,2012年它在数据授权服务中赚取了四千七百五十万美金,相比2011年上涨了66%。...基于以上算法来评估“S值”将“社交情绪”反映在特定股票“回望(lookback)”时期内变动上。 普遍传言对于特定股票是好消息还是坏消息,可以通过这些“情绪”指数来预测。

1.2K70

常见分布式应用系统设计图解(二):Feed 流系统

今天记录 Feed 流系统设计学习笔记,Feed 流常见系统包括 Twitter、微博、Instagram 和抖音等等,它们特点是,每个用户都是内容创作者,每个用户也都是内容消费者,每个用户看到内容都是不同...id 去获取 I/O;另一种解决思路是只给活跃用户 push。...关于 Sharding,这是一个 Feed 系统核心话题。...第三种方式是根据用户 id 来做 hash,保证某一个特定用户只存储在同一台机器上,但这个方式有两个问题,(1)有时候某特定几个用户会火,导致 load 不均,这种情况需要用良好设计 Cache...Aggregation Service 是用来多个存储节点中为某个用户拉取数据(pull 模型),合并时间线,并返回。为了提高效率,这里是多个并行拉取,再聚合

81531

SIGIR 2021 | UPFD:用户偏好感知假新闻检测

对于用户节点,提取其最近200条,然后利用预训练好word2vec和BERT进行编码,然后平均以得到用户偏好嵌入向量。对于新闻节点,同样得到其嵌入向量表示。...为了获得丰富历史信息用于用户偏好建模,本文每个账号最近200条进行了抓取,总共抓取了近2000万条。...因此,本文在可访问用户文中进行随机抽样,以组成这些无法被访问用户历史。 为了新闻文本信息和用户偏好进行编码,本文采用了两种基于语言预训练文本表示学习方法。...具体来讲,首先将用户最近200条进行合并,然后其中已有单词向量进行平均,得到用户偏好表示,新闻文本嵌入也利用此方式得到。...如果用户 v_i 没有关注包括源用户(发布该新闻用户)在内转发序列中任何用户,则认为该用户关注者数量最多用户获取到该新闻。

1K20

什么是社交聆听,它为什么很重要?

很多人都知道社交媒体可以成为对外发布消息平台,其实更重要是你可以利用社交媒体特定的人群在特定时间内进行发布内容洞察。 社交媒体聆听概念有些混乱,我们经常会把它与社交媒体监控混在一起。...另外单独查看这些也无法分析出趋势全貌。 聆听价值也在此。 通过社交聆听,你不会关注于每个具体。你将它们视为一个整体。...例如,如果你发现有关产品负面激增,那么这是一个出现问题指标。 通过有效社交聆听,你不仅仅看到品牌感到不满信息。根据汇总数据,你还可以开始看到消极或积极情绪如何整体上影响品牌。...但是注意他回答,特别是第一句: 这显然不是特斯拉第一次听说这个问题。在Twitter上快速搜索一下,你就会发现在Loic发布此之前和之后都有几条类似的,很多特斯拉车主都在经历着同样事情。...虽然我们无法确定社交聆听是否是特斯拉战略一部分,但显然有人正在关注社交媒体上不断增加客户抱怨,这正是社交聆听应该如何发挥作用例子。 关键要点: 聆听获取机会:特斯拉收到了有关特定问题一致反馈。

3.5K20

. | 基于视觉和语言基础模型,用于病理图像分析

作者还扩展了这个集合,互联网上其他网站收集了病理数据,经过严格数据质量过滤,最终创建了一个包含208,414个病理图像-文本数据集,称为OpenPath。...作者使用这32个标签2006年3月21日(第一条Twitter帖子日期)到2022年11月15日检索相关(如图1a所示),以建立迄今为止带有每个图像自然语言描述最大公开病理学数据集:OpenPath...作者在检索数据时遵循了Twitter和其他实体使用政策和指南。为了确保数据质量,OpenPath遵循了严格队列包含和排除协议,包括删除转发、敏感和非病理图像,以及额外文本清理(如图1a)。...最终OpenPath数据集(如图1b所示)包括:(1):来自32个病理学专业特定标签(如图1c所示)116,504个图像-文本,来自Twitter帖子;(2)回复:来自与相关回复中得到最多赞回复...59,869个图像-文本(如图1c所示);以及(3)PathLAION:互联网和LAION数据集中获取32,041个额外图像-文本

39360

基于情绪因子CTA截面策略

2010年到2020年,一个基于高与低情绪变化加权和月度再平衡多空投资组合每年产生7.2%且统计显著平均回报。...我们使用Twitter academic API获取了在2009年1月1日至2020年12月31日,所有匹配以下商品名称关键词(如Table 1 Commodity Name),总共近4160,000,000...计算每条情绪时基于词性统计,s(w)表示词语w情绪值: 某日d,商品i情绪值使用以下公式计算: 即先统计每条所有词语情绪和,再计算当天所有与该商品相关情绪之和,最后除以相关数量...如果情绪诱发错误定价是有影响力结果,我们预计,当只使用非零转发和/或点赞衡量商品情绪时,比使用所有衡量商品情绪时,会观察到更强(或类似)表现。...此外,情绪是基于高关注还是低关注来衡量,在统计上并没有差异。总的来说,这些发现表明情绪预测能力取决于群体集体智慧,而不是特定用户群体。

1.3K20
领券