开发 | Twitter客户支持数据集公布:来自大企业的超百万条推文与回复

AI科技评论消息,近日,Kaggle平台上公布了Twitter客户支持数据集,这个数据集包括来自大企业的超百万条推文与回复,大家可以利用这个数据集做很多有意思的工作。数据集的具体信息如下所示,AI科技评论编辑整理如下:

Twitter客户支持数据集(Customer Support)是一个庞大的推文与回复语料库,这个数据集比较现代化,有助于自然语言理解和会话模型的创新,也对客户支持实践与影响效果的相关研究有所帮助。

背景

自然语言处理(NLP)目前仍然需要密集的编码方式,NLP中的创新加速了对数据的理解,但是驱动这一创新的数据集与现在真正使用的语言不太匹配。

Twitter客户支持数据集里有Twitter上大量的用户和公司的客户支持中心之间的对话语料库,这个语料库的语言主要是英文,比起其他会话文本数据集有三个主要优势:

聚焦——这个数据集里的数据主要是用户联系客户支持中心来解决特定的问题的对话,他们讨论的问题类型相对来说较少,当与reddit语料库(reddit Corpus)等不受约束的对话数据集相比,这种情况更甚。

自然——这个数据集里的用户覆盖面要比Ubuntu对话语料库(Ubuntu Dialogue Corpus)更广。比起Cornell电影对话语料库(Cornell Movie Dialogs Corpus),这个数据集中有更多更自然和更常用的输入文本。

简洁——由于Twitter上对话的简洁性,客户支持中心会回复得更自然,关于问题和解决方案的描述都会会有过多废话,这也便于利用循环网络,可以使得信息的限制相对较低。

有意思的问题

这个数据集的大小和覆盖范围激发了许多有意思的问题:

我们能预测公司客户支持中心的回答吗?考虑到每个公司处理的问题都是在某个范围内,答案看起来是肯定的!

用户的请求会过时吗?最好的公司反应速度有多快,与最糟糕的公司相比呢?

在局部聚类(topical clustering)时,能学习到高质量的稠密嵌入(dense embedding)或相似性表现吗?

语气是如何影响客户支持中心与用户的对话的?说对不起有用吗?

内容

数据集是CSV格式,每一行为一条推文。对列的描述如下所示,每段对话至少包含一条用户请求和一条公司回复。可以用inbound字段来计算哪个用户ID是公司用户ID。

tweet_id

推文ID,匿名,每条推文只有一个此类ID,response_tweet_id和in_response_to_tweet_id中有引用到这个ID。

author_id

用户ID,匿名,每个用户只有一个此类ID,数据集中的@被与用户相关的用户ID替换掉了。

inbound

用户的请求推文是否被那些在推特上进行客户支持的公司“归档(inbound)”。该特征在训练会话模型时的数据重组阶段非常有用。

created_at

发推文的日期和时间

text

推文内容。电话号码和电子邮箱等敏感信息用__email__等类似句段来掩盖。

response_tweet_id

与请求推文相关的回复推文ID,用逗号隔开。

in_response_to_tweet_id

该条推文所回复的推文ID(如果存在)

数据集下载地址:https://www.kaggle.com/soaxelbrooke/customer-support-on-twitter

via:Kaggle

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-11-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

曾经名噪一时的7个搜索引擎:现在都在哪里?

对某些特定时期的人而言,搜索领域只代表着一件事情:Google。但是对很多人来说,他们还记得那样一个时代——搜索引擎数不胜数,新奇的品牌备受瞩目。 AltaVi...

1995
来自专栏Golang语言社区

Go语言·不服就干

不知不觉,我们团队选择go语言已经两年了,从最开始摸着石头过河到现在的驾轻就熟,感慨万千,总结来说:不服就干。 孙悟空不服天庭,所以大闹天空,那我们不服谁呢?可...

2816
来自专栏知晓程序

电商大开闸的幻觉!微信上线商品搜索,只是京东 618 的一场狂欢

1364

推荐系统介绍

我们许多人将推荐系统视为似乎知道我们思想的神秘实体。试想一下Netflix的建议电影的推荐引擎,或者是建议我们应该购买什么产品的亚马逊。自他们成立以来,这些工具...

1927
来自专栏鹅厂优文

创造101的小姐姐,了解一下?

在女票的影响下开始看咱们厂自制的综艺节目《创造101》,被里面充满才华和颜值的小姐姐们所吸引。在大饱眼福的同时,不仅萌生了深入了解小姐姐的想法。

79910
来自专栏PPV课数据科学社区

【学习】R语言书籍导读-入门到高级电子书下载推荐

R语言的资料非常多,R语言的书籍也聆郎满目啊。如何选择R语言书籍阅读呢?在此,我给大家分享一张自己做的R语言书籍导读的心智图。 ? 这个心智图,一共包括预备知...

2903
来自专栏AI研习社

【头条】谷歌发布全新TensorFlow 库tf.Transform;百度将Ring Allreduce算法引入深度学习

谷歌发布全新 TensorFlow 库“tf.Transform” 谷歌表示,tf.Transform 将改善 TensorFlow 的数据预处理和格式转化难题...

3114
来自专栏施炯的IoT开发专栏

在MSRA学习项目管理

    今年,MSRA改变了对学生实践项目的要求,现在给我们的口号是“做有用的项目”。从今年的“微软精英挑战大赛”就可以看出这个趋势。获得一等奖的重庆大学Dre...

1677
来自专栏大数据文摘

支付+即时通信,David Marcus承担着Facebook的未来

1908
来自专栏CDA数据分析师

Python 爬取淘宝商品数据挖掘分析实战

? 作者 孙方辉 本文为CDA志愿者投稿作品,转载需授权 项目内容 本案例选择>> 商品类目:沙发; 数量:共100页 4400个商品; 筛选条件:天猫...

2935

扫描关注云+社区