开发 | Twitter客户支持数据集公布:来自大企业的超百万条推文与回复

AI科技评论消息,近日,Kaggle平台上公布了Twitter客户支持数据集,这个数据集包括来自大企业的超百万条推文与回复,大家可以利用这个数据集做很多有意思的工作。数据集的具体信息如下所示,AI科技评论编辑整理如下:

Twitter客户支持数据集(Customer Support)是一个庞大的推文与回复语料库,这个数据集比较现代化,有助于自然语言理解和会话模型的创新,也对客户支持实践与影响效果的相关研究有所帮助。

背景

自然语言处理(NLP)目前仍然需要密集的编码方式,NLP中的创新加速了对数据的理解,但是驱动这一创新的数据集与现在真正使用的语言不太匹配。

Twitter客户支持数据集里有Twitter上大量的用户和公司的客户支持中心之间的对话语料库,这个语料库的语言主要是英文,比起其他会话文本数据集有三个主要优势:

聚焦——这个数据集里的数据主要是用户联系客户支持中心来解决特定的问题的对话,他们讨论的问题类型相对来说较少,当与reddit语料库(reddit Corpus)等不受约束的对话数据集相比,这种情况更甚。

自然——这个数据集里的用户覆盖面要比Ubuntu对话语料库(Ubuntu Dialogue Corpus)更广。比起Cornell电影对话语料库(Cornell Movie Dialogs Corpus),这个数据集中有更多更自然和更常用的输入文本。

简洁——由于Twitter上对话的简洁性,客户支持中心会回复得更自然,关于问题和解决方案的描述都会会有过多废话,这也便于利用循环网络,可以使得信息的限制相对较低。

有意思的问题

这个数据集的大小和覆盖范围激发了许多有意思的问题:

我们能预测公司客户支持中心的回答吗?考虑到每个公司处理的问题都是在某个范围内,答案看起来是肯定的!

用户的请求会过时吗?最好的公司反应速度有多快,与最糟糕的公司相比呢?

在局部聚类(topical clustering)时,能学习到高质量的稠密嵌入(dense embedding)或相似性表现吗?

语气是如何影响客户支持中心与用户的对话的?说对不起有用吗?

内容

数据集是CSV格式,每一行为一条推文。对列的描述如下所示,每段对话至少包含一条用户请求和一条公司回复。可以用inbound字段来计算哪个用户ID是公司用户ID。

tweet_id

推文ID,匿名,每条推文只有一个此类ID,response_tweet_id和in_response_to_tweet_id中有引用到这个ID。

author_id

用户ID,匿名,每个用户只有一个此类ID,数据集中的@被与用户相关的用户ID替换掉了。

inbound

用户的请求推文是否被那些在推特上进行客户支持的公司“归档(inbound)”。该特征在训练会话模型时的数据重组阶段非常有用。

created_at

发推文的日期和时间

text

推文内容。电话号码和电子邮箱等敏感信息用__email__等类似句段来掩盖。

response_tweet_id

与请求推文相关的回复推文ID,用逗号隔开。

in_response_to_tweet_id

该条推文所回复的推文ID(如果存在)

数据集下载地址:https://www.kaggle.com/soaxelbrooke/customer-support-on-twitter

via:Kaggle

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-11-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏互联网数据官iCDO

A/B测试的十个黄金准则

译者:李睿 本文长度为2770字,预估阅读时间4分钟。 互联网营销人员经常会用A/B测试的方法来优化广告策略,进而实现收入或转化率的提升。但是,如果并未采用正确...

3838
来自专栏TEG云端专业号的专栏

谈谈服务器运营领域的机器学习

本文我们来谈谈近几年机器学习在服务器运营领域的一些实践。

6238
来自专栏悦思悦读

如何以Python为工具走入数据科学之门

本次分享第【1】部分:什么是数据科学。 本次分享第【2】部分:如何从小白成长为数据科学家。 分享主题:Data Science学习分享会 分享时间:2016年4...

35013
来自专栏人工智能头条

专访陈天奇:DMLC发起人与机器学习的故事

1.2K8
来自专栏IT派

Caffe2代码全部并入PyTorch:深度学习框架格局剧震

在 Caffe 2 的 GitHub 页面上,以往用于介绍框架内容的 Readme 区域已经变成了一个加粗体的链接:源代码现已归入 PyTorch 库。

990
来自专栏人人都是极客

助力边缘计算,Arm机器学习处理器来了!

如果能够拥有一部智能个人助理,它能听懂我们说的话并做出智能反应,然后处理日常任务,那感觉一定很棒。鉴于机器学习 (ML) 领域近期取得的进展,Arm相信这一天很...

1681
来自专栏腾讯云人工智能

详解腾讯智能钛机器学习 TI-ML(文末有惊喜)

腾讯研究院《2017全球人工智能人才白皮书》报告中提到,现全球AI领域人才约30万,而市场对人才的需求在百万量级,每年从各大高校毕业的学生约2万人,远远不能满足...

1.9K87
来自专栏PPV课数据科学社区

教程:如何做好大屏数据可视化设计

大屏数据可视化设计方法论很少,正好自己参与过部门多个大屏项目,所以总结了大屏可视化设计的方法。希望通过这篇文章能帮助大家整理思考过程,提高工作效率,同时很好的达...

4893
来自专栏PPV课数据科学社区

【翻译】数据科学的多语言协作编程方式:Python + R + SQL

在这篇文章中,我将试图使用一种新的方法来介绍数据科学编程。 R vs. Python question中集中谈论了数据科学编程的问题,每个人都...

3054
来自专栏phodal

我是如何为技术博客设计一个推荐系统(上):统计与评分加权

过去的两周里,我一直忙于为 『玩点什么』 设计一个推荐系统。在这个过程中,参考几本书籍,查找了一系列的资料。想着这些资料上,大部分都是大同小异的,实现了几个简单...

3216

扫码关注云+社区