开发 | 美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

AI 科技评论消息:日前,美国最大的点评网站Yelp公开其内部数据集。据官网介绍,这是一个通用数据集,开放这个数据集的主要目的是帮助学习。

这个数据集是Yelp涵盖的商户、点评和用户数据的一个子集,可以用于个人、教育和学术。现在可以得到这个数据集的JSONSQL文件,利用它来教学生关于数据库的知识,学习NLP,或在学习制作手机APP时作为样本产品数据。

数据集详细信息

数据集包括470万条用户评价,15多万条商户信息,20万张图片,12个大都市。此外,还涵盖110万用户的100万条tips,超过120万条商家属性(如营业时间、是否有停车场、是否可预订和环境等信息),随着时间推移在每家商户签到的总用户数。

如何使用?

用户可以使用JSON和SQL数据集。

JSON

  • 能立刻建立和运行
  • 以单独的文件形式呈现,你可以任意选择
  • 在任何应用上都可以使用

JSON数据集中的每一个文件都由一个单独的对象类型组成,一行表示一个JSON对象。下面是一个商家签到用户数的实例。

在GitHub上还有更多的例子:

https://github.com/Yelp/dataset-examples

SQL

  • 与大多数关系数据库兼容
  • 填充表具有引用完整性
  • 只有一个文件,容易导入

表格之间的联系和结构如下图所示:

下载地址:

https://s3-media2.fl.yelpcdn.com/assets/srv0/engineering_pages/5176da685fac/assets/vendor/yelp_schema.zip

关于数据集的挑战赛

yelp希望更多的学生利用这些数据,在研究中想出创新性方法,他们也提供了目前感兴趣的一些主题。

一是图片分类。目前他们虽然能识别出图片中类似于汉堡之类的食物,但是如何评价一张图片是否好看还有待研究。

二是自然语言处理和情感分析。用户评价数据里有很多能挖掘的元数据,可以用于推断语义、商户属性和情感。他们想知道评价里表达了什么,是好评还是差评。

三是图像挖掘。比如说挖掘出用户之间的关系是如何限定他们的使用规律,流行趋势的引导者在一家店火起来之前都是去哪儿吃饭的。

via:https://www.yelp.com/dataset

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-09-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【学习】大数据相关术语500例解释及中英文对照①

本文由36大数据编辑“陌上花”收集整理,转载必须标明来源36大数据和作者。 一、大数据 英文:big data,mega data 大数据,或称巨量资料,指的是...

3668
来自专栏FreeBuf

Web安全学习:如何自我定位与制定学习计划

一 简介 通过本篇文章,您可以了解一个web安全从业人员所具备的大致知识面,同时我也制定了一个循序渐进的学习计划,用以帮您找准自己的定位,并可以自己制定适合自己...

3478
来自专栏FreeBuf

「闭塞网络」攻击思路总结

如何从不联网的电脑中盗取1KB名叫《新建文本文档》内容为 test 的txt文件?实际上这个是FreeBuf小酒馆里面的某个问题,当然,回答也很喜感….. ?...

2025
来自专栏DT数据侠

一场危险的手机WiFi连接数据“试验”:世界之大,你无所遁形!

人人“机不离手”的这个时代,你能想象下一旦没了WiFi世界会怎样吗?WiFi使用越来越普遍,基于WiFi使用相关的数据研究也多了起来。

640
来自专栏BestSDK

用开源软件写的57行代码,PK掉8600万的商业项目

维多利亚警察局是澳大利亚维多利亚的主要执法机构。去年,发生在维多利亚的盗车数量达到了 1.6 万辆,价值 1700 万美元,因为发生了这些,我们的警察开始忙于测...

3435
来自专栏技术小黑屋

计算机领域的日系书籍

在计算机的设计里,很多经典的书籍多为欧美人所撰写,毕竟他们占据了英语这个优势。这里的主题不是推荐英文书籍,而是推荐几本日系的计算机图书。

613
来自专栏一名叫大蕉的程序员

给大数据入门小伙伴的几个小挑战No.28

我是小蕉。 子曰:视其所以,观其所由,察其所安,人焉廋哉?人焉廋哉? 子曰:不患无位,患所以立;不患莫己知,求为可知也。 ---- 今天突然神来之笔,有小伙伴...

17610
来自专栏吉浦迅科技

如何在Jetson TX2上使用CSI相机

5583
来自专栏about云

大数据术语入门整理

问题导读 我们在学习的过程中经常听到一些术语,那么这些都是什么含义? 1.什么是大数据? 2.什么是数据分析? 3.什么是数据挖掘? 4.什么是数据可视化? 这...

3527
来自专栏VRPinea

骁龙835 VR开发工具包大解析,你要的都在这里!

3326

扫码关注云+社区