开发 | 美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

AI 科技评论消息:日前,美国最大的点评网站Yelp公开其内部数据集。据官网介绍,这是一个通用数据集,开放这个数据集的主要目的是帮助学习。

这个数据集是Yelp涵盖的商户、点评和用户数据的一个子集,可以用于个人、教育和学术。现在可以得到这个数据集的JSONSQL文件,利用它来教学生关于数据库的知识,学习NLP,或在学习制作手机APP时作为样本产品数据。

数据集详细信息

数据集包括470万条用户评价,15多万条商户信息,20万张图片,12个大都市。此外,还涵盖110万用户的100万条tips,超过120万条商家属性(如营业时间、是否有停车场、是否可预订和环境等信息),随着时间推移在每家商户签到的总用户数。

如何使用?

用户可以使用JSON和SQL数据集。

JSON

  • 能立刻建立和运行
  • 以单独的文件形式呈现,你可以任意选择
  • 在任何应用上都可以使用

JSON数据集中的每一个文件都由一个单独的对象类型组成,一行表示一个JSON对象。下面是一个商家签到用户数的实例。

在GitHub上还有更多的例子:

https://github.com/Yelp/dataset-examples

SQL

  • 与大多数关系数据库兼容
  • 填充表具有引用完整性
  • 只有一个文件,容易导入

表格之间的联系和结构如下图所示:

下载地址:

https://s3-media2.fl.yelpcdn.com/assets/srv0/engineering_pages/5176da685fac/assets/vendor/yelp_schema.zip

关于数据集的挑战赛

yelp希望更多的学生利用这些数据,在研究中想出创新性方法,他们也提供了目前感兴趣的一些主题。

一是图片分类。目前他们虽然能识别出图片中类似于汉堡之类的食物,但是如何评价一张图片是否好看还有待研究。

二是自然语言处理和情感分析。用户评价数据里有很多能挖掘的元数据,可以用于推断语义、商户属性和情感。他们想知道评价里表达了什么,是好评还是差评。

三是图像挖掘。比如说挖掘出用户之间的关系是如何限定他们的使用规律,流行趋势的引导者在一家店火起来之前都是去哪儿吃饭的。

via:https://www.yelp.com/dataset

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-09-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏QQ音乐技术团队的专栏

webAudio 开发 H5 版《 八分音符酱 》

本文则尝试使用 JS ,结合 web 端音频处理接口 webAudio ,实现一个H5版本的《不要停!八分音符酱》demo。本人也是第一次写小游戏,文章中出现的...

3541
来自专栏北京马哥教育

干货 | 10 行 Python 代码创建可视化地图

当我开始建造Vincent时, 我的一个目的就是使得地图的建造尽可能合理化. 有一些很棒的python地图库-参见Basemap 和 Kartograph能让地...

3277
来自专栏新智元

【AI系统首次实现真正自主编程】利用遗传算法,完爆初级程序员

【新智元导读】让AI自动编程是人工智能领域长久以来的梦想之一。现在,来自彭博和英特尔实验室的两位研究人员,号称实现了首个能够自动生成完整软件程序的AI系统“AI...

34910
来自专栏灯塔大数据

了解了这四件事,帮你走出深陷的数据分析迷宫

【导读】 数据中的错误往往最初尚属于良性范畴,但随着分析流程推进而变得愈发糟糕。这就像是在解数学题,我们要从头开始再推导一遍。这项工作可能费时费力,但却能够以...

3327
来自专栏C语言及其他语言

[每日一题]演讲大赛评分(1238)

题目描述 最近"老王"很开心.他在大一的时候参加过数计学院的“软件小组”。告诉你个秘密,这个小组是个好地方,不但活动精彩而且有MM。 这不,这个小组举办了一个...

2695
来自专栏顶级程序员

AI系统首次实现真正自主编程:利用遗传算法,完爆初级程序员

让AI自动编程是人工智能领域长久以来的梦想之一。现在,来自彭博和英特尔实验室的两位研究人员,号称实现了首个能够自动生成完整软件程序的AI系统“AI Progr...

3955
来自专栏大数据文摘

用Python也能进军金融领域?这有一份股票交易策略开发指南

1844
来自专栏大数据文摘

人类对随机数的探索:如何才能生成一个均匀的随机数列

1577
来自专栏钱塘大数据

AI系统首次实现自主编程,完爆初级程序员!

作者:THU数据派 让AI自动编程是人工智能领域长久以来的梦想之一。现在,来自彭博和英特尔实验室的两位研究人员,号称实现了首个能够自动生成完整软件程序的AI系...

2809
来自专栏Spark学习技巧

电商系统中的商品模型的分析与设计

前言 在电商系统中,商品模型至关重要,是整个电商的核心,下面通过一个简单的分析,设计一个基础的商品模型。 商品模型的演化 在以前,那时CMS很流行,最常见的模型...

33010

扫描关注云+社区