美国最大点评网站 Yelp 公开内部数据集,面向学生发起多样挑战赛 | 雷锋网

AI 科技评论消息,日前,美国最大的点评网站 Yelp 公开其内部数据集。据官网介绍,这是一个通用数据集,开放这个数据集的主要目的是帮助学习。

这个数据集是 Yelp 涵盖的商户、点评和用户数据的一个子集,可以用于个人、教育和学术。现在可以得到这个数据集的 JSON 和 SQL 文件,利用它来教学生关于数据库的知识,学习 NLP,或在学习制作手机 APP 时作为样本产品数据。

数据集详细信息

数据集包括 470 万条用户评价,15 多万条商户信息,20 万张图片,12 个大都市。此外,还涵盖 110 万用户的 100 万条 tips,超过 120 万条商家属性(如营业时间、是否有停车场、是否可预订和环境等信息),随着时间推移在每家商户签到的总用户数。

如何使用?

用户可以使用 JSON 和 SQL 数据集。

  • JSON

能立刻建立和运行 以单独的文件形式呈现,你可以任意选择 在任何应用上都可以使用

JSON 数据集中的每一个文件都由一个单独的对象类型组成,一行表示一个 JSON 对象。

下面是一个商家签到用户数的实例。

在 GitHub 上还有更多的例子:https://github.com/Yelp/dataset-examples

  • SQL

与大多数关系数据库兼容 填充表具有引用完整性 只有一个文件,容易导入

表格之间的联系和结构如下图所示:

下载地址:https://s3-media2.fl.yelpcdn.com/assets/srv0/engineering_pages/5176da685fac/assets/vendor/yelp_schema.zip

关于数据集的挑战赛

yelp 希望更多的学生利用这些数据,在研究中想出创新性方法,他们也提供了目前感兴趣的一些主题。

一是图片分类。目前他们虽然能识别出图片中类似于汉堡之类的食物,但是如何评价一张图片是否好看还有待研究。

二是自然语言处理和情感分析。用户评价数据里有很多能挖掘的元数据,可以用于推断语义、商户属性和情感。他们想知道评价里表达了什么,是好评还是差评。

三是图像挖掘。比如说挖掘出用户之间的关系是如何限定他们的使用规律,流行趋势的引导者在一家店火起来之前都是去哪儿吃饭的。

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-09-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

为何大部分人都在使用不安全的密码?

相信你总会看到这样的新闻:又有大规模的数据泄露了、又有多少用户的信息被窃取了……随之而来的,是各种安全专家的重复建议:大家该上点心了,是时候换密码了,使用安全强...

2187
来自专栏资深Tester

一个致命的bug--自负

3258
来自专栏程序人生

软件设计杂谈

disclaimer: 本文所讲的设计,非UI/UE的设计,单单指软件代码/功能本身在技术上的设计。UI/UE的主题请出门右转找特赞(Tezign)。:) 在如...

3397
来自专栏做全栈攻城狮

Python开发实战教程(8)-向网页提交获取数据

Python应用现在如火如荼,应用范围很广。因其效率高开发迅速的优势,快速进入编程语言排行榜前几名。本系列文章致力于可以全面系统的介绍Python语言开发知识和...

1923
来自专栏云加头条

【腾讯云】云镜-主机安全防护解决方案

主机安全,其核心内容包括安全应用交付系统、应用监管系统、操作系统安全增强系统和运维安全管控系统。它的具体功能是指保证主机在数据存储和处理的保密性、完整性,可用性...

1K4
来自专栏Sign

boo 制作记录1

这个系列是游戏制作记录。 相当于在『直播做游戏』,这里可以看到一款游戏从零到完成,中间推翻了多少种可能性。 这种记录,之前也做过好几个系列(不过都是不痛不痒的...

2879
来自专栏区块链

2017最易破解密码还是它 怎么才能保护住自己的隐私?

知名网络安全服务机构SplashData19日公布了2017年最不安全密码排行榜,“123456”和“password”蝉联冠亚军。 ? 这份榜单列举了前100...

20410
来自专栏程序人生

代码结构的演进

过年了,各种公众号都在玩拜年,玩红包,甚至在玩喜羊羊,连程序君订阅的一些技术类的公号也不能免俗。作为大年三十还在苦逼上班的程序君,自然不会放过这个绝好的机会写点...

3715
来自专栏腾讯大讲堂的专栏

解密Midas、Webank、金融云背后的核心数据库TDSQL【海量服务之道2.0】

如果,你在寻找一款数据库,希望: •在任何情况下,数据都不丢失或错乱; •能7*24小时不间断的对外提供服务,即使故障也不会中断; •能支撑业务量10倍以上的弹...

3309
来自专栏blackheart的专栏

[解读REST] 2.REST用来干什么的?

衔接上文[解读REST] 1.REST的起源,介绍了REST的诞生背景。每当笔者遇到一个新事物的想去了解的时候,总是会问上自己第一个问题,这个新事物是干什么用的...

2186

扫码关注云+社区

领取腾讯云代金券