前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >美国最大点评网站 Yelp 公开内部数据集,面向学生发起多样挑战赛 | 雷锋网

美国最大点评网站 Yelp 公开内部数据集,面向学生发起多样挑战赛 | 雷锋网

作者头像
AI研习社
发布2018-03-19 15:11:56
2.4K0
发布2018-03-19 15:11:56
举报
文章被收录于专栏:AI研习社AI研习社

AI 科技评论消息,日前,美国最大的点评网站 Yelp 公开其内部数据集。据官网介绍,这是一个通用数据集,开放这个数据集的主要目的是帮助学习。

这个数据集是 Yelp 涵盖的商户、点评和用户数据的一个子集,可以用于个人、教育和学术。现在可以得到这个数据集的 JSON 和 SQL 文件,利用它来教学生关于数据库的知识,学习 NLP,或在学习制作手机 APP 时作为样本产品数据。

数据集详细信息

数据集包括 470 万条用户评价,15 多万条商户信息,20 万张图片,12 个大都市。此外,还涵盖 110 万用户的 100 万条 tips,超过 120 万条商家属性(如营业时间、是否有停车场、是否可预订和环境等信息),随着时间推移在每家商户签到的总用户数。

如何使用?

用户可以使用 JSON 和 SQL 数据集。

  • JSON

能立刻建立和运行 以单独的文件形式呈现,你可以任意选择 在任何应用上都可以使用

JSON 数据集中的每一个文件都由一个单独的对象类型组成,一行表示一个 JSON 对象。

下面是一个商家签到用户数的实例。

在 GitHub 上还有更多的例子:https://github.com/Yelp/dataset-examples

  • SQL

与大多数关系数据库兼容 填充表具有引用完整性 只有一个文件,容易导入

表格之间的联系和结构如下图所示:

下载地址:https://s3-media2.fl.yelpcdn.com/assets/srv0/engineering_pages/5176da685fac/assets/vendor/yelp_schema.zip

关于数据集的挑战赛

yelp 希望更多的学生利用这些数据,在研究中想出创新性方法,他们也提供了目前感兴趣的一些主题。

一是图片分类。目前他们虽然能识别出图片中类似于汉堡之类的食物,但是如何评价一张图片是否好看还有待研究。

二是自然语言处理和情感分析。用户评价数据里有很多能挖掘的元数据,可以用于推断语义、商户属性和情感。他们想知道评价里表达了什么,是好评还是差评。

三是图像挖掘。比如说挖掘出用户之间的关系是如何限定他们的使用规律,流行趋势的引导者在一家店火起来之前都是去哪儿吃饭的。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-09-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档