专栏首页AI研习社美国最大点评网站 Yelp 公开内部数据集,面向学生发起多样挑战赛 | 雷锋网

美国最大点评网站 Yelp 公开内部数据集,面向学生发起多样挑战赛 | 雷锋网

AI 科技评论消息,日前,美国最大的点评网站 Yelp 公开其内部数据集。据官网介绍,这是一个通用数据集,开放这个数据集的主要目的是帮助学习。

这个数据集是 Yelp 涵盖的商户、点评和用户数据的一个子集,可以用于个人、教育和学术。现在可以得到这个数据集的 JSON 和 SQL 文件,利用它来教学生关于数据库的知识,学习 NLP,或在学习制作手机 APP 时作为样本产品数据。

数据集详细信息

数据集包括 470 万条用户评价,15 多万条商户信息,20 万张图片,12 个大都市。此外,还涵盖 110 万用户的 100 万条 tips,超过 120 万条商家属性(如营业时间、是否有停车场、是否可预订和环境等信息),随着时间推移在每家商户签到的总用户数。

如何使用?

用户可以使用 JSON 和 SQL 数据集。

  • JSON

能立刻建立和运行 以单独的文件形式呈现,你可以任意选择 在任何应用上都可以使用

JSON 数据集中的每一个文件都由一个单独的对象类型组成,一行表示一个 JSON 对象。

下面是一个商家签到用户数的实例。

在 GitHub 上还有更多的例子:https://github.com/Yelp/dataset-examples

  • SQL

与大多数关系数据库兼容 填充表具有引用完整性 只有一个文件,容易导入

表格之间的联系和结构如下图所示:

下载地址:https://s3-media2.fl.yelpcdn.com/assets/srv0/engineering_pages/5176da685fac/assets/vendor/yelp_schema.zip

关于数据集的挑战赛

yelp 希望更多的学生利用这些数据,在研究中想出创新性方法,他们也提供了目前感兴趣的一些主题。

一是图片分类。目前他们虽然能识别出图片中类似于汉堡之类的食物,但是如何评价一张图片是否好看还有待研究。

二是自然语言处理和情感分析。用户评价数据里有很多能挖掘的元数据,可以用于推断语义、商户属性和情感。他们想知道评价里表达了什么,是好评还是差评。

三是图像挖掘。比如说挖掘出用户之间的关系是如何限定他们的使用规律,流行趋势的引导者在一家店火起来之前都是去哪儿吃饭的。

本文分享自微信公众号 - AI研习社(okweiwu),作者:www.leiphone.com

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-09-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 用小数据集进行原型设计结果的小技巧

    本文作者是 Kanda 的机器学习工程师 Daniel Rothmann,他对一切具有变革性的事物都感兴趣,这里是他在和客户合作的过程中总结出的小数据处理方法。...

    AI研习社
  • 亚马逊数据专家十年经验总结:成为数据科学家的关键四步

    编者按:本文作者 Karolis Urbonas,文章选自他个人博客。AI 研习社编译。 对于数据科学家这一职业,你了解多少? ——这是个被大公司追捧的职位,供...

    AI研习社
  • 9102年了,你还不知道怎么做数据科学家吗?

    AI 科技评论按:本文作者 Thomas Nield,是美国西南航空公司的商务顾问,著有《Getting Started with SQL (O'Reilly)...

    AI研习社
  • 开发 | 美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

    AI 科技评论消息:日前,美国最大的点评网站Yelp公开其内部数据集。据官网介绍,这是一个通用数据集,开放这个数据集的主要目的是帮助学习。 ? 这个数据集是Ye...

    AI科技评论
  • 如何打造高性能大数据分析平台

    原文:Building High Performance Big Data Analytics Systems 译者:袁璞,圣特尔•E店宝大数据架构师,关注高性...

    CSDN技术头条
  • 数据分析师,如何打造人见人爱的数据产品

    上一篇《数据分析师的绩效,该如何考核?》引发同学们很大反响。很多同学表示:我明明做了BI,可为啥体现不了业绩,甚至平时看报表的人都不多。搞得领导天天质疑:我们的...

    接地气的陈老师
  • 如何打造高性能大数据分析平台

    译者:袁璞,圣特尔•E店宝大数据架构师,关注高性能或可用架构、大数据技术、机器学习。

    华章科技
  • 数据科学中的强大思维

    如果你参加过统计学入门课程,就会知道数据点可以用来激发灵感,也可以用来测试理论,但两者却不能兼顾,这是为什么呢?

    AI科技评论
  • 如何打造高性能大数据分析平台

    大数据分析系统作为一个关键性的系统在各个公司迅速崛起,但是这种海量规模的数据带来了前所未有的性能挑战。同时,如果大数据分析系统无法在第一时间为运营决策提供关键数...

    华章科技
  • 【译文】如何打造高性能大数据分析平台

    大数据是最近IT界最常用的术语之一。然而对大数据的定义也不尽相同,所有已知的论点例如结构化的和非结构化、大规模的数据等等都不够完整。大数据系统通常被认为具有数据...

    华章科技

扫码关注云+社区

领取腾讯云代金券