电商巨头如何用NLP打响电商争霸战?

大家好,我是为人造的智能操碎了心的智能禅师。

眼看双十一要到,各路电商又要开始开辟激情战场来绝地求生了。所以今天禅师特意找来一篇课程,由被称为“外贸电商平台鼻祖”eBay 的数据科学家李睿分享,NLP 在 eBay 的技术实践。

李睿于 University of California, Riverside 获得模式识别,图像处理博士之后,一直旧金山湾区公司里从事图像,视频,文字分类的研发工作。

顺便提一句,今天 CSDN AI 大会正式开始了。禅师会出现在现场,欢迎大家捕捉。

全文大约1500字。读完可能需要好几首下面这首歌的时间

?

eBay 用到 NLP 的领域

在电商这个领域,我们处理的对象不外乎是卖家提供的商品和买家的需求。商品是由文字描述和图片构成的,而需求则通常是用文字表达的(搜索关键字)。

eBay 每天都有数亿的新商品上架和数亿次的搜索,产生的文字数据是海量的。因此,eBay 对自然语言处理(NLP)的需求是不言而喻的。那么 NLP 都影响到了电商的哪些领域呢?

作为电商企业,搜索功能是其重中之重。这是买家进行购买的最便捷有效的途径。因此我们的搜索引擎也是公司最重要的产品(没有之一)。

文档索引的祖师爷算法称为 TF-IDF。这是 NLP 中一种用于信息检索与文本挖掘的常用加权技术。

传统的网页搜索把它作为网页与用户查询之间相关程度的度量或评级,从而推荐相关的网页和文章。

在电商的应用场景中,我们就会把它作为买家搜索关键字和商品相关程度的度量,从而推荐相关的商品。

NLP 在电商中的的另一个重大应用是机器翻译。eBay 在全世界 30 多个国家都有网站,大多的网站都支持跨境电商。

我们希望在俄国能够让消费者用俄语进行搜索,并且看到我们的商品用俄语描述。美国的网站每天有上亿个新商品上架,如果没有机器翻译,这是完全不可能实现的。

搜索引擎和机器翻译背后有各式各样的其它的 NLP 技术做支撑,比如命名实体识别技术(Name Entity Recognition,缩写为 NER) 和各式文字分类器(Text Classifier)

命名实体识别(NER)

在电商中,命名实体识别有着非常特殊的地位。下面这张图就是一个电商中 NER 的例子:

NER 还能够提高搜索准确度。

分类器

正如前面提到的,搜索引擎和机器翻译是被各式分类器支撑的。下面这张图里介绍了一些电商中用到的典型分类器:

第一种称为产品类别推荐。eBay 在美国的网站上有一万六千个产品门类,一个新的卖家而言他不知道放在哪一个门类下面,如果他放错了,他的东西就被买家找不到

第二种是产品/附件/套装分类器。

第三种分类器:商品类型分类器。

第四种分类器称为评价分类器。

产品/附件/套装分类器详解

我刚才提到的第二种分类器是如何把这个产品分辨出它是产品本身,附件,还是套装。从下面的图中,大家就能够清楚地这个为什么要做这个分类器。

总结

刚才我讲到了命名实体识别,各种基于 NLP 的分类器在 eBay 的实践,希望能起到一个抛砖引玉的作用。

但凡有文字处理需要自动化的地方,都需要用到 NLP 技术,所以掌握了些基本技术,你就可以应用在各行各业里边,解决各种实际问题。

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2018-11-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【黑科技】数据分析师的秘密-QQ聊天记录分析(二)

? 承接上一篇文章,在上一篇中主要对群活跃情况,和成员情况进行了分析,这一篇则主要是对聊天记录做一些浅显的文本分析。 文本挖掘是一个博大精深的领域,我们通常叫...

44980
来自专栏量子位

如何看待和学习人工智能?这是五位哈佛博士生的AMA

问耕 发自 SMB 量子位 出品 | 公众号 QbitAI 最近,五位哈佛的在读博士生集体来到著名社区reddit,展开一场围绕人工智能和认知科学的AMA(As...

33050
来自专栏大数据文摘

只看视频不动手的你可能学了门假课程,李飞飞计算机视觉成名作斯坦福CS231n作业详解重磅来袭!

24370
来自专栏大数据挖掘DT机器学习

数据挖掘这些年,这些算法,这些反思

写这篇文章,缘自于前几天部门内部成员们进行了一次部门内部现有涉及的一些算法的review以及整理。不过比较囧的就是,由于boss不在,我们讨论讨论着就...

32360
来自专栏新智元

【Nature】机器学习实时读取大脑信息,超级计算绘制“思维地图”

【新智元导读】普林斯顿和英特尔合作,开发了一款脑成像分析套件(BrainIAK)的软件工具包,能通过互联网公开提供给任何想要处理fMRI数据的研究人员。他们的最...

371110
来自专栏DT数据侠

爬取了252家酒店的数据后,我发现了热门旅游城市酒店的秘密

外出旅游,酒店一定会占据一大部分开销。哪些酒店的价格是合理的?这个价格配得上它的地理位置么?这个价格和它对应的服务匹配么?数据侠 Johnnie 以纽约的酒店为...

16020
来自专栏大数据文摘

立下新年flag之前 先看看如何用数据督促自己完成年度计划

18570
来自专栏机器人网

国际机器人与自动化大会重点推介的20种创新机器人技术

最近在瑞典斯德哥尔摩召开的“国际机器人与自动化大会”(ICRA)向世人展示了该领域最新的设计和创意理念,从飞行运输、环保检测、工业制造到休闲生活娱乐,形形色色的...

40170
来自专栏喔家ArchiSelf

令人激动的语音UI背后

亚马逊Echo和Echo Dot智能音箱获得了成功,它已经使语音命令(通常称为语音UI或语音UI)出现在了新技术产品中。在每一部智能手机和平板电脑上,大多数新型...

34640
来自专栏大数据文摘

前沿 | 国际可视化盛会PacificVis2017的十个精彩案例

32170

扫码关注云+社区

领取腾讯云代金券