前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PKUseg在货运领域的评测

PKUseg在货运领域的评测

作者头像
sladesal
发布2019-02-22 15:27:13
4620
发布2019-02-22 15:27:13
举报
文章被收录于专栏:机器学习之旅机器学习之旅

先说结论,再和大家闲聊,对比jieba与PKUseg在公路货运切词能力上:

  • 默认模型下,jieba效果优于PKUseg
  • PKUseg提供场景精细化的预训练(还没有提供入口),长远来讲适合专业领域使用
  • PKUseg在特定的场景下有令人惊喜的效果(地址切分)

给大家的建议就是,如果大家赶时间求稳定适应范围需要非常广的时候,目前来说jieba是非常好的选择,如果说在面临一些精细化领域的特殊需求的时候,可以用PKUseg进行一波尝试,有意外惊喜。


那是一个风和日丽的早上,突然群里老大发出一条消息:

我感觉我的心脏有一丝隐隐作痛的感觉,人在办公室坐,活从天上来,虽然身后站着一堆催上线的产品,我还是屈服于老大的正义(淫威),简单测评了新出来的PKUseg与Jieba在公路货运/运输行业上的效果对比。

在我们的热词数据库中已经有人工切词完成的2万多条货运的词条:

代码语言:javascript
复制
description standard
高博集团装货卸宝华   高博 集团 装货 卸 宝华
北安到吉林农安饲料90吨每吨105   北安 到 吉林 农安 饲料 90吨 每吨 105
需要4个车   需要 4个 车
叶张公路装香闵路曲吴路两卸   叶张公路 装 香闵路 曲吴路 两卸
从福通物流到吴滩镇   从 福通 物流 到 吴滩镇
霞浦宏霞路到中通物流  霞浦宏霞路 到 中通物流
石大路3场到德兴西门山 石大路 3场 到 德兴 西门山
公园西路装   公园 西路 装
不押车每吨150    不 押车 每吨 150
速订价钱好商量 速订 价钱 好商量
慈溪胜山装   慈溪 胜山装
好装好卸高价急走    好装好卸 高价急走
九顶山路与东方大道位置装货可以配货   九顶 山路 与 东方 大道 位置 装货 可以 配货
要二部 要 二部
青浦工业园区久远路提货到奉贤新杨公路进仓    青浦 工业园区 久远路 提货 到 奉贤 新杨公路 进仓
园光路装博学南路卸   园光路 装 博学南路 卸
公兴装卸荣昌广顺    公兴 装卸 荣昌 广顺
打备注电话18458331112    打 备注 电话 18458331112
...

首先看,不加任何词库,预训练下的,最后的效果对比:

结果

切词准确率

jieBa

79.5%

pkuSeg

59.79%

可以看到,在默认的分词模型下,jieBa分词还是拥有绝对优势的,但是在pkuSeg的git里面

所以我想看看能不能进行一下预训练下后再对比一下,可惜的是我在git(git地址传送门)上找了半天也没有找到预训练的入口,只有已经被官方预训练好的词库

等有时间了,可以邮件沟通一下再补充这个部分的效果对比,我觉得,应该还是有提升的。

但是,在我们实际去测的过程中,我们发现了一些差异话的东西比较有意思。我们其实现在在做一个语音发货的产品,涉及到把一串地址切分开的需求:

其中涉及到地址切分的时候,jieba的能力会比如PKUseg要弱不少,比如“山西大同”,“上海浦东”,我们需要把一级二级地址切开的时候,PKUseg可以做到,而jieba并不能按照需求切块。所以,我们已经打算在地址模块切换PKUseg的模型来适应了。

最后吐槽一下,虽然我知道PKUseg需要加载模型,但是一加载就是一二十秒也是有点夸张了。酒浆,各位下回见。

欢迎大家关注我的个人bolg知乎,更多代码内容欢迎follow我的个人Github,如果有任何算法、代码、转行疑问都欢迎通过公众号发消息给我。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.01.14 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档