前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >庖丁解词:一键分词 自由重组

庖丁解词:一键分词 自由重组

原创
作者头像
闪闪动听
修改2018-07-23 09:45:17
1.1K1
修改2018-07-23 09:45:17
举报
文章被收录于专栏:机器学习笔记机器学习笔记

导语:庖丁解词支持将整块文本拆分为若干语义块,并对其进行自由重组,方便对重组结果进行分享和收藏等操作。

1、创新特性名

庖丁解词:一键分词 自由重组

2、主创团队名

企点移动端团队

3、创意点的产品功能/使用场景介绍(what/where)

移动设备上的文字处理大多依赖软键盘,其文字重组等复杂操作比较笨拙,不如PC上鼠标和键盘操作便捷。庖丁解词解决了移动设备上这一难题,使得移动设备上文字重组操作可以像PC一样便捷。庖丁解词主要将一段文本拆分为具有语义的文字块,用户选取感兴趣的语义块后,可以对语义块进行增加、删除和拖放排序等操作,也可对重组后的文字进行复制、分享和收藏等操作,从而形成文字处理的闭环。

终端使用效果如下:

应用场景一 商务信息处理

在 to B 商务交流中,客户经常需要面对一些重要信息,如专业术语、会议的主题、时间和联系地址等。客户对接收到的信息有再次处理的需求,如筛选专业术语,会议时间地点等,并对处理后的信息进行复制、收藏、分享等操作。

应用场景二 复杂长文本处理

在某些场景下,比如在地铁、公交车、电梯上,用户常常只能腾出一只手使用手机。某公司白领小王是企点用户,在上班途中小王常常收到领导通知,要求他把会议的时间地址发给他。在没有庖丁解词的情况下,小王需要找到之前会议主办方发的密密麻麻一段文字(掺杂了寒暄语句、会议时间地址等),然后全选-->复制--> 粘贴到输入框,并小心翼翼地删除冗余文字,调整词语先后顺序,然后再点击发送,同时祈祷自己没有手误发错信息。有了庖丁解词,小王只需要轻松一点,再复杂的文字都立刻变成文字块,单手选择需要的信息之后一键就可以分享给老板。

4、创新点的创新处具体描述(innovation)

1)一键分词

痛点:在移动设备上,若需要复制或收藏聊天窗口中一部分内容,需经过全选-->复制-->粘贴在输入框中,删除冗余文字等一系列复杂操作。用户一个小小的需求需要如此繁琐的操作来实现,大大降低了用户的使用体验。

创新:用户选中文本后点击分词,文本就像魔法一样被智能拆分,即一键分词功能。

2)自由重组

痛点:移动设备上聊天窗口往往只能对文本进行整块操作,无法对部分文字进行添加、删除或者拖放排序等重组操作。

创新:庖丁解词在一键分词后,为用户提供了添加、删除、拖放排序等功能,使用户随心所欲编辑文本。

3)重组结果使用可定制化

痛点:用户选择自己感兴趣的文字后,可能会将重组后的文字进行复制、收藏、搜索或分享等操作,由于用户使用场景不同,想法也各有不同,固定的操作入口无法满足用户所有需求。

创新:为了更好的满足用户体验需求,庖丁解词允许用户定制控件,即用户可根据自己需求设置控件功能,如分享、复制和收藏等。

4)深度挖掘分词技术

目前,中文分词技术多样且相对成熟,然而分词的准确率是我们关注的重点,尤其是针对商务场景。对比多种分词方案的基础上,最终确定jieba分词,并在此分词基础上做了改进,以更好地适用于商务场景(如时间、地点、专业名词的准确率)。

5、创意产生过程(创新点相关小故事)(why)

腾讯企点是中国领先的SaaS级社会化客户关系管理平台,涉及医疗、教育、行业证券、汽车和航空等多领域,拉近了企业和客户的距离,提高客户满意度。

“与客户交流过程中,经常收到一些消息,只想获取其中感兴趣的内容,然后进行复制、收藏或者直接分享给他人,然而目前可行的解决办法是全文选择—>复制—>粘贴输入框—>删除冗余文字,这一办法操作比较繁琐“,这一呼声在客户中从没有停止过。

坚持“一切以用户体验为归依“的理念,我们企点终端组在提高用户体验的道路上勇往直前。有一天晚饭后,在腾云19楼阳光花园休息,突然听到来自远方的烟花声音,咿,灵感乍现,能否将整块文字像烟花一样炸开呢,于是就孕育出了庖丁解词。

6、怎么实现的(how)

如图1 庖丁解词总体结构所示,庖丁解词主要包含UI和分词引擎两层结构。UI交互主要实现文本块的增、删、顺序调整,以及重组后的复制、分享、收藏等操作。分词引擎是分词的核心部分,输入待分词文本,输出有语义的文字块。其中包含词典管理、分词处理和规则管理三大模块,分词引擎运行于独立进程,分词操作均采用异步处理保证用户体验流畅。字典以离线包的形式存储,用户每次登陆时后台自动更新离线包,省去用户频繁升级App的烦恼。

图1  庖丁解词总体结构
图1 庖丁解词总体结构

1)分词

图2和图3从多维度比较了几种常用的中文分词,最终采用jieba算法进行分词,由于算法介绍篇幅过长,具体算法介绍可见我的下篇文章。

图2 分词方法的比较
图2 分词方法的比较

图3 内存和CPU占用
图3 内存和CPU占用

2)重组

仿照Android N 分屏的效果,将手机屏幕划分为上下两部分,即素材区和微调区,拖动中间蓝色分割线可调整上下区域高度。素材区主要显示分词结果,并提供素材点击操作(点击某素材,此素材将在微调区显示);微调区用以语义块的重组操作,提供删除、光标处插入、拖放等操作。具体交互如图 4、图 5和图 6所示。

图 4 素材选择
图 4 素材选择

图 5 光标处插入素材
图 5 光标处插入素材

图 6 拖放重新排序
图 6 拖放重新排序

3)重组结果的操作可定制化

对于重组后的文本,目前主要提供了复制、分享和收藏等功能,由于用户需求多样,这里对外提供接口,用户可定制搜索等其他功能入口。

7、产品的意义对未来的展望(for future)

庖丁解词为移动端文字操作提供了新思路,庖丁解词就像PC上的鼠标和键盘组合便于用户随心所欲操作文本,解决了现有冗余的文本操作,尤其是处理复杂文本。

企点对庖丁解词进行了数据埋点,后期将在参考用户反馈的基础上,专注分词的准确性、分词性能和优化用户体验。接下来会将庖丁解词抽离出组件,此组件不仅可以在企点上使用,还可以集成到腾讯其他需要进行文本操作的应用中,比如QQ和微信等。

目前,IOS和Android 没有使用相同的分词算法。我们企点终端组推出了移动端全文搜索组件(QDFts) ,其自定义了jieba分词算法(C++版本,进行了分词性能优化)。后期庖丁解词将引用QDFts中分词技术,从而实现两端分词效果统一。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯企点
腾讯企点以即时通讯、音视频、人工智能、大数据、云呼叫中心等科技为基础,结合微信、QQ 社交通路,提供从营销孵化、销售转化、交易协同到客户服务的全场景企业级 SaaS 服务,提升企业获客、待客、留客的效率,实现企业数字化智慧经营的全面升级。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档