庖丁解词:一键分词 自由重组

导语:庖丁解词支持将整块文本拆分为若干语义块,并对其进行自由重组,方便对重组结果进行分享和收藏等操作。

1、创新特性名

庖丁解词:一键分词 自由重组

2、主创团队名

企点移动端团队

3、创意点的产品功能/使用场景介绍(what/where)

移动设备上的文字处理大多依赖软键盘,其文字重组等复杂操作比较笨拙,不如PC上鼠标和键盘操作便捷。庖丁解词解决了移动设备上这一难题,使得移动设备上文字重组操作可以像PC一样便捷。庖丁解词主要将一段文本拆分为具有语义的文字块,用户选取感兴趣的语义块后,可以对语义块进行增加、删除和拖放排序等操作,也可对重组后的文字进行复制、分享和收藏等操作,从而形成文字处理的闭环。

终端使用效果如下:

应用场景一 商务信息处理

在 to B 商务交流中,客户经常需要面对一些重要信息,如专业术语、会议的主题、时间和联系地址等。客户对接收到的信息有再次处理的需求,如筛选专业术语,会议时间地点等,并对处理后的信息进行复制、收藏、分享等操作。

应用场景二 复杂长文本处理

在某些场景下,比如在地铁、公交车、电梯上,用户常常只能腾出一只手使用手机。某公司白领小王是企点用户,在上班途中小王常常收到领导通知,要求他把会议的时间地址发给他。在没有庖丁解词的情况下,小王需要找到之前会议主办方发的密密麻麻一段文字(掺杂了寒暄语句、会议时间地址等),然后全选-->复制--> 粘贴到输入框,并小心翼翼地删除冗余文字,调整词语先后顺序,然后再点击发送,同时祈祷自己没有手误发错信息。有了庖丁解词,小王只需要轻松一点,再复杂的文字都立刻变成文字块,单手选择需要的信息之后一键就可以分享给老板。

4、创新点的创新处具体描述(innovation)

1)一键分词

痛点:在移动设备上,若需要复制或收藏聊天窗口中一部分内容,需经过全选-->复制-->粘贴在输入框中,删除冗余文字等一系列复杂操作。用户一个小小的需求需要如此繁琐的操作来实现,大大降低了用户的使用体验。

创新:用户选中文本后点击分词,文本就像魔法一样被智能拆分,即一键分词功能。

2)自由重组

痛点:移动设备上聊天窗口往往只能对文本进行整块操作,无法对部分文字进行添加、删除或者拖放排序等重组操作。

创新:庖丁解词在一键分词后,为用户提供了添加、删除、拖放排序等功能,使用户随心所欲编辑文本。

3)重组结果使用可定制化

痛点:用户选择自己感兴趣的文字后,可能会将重组后的文字进行复制、收藏、搜索或分享等操作,由于用户使用场景不同,想法也各有不同,固定的操作入口无法满足用户所有需求。

创新:为了更好的满足用户体验需求,庖丁解词允许用户定制控件,即用户可根据自己需求设置控件功能,如分享、复制和收藏等。

4)深度挖掘分词技术

目前,中文分词技术多样且相对成熟,然而分词的准确率是我们关注的重点,尤其是针对商务场景。对比多种分词方案的基础上,最终确定jieba分词,并在此分词基础上做了改进,以更好地适用于商务场景(如时间、地点、专业名词的准确率)。

5、创意产生过程(创新点相关小故事)(why)

腾讯企点是中国领先的SaaS级社会化客户关系管理平台,涉及医疗、教育、行业证券、汽车和航空等多领域,拉近了企业和客户的距离,提高客户满意度。

“与客户交流过程中,经常收到一些消息,只想获取其中感兴趣的内容,然后进行复制、收藏或者直接分享给他人,然而目前可行的解决办法是全文选择—>复制—>粘贴输入框—>删除冗余文字,这一办法操作比较繁琐“,这一呼声在客户中从没有停止过。

坚持“一切以用户体验为归依“的理念,我们企点终端组在提高用户体验的道路上勇往直前。有一天晚饭后,在腾云19楼阳光花园休息,突然听到来自远方的烟花声音,咿,灵感乍现,能否将整块文字像烟花一样炸开呢,于是就孕育出了庖丁解词。

6、怎么实现的(how)

如图1 庖丁解词总体结构所示,庖丁解词主要包含UI和分词引擎两层结构。UI交互主要实现文本块的增、删、顺序调整,以及重组后的复制、分享、收藏等操作。分词引擎是分词的核心部分,输入待分词文本,输出有语义的文字块。其中包含词典管理、分词处理和规则管理三大模块,分词引擎运行于独立进程,分词操作均采用异步处理保证用户体验流畅。字典以离线包的形式存储,用户每次登陆时后台自动更新离线包,省去用户频繁升级App的烦恼。

图1 庖丁解词总体结构

1)分词

图2和图3从多维度比较了几种常用的中文分词,最终采用jieba算法进行分词,由于算法介绍篇幅过长,具体算法介绍可见我的下篇文章。

图2 分词方法的比较

图3 内存和CPU占用

2)重组

仿照Android N 分屏的效果,将手机屏幕划分为上下两部分,即素材区和微调区,拖动中间蓝色分割线可调整上下区域高度。素材区主要显示分词结果,并提供素材点击操作(点击某素材,此素材将在微调区显示);微调区用以语义块的重组操作,提供删除、光标处插入、拖放等操作。具体交互如图 4、图 5和图 6所示。

图 4 素材选择

图 5 光标处插入素材

图 6 拖放重新排序

3)重组结果的操作可定制化

对于重组后的文本,目前主要提供了复制、分享和收藏等功能,由于用户需求多样,这里对外提供接口,用户可定制搜索等其他功能入口。

7、产品的意义对未来的展望(for future)

庖丁解词为移动端文字操作提供了新思路,庖丁解词就像PC上的鼠标和键盘组合便于用户随心所欲操作文本,解决了现有冗余的文本操作,尤其是处理复杂文本。

企点对庖丁解词进行了数据埋点,后期将在参考用户反馈的基础上,专注分词的准确性、分词性能和优化用户体验。接下来会将庖丁解词抽离出组件,此组件不仅可以在企点上使用,还可以集成到腾讯其他需要进行文本操作的应用中,比如QQ和微信等。

目前,IOS和Android 没有使用相同的分词算法。我们企点终端组推出了移动端全文搜索组件(QDFts) ,其自定义了jieba分词算法(C++版本,进行了分词性能优化)。后期庖丁解词将引用QDFts中分词技术,从而实现两端分词效果统一。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

机器学习笔记

2 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏BestSDK

未来APP产品开发的方向

未来的移动App开发不仅仅是让它适应一方小小的屏幕,采用不同的编程语言,基于不同的操作系统。那它是怎样的呢?现在我想我们应该把注意力转向建立现代化的App了。 ...

2827
来自专栏知晓程序

开发 | 什么?他用 2 小时做出了一个「简版大众点评」小程序

有人曾说:「人生至少有两次冲动,一次为了奋不顾生的爱情,还有一次就是为了说走就走的旅行」。

1314
来自专栏QQ会员技术团队的专栏

小兴逛Google I/O 2017(day1实况)

陈志兴,Google I/O 2017大会的小时光茶社特派员 ,腾讯SNG增值产品部内容中心Android组leader,主要负责手Q个性化业务、手Q WebV...

2335
来自专栏知晓程序

鹅厂美女工程师来告诉你,小程序码是如何「绽放」的 | 晓组织 #20

腾讯 CDC 全称为「用户研究与体验设计中心」,是腾讯公司级设计团队,致力于提升腾讯产品的用户体验,探索互联网生态体验创新。

1512
来自专栏葡萄城控件技术团队

Word类报表实例 - 质量检测报告

质量检测报告或称为检验报告为商家或机构提供正规、专业、快捷的质量检测服务如各省市国家质检机构,行业权威性有资质认定的检测的机构等。希望能够通过质验报告能全面、客...

1463
来自专栏CDA数据分析师

【零一】#操作教程#从0开始,教你如何做数据分析#初阶#第一篇

大家好,我是零一,今天给大家带来基础教程。我的公众微信号是start_data,欢迎大家关注。 本文适合以下情况的读者: 1丶淘宝店铺运营或者店长,目前还不会做...

2416
来自专栏黑白安全

哥伦比亚大学研究人员创建隐藏嵌入文本信息新方法

哥伦比亚工程计算机科学家发明了一种新的方法 FontCode,可以在不干扰文字的情况下将隐藏信息嵌入文本中。FontCode 创建使用字体扰动来编码信息,之后可...

1054
来自专栏大数据文摘

可视化:覆盖全球的网络攻击如何展现?

2156

D3可视化:让您的仪表板更上一层楼

无论您的公司在哪个行业运营都可能产生大量数据。从销售到人员再到库存,若企业能够正确解释并转化为可行建议,企业将创造出非常有价值的信息。商业智能与分析以此想法为中...

3671
来自专栏阮一峰的网络日志

网站的肥胖症危机

最近,有一篇文章正在疯传。 它是上个月,Maciej Ceglowski在澳大利亚的一次演讲,名为《网站的肥胖症危机》(文本,视频),反思了互联网开发的现状。 ...

3664

扫码关注云+社区

领取腾讯云代金券