前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文本校对工具在线公测

文本校对工具在线公测

作者头像
代码医生工作室
发布2022-03-07 17:17:18
1.7K0
发布2022-03-07 17:17:18
举报
文章被收录于专栏:相约机器人相约机器人

很高兴,今天能正式把我们的有一个重量级产品推出来。它是一个基于AI模型开发的文本校对工具,可以识别出文字中的丢字、漏字、冗余、乱序等问题。对于文字出错零容忍的场景下,非常有帮助。

操作界面

识别结果

该产品在2019年初开始立项,2020年下半年小有成果,2020年底开始正式使用。它一直在为我们的图书保驾护航。如今,我们把它封装成独立的线上产品。分享出去。欢迎大家使用,多提宝贵意见!

如果还想听听它背后的故事,请往下看:

产品动机

自从工作室成立以来,我们一直保持着每年至少一本图书的出版进度。在写书的过程中,我们也在不断的反思、优化,整个制作过程和编写思路。这一切的目的都是为了在提升工作效率的同时最大化的提升用户体验。

还记得第一本书出版时,勘误不断。更新了4,5版勘误,每一版都会新发现10多个错误。而后在出第二本书时,在文字校对方面下了更大的力度,收获的结果确实会比第一本好很多。然而,这种劳动密集型工作绝对不是上上之选。于是我们开发了一个文本校对工具。

该工具作用明显,每次在处理即将印刷的书稿时,都会立下汗马功劳。这使得我们后续的书籍里勘误量大大降低。同时也深得合作编辑的好评。

产品的开发过程

原始的立项版本应该是在2019年初,当时我们是由样本的加工入手,对以往的书稿进行规整。当时的架构是由我来设计,江同学开发实现的。当时的项目名称为:test001word。主要以word文档结构化提取为主,抽取不同粒度的样本。用于训练。

后来基于该样本我们训练了一套模型。大概在2019年下旬,完成了第一个模型。但效果不是很好。同时江同学由于个人原因,短期内的投入时间有限,该项目进入了缓慢发展期。

在这个缓慢发展期间,我的工作主要是针对效果不好的问题,提出各种解决的思路和可行性验证,这个期间的主要开发任务也一点点落在了我的肩上,期间我们尝试过4种以上的模型方案,每一种都经过数十次的调优和修改。在这个过程中,江同学和许同学分担了不少工作量,也非常的感谢他们。

直到2020年,终于可以迎来一个阶段性进展。没想到当时高兴的发了一条朋友圈,居然成为一个可回溯的证据。

起初只是一个代码模块,需要编写调用代码才能运行。在 后面的工作中,便开始了漫长的产品化过程。

任何成果一旦产品化,涉及的工作量都是巨大的。不仅要考虑上下游数据流的业务,还要考虑模型的性能。于是,后续的工作中,主要是设计用户使用流程、开发业务代码、调优模型性能、提升模型精度这几方面工作。期间,沈同学、丁同学也陆续加入进来,他们与我和许同学一起完成了这部分的工作。这段时间应该是比较无聊,翻了翻朋友圈,当时只发了一条。

开发势头正猛的我们在2021年年初,终于把全部的基础工作搞定了。当时就等着配合即将出版的图书一起发布产品了。

然而,世事难料,由于我的个人原因,不得不放下眼前的工作。作为这个项目的核心,我的停滞意味着整个项目的停滞!于是,整个项目也不得不再次停滞下来。

人到中年应该是背负社会责任最多的阶段,上有老,下有小,好多事情都是身不由己。创业者的艰辛,只能去体会,无法去描述。

所有的事情只是暂停,没有终止。如今,2022年到了,我们接着前行,将这款产品发布出去。希望它可以慢慢长大,不辜负团队中每个人的努力。

这只是个demo,它使用的是通版语料进行训练。如果使用专用语料训练,在专用场景下使用,误报率和准确率会更高。

另外,我们只用了一个普通的低配服务器,速度不是很快。未来在软件架构和硬件配置上,会持续投入,进行升级。速度不快的问题,未来一定会解决的。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-02-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档