分享实录
满足业务是第一需要,不同于大厂,对外服务API,要求大并发那么强,多样性品类完备,我们更强调单品要做到尽量达到业务要求,更强调定制化,可以分布走,业务上可以给反馈不断改进。
大家一定要自己弄细节,读代码、甚至自己动手撸,自己训练,调参,排错,才能有真正的体会和理解,只讲我认为每个算法里面不太好理解,重点,以及容易忽略的点,跟同行一起交流,沟通。
一个模型,要全面深入了解,需要:
CTPN:找框的一个算法。
预测最终结果是:10个anchor的y坐标偏移,和高度的调整值,还有它是不是前景的概率。输出是前后景概率N,10,2,y、w调整值N,10,2。它只适合横向,或者纵向,不能同时。
PSENet是一种新的实例分割网络,它有两方面的优势。首先,psenet作为一种基于分割的方法,能够对任意形状的文本进行定位.其次,该模型提出了一种渐进的尺度扩展算法,该算法可以成功地识别相邻文本实例。
网络输出
label制作
非常经典的算法,主要的核心是CTC算法:Connectionist Temporal Classification (CTC)适合那种不知道输入输出是否对齐的情况使用的算法,所以CTC适合语音识别和手写字符识别的任务。
缺点:不能精确地联系特征向量与输入图像中对应的目标区域,这种现象称为attention drift。
Muturaltraining:
#####大方向判断
第一版:
第二版:
微调
过程中需要对greedy算法进行改进:
=>beam_search/merge_repeated=True
单独测是有问题,但是在置信度很高的情况下,两者差距很小,但是得到了极大的速度改进,28秒=>10秒,batch=128,size是512x32
1、 开发经验
2、生产经验
Tensorflow容器
服务容器:
本文作者:宜信技术学院 刘创
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。