传统的方法将文字检测和文字识别分为两个分开的部分,即输入一张图,先进行文字检测,检测出文字的位置,再进行文字识别,即对检测出的文字抠出来并送入识别网络。...端到端训练文字检测和识别可以使得这两个任务都能得到提高,使得梯度能从这两个分支分别回传到主干网络,能使得定位更加精准并减少错误样本的检测。...水平文字检测只需要检测出文字的左上角和右下角,即4个变量[x1,y1,x2,y2]
倾斜文字一般有两种方法,1是用4个点表示,即8个变量,[x1,y1,x2,y2,x3,y3,x4,y4],2是用水平矩形...+旋转角度表示,需要5个变量,[x1,y1,x2,y2,theta]
而弯曲文字往往需要用更多的点才能精准描述。...作者对比Textboxes+CRNN这种水平box检测识别的效果,这种方法在弯曲文本上优越性的确更强。