AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

作者 | 王豪、卢普

编辑 | Camel

本文来自:CSIG文档图像分析与识别专委会

本文对华中科大、阿里巴巴合作完成的、发表在AAAI 2020的论文《All You Need Is Boundary: Toward Arbitrary-Shaped Text Spotting》进行解读。

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

论文链接:https://arxiv.org/pdf/1911.09550.pdf

该论文提出了用边界点来表示任意形状文本的方i K ? m g l C d %法,解决了自然场景图像中任意形状文本的端到端识别问题G 4 3 P ! T C X ,。如J B I ( y I +图1所示:

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

图 1:1 U y k * .文本区域表示的两种方法

现有方d q 7 ` : f U法用外接四边形框来表示文本边界(图1,(a)),通过RoI-Align来提取四边形内的特征(图1,(b)),这样会提取出大量的背景噪声,影响识别网络。a - O H利用边界点来表示任意形状文本有以下优势:

  • 边界点能够描述精准的文本形状,消除背景噪声所带来的影响(图1,(c));

  • 通过边界点,可以将任意形状的文本矫正为水平文本,有利于识别网络(图1,(d));

  • 由于边界点的表示方法,识别分支通过反向传播来进一步优化边界点的检测。

一、研究背景

文本检测和识别常作为两个独立的子任务进行研究,但事实上,两者是相互关联并且能相互促进的。

近期的O T C + K , H一些工作开始关注到文本# E y # 2 a S o N端到端识别问题,并取的了显著的进展。面对不规则的文本,这些方法多采用分割的方式对文字区域进行描述。分割的方法常需要复杂的后处理,并且获取的文本框和识别分支j * P a h ^之间并不可( l O T v a a导,识别分支的文本语义信息无法通过反向传播来对文本框进行优化。

同时一些方法使用字符分割的方法进行识别,这使得识别器失去序列建模能力,并且需要额外的字符{ J [ J标注,增加了识别的训练难度以及标注成本。

二、原理简述

虽然边界点的预测理论上可以直接从水平候选框中预测(如图3(d)所示),但是自然场景中的文本呈现各种不同的形状、角度以及仿射变换等,这使得直接从水平候选框中预测边界点变得十分困难,不具有稳定性。Z V @ F y 8 +

因此,我们在文本实例的最小外接四边形上预测边界点,这样可以将不同角度、形状的文本旋转为水平形状,在对齐后的文本实例上预测边界点对于网络更为高效,容易。

具体方法细节如图2所示,

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

图2# j : { P n $. 总体框架

本文的方法的包含三个部分:多方向矩形f K a N z P E a h包围框检测器(the Oriented Rectangular Box Detector),边界点检测器(the Boundary Point Detect9 v Q % 6 ( ! Rion Network),以及识别网络(the4 Z ~ | 4 Reco x h ` W ; `gnitiE ( D K : Con Network)。对于多方向矩形包围框检测器,该文首先使用RPN网络进行候选区提取。a k r o

为了产生多方向的矩形框,在提取出的候选区对目标矩形框的中心偏移量Z { Z q U、宽度、高度和倾斜角度进行回归。获取了矩形包围框后,利用矩形框进行特征提取,并在提取的的候选区中进行文字边界点的回归。得到预测的边界点后,对文本区域的特征进行矫正,并将矫正的特征输入到后续的识别器中。

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

图3:回归过程图示

对于边界点检测网络,如图h I p3(c)所示,该方法根据默认锚点(设定的参考点)进行回归,这些锚点被均匀的放置在最小矩形包围框的两个长边上,同时从文本实例的每个长边上等距采样K个p % _点作为文字的目标边界点。本文采用预测相对偏移量的方式来获取边界点的坐标,即 [ A H预测一个的向量(个边界点)。对于边界点

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

可从预测的偏移量获取,

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

,其中

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

代表定义的描点。对于识别网络,识别器使用矫正的特征预测出字符序列。首先,编码器将矫正的特征编码为特征序列

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

。 然后基于注意力的解码器将F转化为字符序列

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

, 其中T是序列长度。当为第t时,解l Q ( y码器通过隐藏层状态

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

) ] v上一步的结果

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

预测当前步{ 8 S g T f P t的结果。本文的方法采用完全端到端的训练方式,网络的损失函数包含四个部分,

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

, 其中

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

为RPN的损失,

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

为多方向矩形框回归的损失值,

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

为边界点回归的损失值,

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

为识别网y o w络的损失。三、主要实验结` d * D G l z % *果及可视化效果

从表 1来看,

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

表 1:在全部文本上的结果。“ P”,“ R”和“ F”4 ` _分别表示精度,召回率和F量度检测任务。“ E2E”表示端到 v P { z ] M 8端,“ None”表示没有任何词典的识别,“ Full”词典包含测N i . ] j : i ?试集中的所有单词。

文中的方法在曲形数据集上取得了优异的性能,大幅领先先前方法。总结来看,性能的提升主要来源于三点x 5 K

1)Z 0 $ s w i s s 相对于基于分割的方法MaskTextSpotter, 本文的识别器采用基于注意力的解码器,能够捕获字符之间的语义关系,而MaskTextSpotter独立地预测每个字符;l ) H $

2) 相对于其他方法,本文使用边界点对文本区域的特征进行矫正,识别器拥有更好的特征;

3) 得益于更r & ) q 6 % - I好的识别结果,由于检测和识别共享特征,检测的结果受特征影响得到进一步提升。

对于Table 2,

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

表2、ICDAR2015 和 ICDAR2013(DetEval)的结果。“ S”,“ W”和“ G”分别表示使用强,弱和通用词典进行识别。*表示使用MLT2017的训练数据集进行训练。

文中的方法在ICDAR15多方向数据集上取得较好的结果,得益于序列识别器,在只使用通用字典的情况下高于先前的结果。在ICDAR13水平数据集上,本文的方法未使用字符标注,也取得较好L y M E F b _ U的结果。

AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

图4:在Total-Text、ICDAR2015和ICDAR2013上的文本发现结果示例。

图4 展示了一些可视化的结果图。该方法能处理任意形状的文本,并且能很好地处理垂直文本,能够正确获取x a K f 9竖直文本的阅读顺序。

四、总结及j f / 6讨论

本文提出了一个* Y 1以边界点表示任意形状文本的端到端网络,实验证明了此种方法在端到端识别任务上的有效性和优越性。检测任务和识别任务均能从边界点这种表示形式中受益:x v 4 - c ] -

1)由于边界点的表示是可导的,因此识别分支的导数回传会进一步优化检测结果;

2)使用边界点对不规则文本的特征进行矫正能移除背景干扰,可以提升识别性能。

更多AAAI 2020信息,将在「AAAI 2020 交流群」中进行,加群方式:添加AI研习社顶会小助手(AIyanxishe2),备注「AAAIx 3 I g b [ S r」,邀请入群。

上一篇

你还不知道吧!其实这些珠宝腕表品牌都是历峰旗下的

下一篇

疫情期间“拉新”红利显著 知识付费如何保住战果

你也可能喜欢

  • 暂无相关文章!

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

插入图片
返回顶部