AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

作者 | 王豪、卢普

编辑 | Camel

本文来自：CSIG文档图像分析与识别专委会

本文对华中科大、阿里巴巴合作完成的、发表在AAAI 2020的论文《All You Need Is Boundary: Toward Arbitrary-Shaped Text Spotting》进行解读。

论文链接：https://arxiv.org/pdf/1911.09550.pdf

该论文提出了用边界点来表示任意形状文本的方i K ? m g l C d %法，解决了自然场景图像中任意形状文本的端到端识别问题G 4 3 P ! T C X ,。如J B I ( y I +图1所示：

图 1：1 U y k * .文本区域表示的两种方法

现有方d q 7 ` : f U法用外接四边形框来表示文本边界（图1，（a）），通过RoI-Align来提取四边形内的特征（图1，（b）），这样会提取出大量的背景噪声，影响识别网络。a - O H利用边界点来表示任意形状文本有以下优势：

边界点能够描述精准的文本形状，消除背景噪声所带来的影响（图1，（c））；
通过边界点，可以将任意形状的文本矫正为水平文本，有利于识别网络（图1，（d））；
由于边界点的表示方法，识别分支通过反向传播来进一步优化边界点的检测。

一、研究背景

文本检测和识别常作为两个独立的子任务进行研究，但事实上，两者是相互关联并且能相互促进的。

近期的O T C + K , H一些工作开始关注到文本# E y # 2 a S o N端到端识别问题，并取的了显著的进展。面对不规则的文本，这些方法多采用分割的方式对文字区域进行描述。分割的方法常需要复杂的后处理，并且获取的文本框和识别分支j * P a h ^之间并不可( l O T v a a导，识别分支的文本语义信息无法通过反向传播来对文本框进行优化。

同时一些方法使用字符分割的方法进行识别，这使得识别器失去序列建模能力，并且需要额外的字符{ J [ J标注，增加了识别的训练难度以及标注成本。

二、原理简述

虽然边界点的预测理论上可以直接从水平候选框中预测（如图3（d）所示），但是自然场景中的文本呈现各种不同的形状、角度以及仿射变换等，这使得直接从水平候选框中预测边界点变得十分困难，不具有稳定性。Z V @ F y 8 +

因此，我们在文本实例的最小外接四边形上预测边界点，这样可以将不同角度、形状的文本旋转为水平形状，在对齐后的文本实例上预测边界点对于网络更为高效，容易。

具体方法细节如图2所示，

图2# j : { P n $. 总体框架

本文的方法的包含三个部分：多方向矩形f K a N z P E a h包围框检测器(the Oriented Rectangular Box Detector)，边界点检测器(the Boundary Point Detect9 v Q % 6 ( ! Rion Network)，以及识别网络(the4 Z ~ | 4 Reco x h ` W ; `gnitiE ( D K : Con Network)。对于多方向矩形包围框检测器，该文首先使用RPN网络进行候选区提取。a k r o

为了产生多方向的矩形框，在提取出的候选区对目标矩形框的中心偏移量Z { Z q U、宽度、高度和倾斜角度进行回归。获取了矩形包围框后，利用矩形框进行特征提取，并在提取的的候选区中进行文字边界点的回归。得到预测的边界点后，对文本区域的特征进行矫正，并将矫正的特征输入到后续的识别器中。

图3：回归过程图示

对于边界点检测网络，如图h I p3(c)所示，该方法根据默认锚点（设定的参考点）进行回归，这些锚点被均匀的放置在最小矩形包围框的两个长边上，同时从文本实例的每个长边上等距采样K个p % _点作为文字的目标边界点。本文采用预测相对偏移量的方式来获取边界点的坐标，即 [ A H预测一个的向量(个边界点)。对于边界点