07年PAMI(一)


纹理特征和异体字特征的文本无关书写人识别与鉴定

1.摘要

  • 使用从笔迹图像中提取的概率分布函数(PDF)来表征笔迹的特征,使用纹理特征和字符形状(异体字),

  • 纹理上:使用基于轮廓的联合方向概率密度对方向和曲率信息进行编码,以提供特征。

  • 异体字:作者认为书写人书写笔迹时,是一个基元产生器,给定笔迹中这些特定形状的概率密度函数就是书写人的特征,并通过grapheme clustering一种聚类方法,来获得基础码本。

  • 结合多种功能(方向directional,grapheme字母形状?,游程概率密度)可以提高书写人识别和验证的性能。

  • 所提出的方法适用于自由笔迹(有弧度的和独立的笔迹)

  • 在使用少量文本时,可以获得可靠的概率预测

2.关键词

  • 笔迹分析
  • 书写人鉴定与识别
  • 生物特征行为
  • 联合方向概率分布
  • 字符发射概率分布

3.引言

  • 我们的方法是使用从900名书写人采集的笔迹样本数据集进行实验评估的。

  • 我们的方法有两个显著特点:

    • 书写人的鉴别过程中尽量。
    • 使用独立于笔迹样本的文本内容特征来对个人笔迹风格进行编码。
    • 书写人的特点是使用从笔迹文本块中提取的概率分布函数。
    • 计算机完全不知道样本中写了什么。
  • 书写人识别起源于更古老、更广泛的自动笔迹识别领域。

  • 对于自动笔迹识别,寻找一种能够消除不同手写体之间的差异的不变的一种表示发放,以便于可靠的对字符和单词的形状进行分类。

  • 书写人识别,还需要对这些变化的部分进行特定的增强以便确认是书写人。

  • 笔迹识别和书写人识别代表了笔迹分析的两个对立面 。

  • 笔迹识别,是为了找出某种特征,是每个人的字迹都可以用这个特征的大小来衡量。

  • 书写人识别,是为了找出某种特征来区分不同人之间的差异。本质上这两个差不多。

  • 在大型数据库中,执行一对多的寻找,已知书写人,返回可能的候选人列表。

  • 第二章综述了 离线书写人识别和鉴定的最新研究工作。

  • 第三章描述了实验的数据集。

  • 第四章、第五章分别描述了提取纹理特征和异体字形状的算法。

  • 第六章说明了用于特征匹配和特征融合技术的距离。

  • 第七章给出了实验结果。

  • 第八章进行讨论。

  • 第九章得出结论。

4.第二章,该领域的最新研究

  • 参考文献10对1989年前的自动书写人鉴别的研究工作进行了全面的回顾,现在,我们将调查最近几年中所提出的方法

  • 书写人识别与验证分为两大方法

    • 文本相关:文本相关方法与签名验证技术十分相似,使用单个字符或已知语义内容的单词块之间进行比较。需要先对相关信息进行定位和分割,通常需要人来交互执行。
    • 文本无关:从文本块的整个图像中提取统计特征,使用最少的笔迹从样本文本内容中获得不敏感的稳定特征。优点是把人为干预的可能性降到最低
  • Said提出了一种文本无关方法,使用多通道滤波Gabor滤波共生灰度矩阵表示特定书写人的纹理特征。该方法需要修正偏移的字来生成统一的文字块,设置文本行/单词和文本兼具之间的预定义距离。

    • 数据集与方法:每个集合20个书写人,每个书写人写了25个样本用于评估。使用了加权欧式距离和Gabor特征的最近质心分类实现了96%的笔迹识别准确率。相同的方法也被用作与机器打印的笔迹文档和字体的识别。
  • Zois和An使用单个单词进行书写人识别和验证。

    • 数据集与方法:数据集包括50位书写人,每个书写人用英语和希腊语写了45遍characteristic这个词,在对图像进行阈值化处理和曲线细化后,对水平轮廓投影重新取样,分割成10段,并在两个尺度上使用形态学算子进行处理,得到20维向量,使用贝叶斯分类器或者多层感知器进行分类。希腊语和英语的准确率都在95%左右。
  • Srihari提出了大量特征,将其分为两类,宏观特征和微观特征。

    • 宏观特征在文档、段落和文字级别:灰度熵和阈值、墨水像素数、内部/外部轮廓数、四个方向的坡度分量、平均高度/斜度、段落纵横比和缩进、字长和上下区域比例
    • 微观特征应用在文字和字符级别:渐变、结构和凹度(GSC)属性,最初使用手写数字识别。文本相关的统计评估是包含1000名书写人的数据集,这些书写人将156个单词的固定文本复制了三次。
    • 在识别的测试中,微观特征优于宏观特征,超过80%。多层感知器和参数分布用于笔迹鉴定,准确率为96%。
  • Bensefia使用笔迹分割方法对生成的笔迹的特征进行编码,不依赖于文本内容,文本无关。

    • Grapheme聚类用于定义数据集中所有文档的公共特征空间。数据集有三个,88位书写人、39位书写人(历史文献)和每个书写人有两个样本的150个书写人。作者识别是在信息检索框架中执行的,而作者验证是基于比较的两种手写体中的图形分布之间的互信息。
  • Marti将文本行作为基本输入单元,涌过使用三个主要书写区域的高度、倾斜和字符宽度,连接组件的距离、墨水循环内的斑点、上下轮廓,计算与文本无关的特征。使用k-最近邻分类器

  • Sch和Bunke使用基于HMM的手写识别器识别和验证书写人。识别器专门转对单个书写人,只使用来自所选人员的笔迹进行训练,输出HMM的对数似然分数来识别可变内容的单独文本行上的作者。

  • 文献38提出了一种字符回溯和DTW匹配的交互方法

  • 本文提出,我们提出一种纹理级别的方法,使用边缘铰链的联合概率密度来评估特征。通过提取上本部分和下半部分的单独的概率密度,然后与特征向量拼接,还可以通过合并位置信息获得进一步的改进。我们异体字的方法,通过计算出码本,来解决问题。我们的方法是稀疏参数化设计,设计最少的训练。我们的实验数据集中,每个书写人只有两个样本。

5.第三章,实验数据集

  • 使用了三个数据集进行试验:Firemaker、IAM and ImUnipen
  • Firemaker数据集包括250名荷兰人的笔迹,主要是学生,写在四张不同的A4纸上。
    • 第一页,使用普通笔迹(主要是小写字母)抄写五段文字。
    • 第二页,只用大写字母抄写其余两段文字。
    • 第三页,包括伪造文本,这些样本没有被使用在当前研究中。
    • 第四页,用自己的话描述给定的卡通内容。
    • 这些样本主要由不同文本内容的小写笔迹组成,从两行到写满一整页的墨水量差异很大
    • 文档以300dpi,8位像素进行灰度扫描
    • 在本实验中,对第一页和第四页小写内容和第二页第一段和第二段进行了搜索和匹配。
  • IAM数据库包括可变内容手写英文文本,用300dpi,8位像素灰度扫描
    • 除了作者身份以外,图像还伴随着文本行、句子和单词层面的分割信息。
    • 此数据集包括每个书写人的手写页面数量可变,从一页(350人)到59页(一个书写人)。
    • 为了数据集具有可比性,修改了IAM数据集,使每个书写人始终包括两个样本:如果原有书写人在数据集中有两个以上的书写文档,只保留前两个;如果只有一个,就将文档分为一半。
    • 改进后的IAM集包括650人的小写笔迹,每个书写人两个样本,同一个书写人的墨水量大致相等,不同的书写人墨水量从三行到一整页量不等。
  • ImUnipen数据集包括215名书写人笔迹,每个书写人两个样本,这些图像来自Unipen在线手写数据库。使用Bresenham line generator和适当的brushing function将坐标的时间序列转换为模拟的300dpi图像。这些样本包含小写,文本内容和墨水量各不相同。使用数据集的65个书写人,130个样本,用于异体字书写方法中,训练计算书写人特定图形发射概率的形状码本。
  • 我们合并Firemaker小写和IAM数据集,将其命名为“Large”,包括900个书写人,每个书写人两个样本,都是小写笔迹。我们的书写人识别和验证方法是文本无关的,不需要人工打标。表1为测试使用的所有数据集。

6.第四章,纹理层次特征

  • 三个阶段
    • 特征提取
    • 特征匹配/特征结合
    • 书写人识别与鉴定
  • 特征提取方法:我们使用从手写图像中提取的概率分布函数以文本无关的方式来描述书写人的个性。特征用于表示一个完整的概率分布函数pdf:不是一个单一的值,是一个完整的概率向量,它捕获了手写笔迹唯一性的一个方面。
  • 在研究中使用的所有特征的概述都在表2中。

  • 轮廓上计算:f1边缘方向概率分布函数、f2边缘铰链、f3h水平边缘共生、f3v垂直
  • 连通组件:f4,基元发射pdf
  • 二值化图像:f5h基于游程的水平pdf,f5v垂直
  • 灰度图像:自相关水平和垂直

  • 本文中,选择了最具辨别力的特征
    • 归一化熵
    • 墨水密度pdf
    • wavelet,子波?
  • 使用Otsu‘s方法大津法—最大类间方差法对笔迹样本的厨师灰度图像进行二值化。
  • 在二值图像中,只有有墨水的地方才能看得见,使用8邻域法进行轮廓标记,然后用摩尔法提取轮廓。轮廓将会对所有轮廓边界上所有像素标记坐标对(xk,yk)
  • 手写文档的四种主要表示形式用于特征计算:灰度图像、二值图像、连接组件和轮廓。
6.1边缘方向概率分布函数(f1)
  • 笔迹最突出的视觉属性是倾斜,他能显示个人的书写风格,笔迹倾斜也是一个人的稳定特征。
  • 通过考虑局部轮廓碎片方向,提取边缘方向pdf。
  • 分析连个相距一定距离的轮廓像素的方向和水平的夹角。当运行算法时,计算局部轮廓碎片的理论方向,建立角度直方图(每个角度出现的次数)。然后将角度直方图归一化为概率分布p,该概率分布给出了在手写笔记中找到从水平面测量角度的概率。

ϕ=arctan(yk+ϵykxk+ϵxk)\phi=\arctan \left(\frac{y_{k+\epsilon}-y_{k}}{x_{k+\epsilon}-x_{k}}\right)

  • ϵ\epsilon控制分析轮廓片段的长度(两个像素之间的间隔),我们选择ϵ=5\epsilon=5,这个轮廓碎片的长度与墨水厚度6像素相当(在图片上是六个像素,六个小格子)。角度位于前两个象限,因为没有在线信息,我们不知道轮廓的书写顺序。通过实验将180度分为n=12个bin,十二份,每份15度可以详细的描述笔迹。(每一次x和y加5,直方图设置bin为12,最后统计每个角度区间的次数)

    • 直方图的bin:一个histogram,通常可以用一个列向量表示(例子中的a,b),列向量里面的每一个值就是一个bin(a,b),比如说列向量有个50个元素,那么就代表有50个bin。

      对于彩色图像,一般是rgb,3个维度,每个颜色一般是0-255的灰度级,就是对应8个bin,每个维度8bin,8x8x8=512bin

6.2边缘铰链f2
  • 计算连接在同一个像素上的两条线的方向的联合概率密度,按照长度找到两个铰链点的坐标。最终的归一化直方图给出了联合PDF,量化了在图像中找到两个分别以1和2角定向的“铰接”轮廓碎片的机会。
  • 铰链的角度要跨越四个象限360度,在2n=24上进行量化。两个角度的组合数(4n的平方2n*2n),我们只考虑非冗余的(角度2大于角度1的)。最终两个角度组合数为C2n2+2n=n(2n+1)C_{2 n}^{2}+2 n=n(2 n+1),n=12,则共有300个维度
6.3边缘方向共生(f3h,f3v)
  • 方向共生概率分布函数,在边缘方向上的基础,水平延伸直到碰到一个像素,以相同距离5,在找到角度。获得两个角度。
  • 有n的平方的尺度,144。直方图。
  • 由f1方向特征和f3水平垂直特征描述
  • 联合概率密度表示笔迹风格的通用纹理特征,与文本无关
4.4其他纹理特征,游程长度5和自相关6
  • 游程长度在二值图像上确定,同时考虑对应于墨迹的黑色像素或对应于背景的白色像素,黑色的统计特性收到墨水宽度的显著影响,因此也受到书写时笔的影响。白色像素捕捉字母内部区域和字母和单词之间的空白。白色长度的概率分布(在背景上)将使用书写人识别和验证测试。
  • 有两周基本扫描方法:沿着图像水平行扫描f5h和沿图像列的垂直扫描f5v。
  • 与上述基于轮廓的方向特征类似,游程长度的直方图被归一化标准化并解释为概率分布。我们特定只考虑60像素的游程以防止垂直测量进入连续文本行之间(数据集的写入行高度为120像素)
  • 为了计算自相关特征f6,图像的每一行都会以给定的偏移量移动到自身上,然后计算原始行和移动副本之间的标准化点积,计算中使用原始灰度图像,最大偏移量对应60像素。
  • 对每个偏移,然后对所有图像行的自相关系数进行平均,然后检测自相关函数在书写中是否有规律。规则:垂直笔划将在原始行及其水平移动副本中重叠,偏移量等于手写空间波长spatial wavelength的整数倍。结果将导致自相关函数的大的点积。
  • 自相关系数需要不同于其他特征的距离度量,应该是欧几里得距离而不是卡方距离

7.第五章,异体字特征

  • 假设书写人是一个基元生产机器,每个书写人都有特定的书写概率,通过聚类获得形状的公共码本。
  • 三个处理阶段
    • 笔迹分割
    • 通过字形聚类生成码本
    • 然后在生成的码本上进行笔迹的概率分布函数或距离的计算
7.1笔迹分割方法
  • 在笔迹中,产生的组件可能包含多个字符,所以我们需要对其进行分割。
  • 我们在下轮廓的最小值处进行分割,由下轮廓到上轮廓切分(取决于笔有多宽),切完后,提取问连接组件,然后将大小规范化为30x30像素并且保留原始图案的横纵比。
7.2通过聚类获得码本
  • 从ImUnipen数据集采集了来自65位书写人的130个样本,生成了码本
  • 从样本中生成了41000个规范大小30像素的训练集,用于聚类训练生成码本
  • 比较三种生成字形码本的聚类技术:**k-means,Kohonen SOM 1D,and 2D.**我们使用这些方法的标准实现方式
  • 产生最佳性能的码本,使用kmeans产生的码本是无序的,1d从左到右由上到下有顺序,2d是完整二维表示
7.3计算特定书写人的形状基元发射概率分布函数
  • 书写人被认为是随机样式生成器的特征,生成一些列基本形状。单个形状的发射率是通过执法图来计算的。在直方图中,一个bin备份给码本中的每个元素。
  • 对于每个笔迹样本i,使用上文所说的方法进行分割、连接组件检测、大小规范过程提取图形。对于样本中的每个图形元g,使用欧几里得距离来找到最近的码本元素原型w(距离最小的赢家),并将出现的情况计入相应的直方图bin中:

w=argminn[dist(g,Cn)],hiwhiw+1,w=\operatorname{argmin} _ {n}\left[\operatorname{dist}\left(g, C _ {n}\right)\right], h _ {i w} \leftarrow h _ {i w}+1,

  • n是索引,表示码本C中的形状。最后直方图hih_i被标准化为概率分布函数pip_i其总和为1。这个概率密度就是书写人的特征f4

  • 该方法的本质是不包括所有可能的异体字零件的枚举。相反,通过为从给定的笔迹样本中提取笔迹碎片提供一组距离最近的吸引因子。码本跨过了一个形状空间去提供。基元出现的概率密度函数代表了书写人的特征。


文章作者: 小冷同学
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 小冷同学 !
用户交流区

温馨提示: 遵纪守法, 友善评论!

  目录