基于连通分量轮廓和大写西文字符边缘特征的自动书写者识别(Automatic Writer Identification Using Connected-Component Contours and Edge-Based Features of Uppercase Western Script)
我们将展示手写大写字符中存在的特定于书写者的异体字形状变化如何允许有效的书写者识别。
1.基于形状基元特征的方法
1.1假设前提
- 书写人被视为一个随机但服从某种规律的基元产生器。
- 笔迹书写过程可以看作若干个形状基元组装成一段文本内容的过程。
- 当笔迹包含足够多字符时,每个形状基元的使用概率被认为是相对独立鱼文本内容的,然后书写人对不同基元的使用频率的差异就可以用来表示该书写人的书写风格。
1.2步骤
- 首先要生成书写人可能使用的形状基元,也就是码本(codebook)。
- 根据得到的codebook,可以计算得到不同笔迹所对应的形状基元分布直方图。
- 形状基元分布最为接近的笔迹则最有可能来自同一书写人。
2.大牛论文74
- 老师Lamber Schhomaker和学生Marius Bulacu
- 基于连通分量轮廓和大写西文字符边缘特征的自动书写者识别
- 提出用于异形字符形状基元的描述的连通组件轮廓(Connected-Component Contours)特征
- 本文提出了一种利用大写手写体样本中的连通分量轮廓(COCOCOs或CO3s)进行离线书写人识别的新技术。在我们的模型中,书写人被认为具有随机模式生成器的特征,为大写字符集生成一系列连通组件。使用来自100名书写人的独立训练集的CO3s码本,针对包含150名不可见书写人的独立测试集计算CO3s的概率密度函数(PDF)。结果显示,CO3s的PDF对根据由大写字母组成的句子识别单个书写人具有高度敏感性。所提出的自动方法弥补了一端的图像统计方法和另一端的单个字符的人工测量异形特征之间的差距。将CO3的PDF与基于独立边缘的方向和曲率PDF相结合,可获得非常高的正确识别率。
- 自动、离线书写人身份识别再次引起人们的兴趣[1]、[2]、[3]、[4]、[5]。在诸如DNA分型[6]、[7]、指纹分类[8]、[9]和虹膜识别[10]等“更难”的生物特征身份识别形式中,人们的生活令人担忧,基于手写样本的身份识别似乎仍然是一种有用的应用。与法医实验室中使用的其他形式的生物特征身份识别不同,自动书写者身份识别通常允许结合犯罪的故意方面来确定身份,例如在威胁信的情况下。这是与其他生物特征识别方法的根本区别,在其他生物特征识别方法中,证据材料与犯罪细节之间的关系可能非常遥远。与基于DNA或虹膜的身份识别相比,书写者身份识别系统的目标性能更具压力。在法医笔迹鉴定中,根据经验法则,我们力求在100名笔迹的命中列表中,几乎100%地召回正确的笔迹,这些笔迹是从数据库中以104个样本的顺序计算出来的,这是当前欧洲法医数据库中搜索集的大小。100名嫌疑人的打击名单是基于这样一种务实的考虑,即在刑事调查过程中,这样数量的案件几乎是可控的。
- 图像处理、模式分类和计算机技术的最新进展使当前的法医实践程序有了实质性的改进。存在三组脚本形状特征,它们来自法医程序中扫描的手写样本:
- 从图像中的感兴趣区域(ROI)计算的全自动特征。
- 由人类专家使用专用的图形用户界面工具以交互方式测量特征。
- 基于字符的特征,由每个书写人生成相关的异形字子集。
- 鉴于实际采集的手写体扫描样本的复杂性,应用领域的从业者对第一组特征持怀疑态度。事实上,自动前景/背景分离会在有污染和纹理丰富的片段上失败,而墨水痕迹通常很难识别。然而,最近在使用“软计算”方法的图像处理方面取得了一些进展,即将模糊逻辑和遗传算法的工具结合起来,从而为前景/背景分离过程提供了先进的半交互式解决方案[2]。在这些条件下,并假设存在足够的计算能力,使用自动计算的图像特征(上文第1组)变得可行。在详细讨论方法和结果之前,我们将介绍所提出方法的基本原理和一般模型。
- 一般认为,大写字符包含的特定于书写者的信息比连接的草书手写笔迹少。这一假设得到了观察的证实,即大写孤立字符的自动分类比连体草书的识别更容易。然而,大写字母之间的识别性能差异很大,字符与自由字的区别可以归结为字符分割问题。图1显示了导致书写变化的四个因素。(第一是书写人控制的大小倾斜程度啥的,第二是精神状态)
- 第一个因素涉及仿射变换,它由作者自愿控制。大小、平移、旋转和剪切的变换是令人讨厌的,但不是手写识别或书写者识别的基本障碍。特别是,倾斜(剪切)构成了一个习惯性参数,由笔握和手腕子系统相对于手指的方向决定[12]。
- 第二个因素涉及神经生物力学变异性,有时被称为“松散空间”:局部环境和生理状态决定了在字符形状形成上花费的努力量,并决定了书写样本的易读性。在实现预期形状时,作者必须发送运动控制模式,以补偿生物力学末端执行器的低通滤波效应。这类变异源还包括震颤和精神药物对书面运动控制过程的影响。因此,该因素与系统状态的关系比与系统标识的关系更大。
- 第三个因素也高度依赖于手写过程中的瞬时系统状态,并由顺序可变性表示(图1c):笔划顺序可能随机变化,如大写字母E的产生。一个四冲程的E可以在4分钟内产生!24¼384个排列。在一些亚洲文字(如汉字)的书写过程中,笔画顺序的随机排列是手写识别中的一个众所周知的问题(尽管学校对笔画顺序的训练相当严格)。最后,可能会出现拼写错误,并导致在书写顺序中出现临时编辑笔划。尽管通常认为序列可变性仅对基于时间(在线)信号的手写识别造成问题,但事后编辑的示例(图1c)表明,静态、光学效应也是这种变化形式的可能结果。
- 第四个因素是异体变异(图1d),指的是特定于书写者的字符形状现象,这在自动手写体识别中产生了大部分问题,但同时也为自动书写者识别提供了信息。在本文中,我们将展示手写大写字符中存在的特定于书写者的异体字形状变化如何允许有效的书写者识别。
2.1识别大写字符的异体字变化的理论
- 两个基本因素促成了笔迹的个性,即异体变异:遗传(生物)和模因(文化)因素。
- 第一个基本因素是书写人的基因构成。已知或可能假设遗传因素有助于书写风格的个性
- 手的生物力学结构,即手腕和手指腕骨的相对大小及其对握笔的影响。
- 左撇子或右手
- 肌肉力量、疲劳、周围运动障碍
- 中枢神经系统(CNS)特性,精细运动控制能力和运动任务执行中中枢神经系统的稳定性
- 第二个因素包括记忆或文化转移对笔握风格和人物造型(异体字)的影响[16],这些影响是在教育过程中训练的,或者是通过观察他人的作品学习的。尽管模因性这个词经常被用来描述思想和知识的演变,将字符形状的演变和传播视为模因过程似乎没有根本的反对意见:字符形状的适应功能取决于1)易读性和2)书写工具的易用性[17]的相互冲突的影响,这在文化和社会中是可用的。异体字在作家群体中的分布很大程度上受学校教授的写作方法的影响,而学校教授的写作方法又取决于地理分布、宗教和学校类型等因素。例如,在荷兰,新教徒和天主教作家、不同世代的作家和移民作家之间可能存在异书差异。
- 第一个基本因素是书写人的基因构成。已知或可能假设遗传因素有助于书写风格的个性
- 遗传因素和文化因素共同决定了一个习惯性的书写过程,在书写痕迹的局部层面,在整个字符形状层面,以及字符位置和页面布局层面,都有可识别的形状元素。在本论文中,我们将重点放在手写轨迹的局部级别和字符级别。
- 书写人在书写表面上产生二维(x,y)的笔尖轨迹,通过垂直移动(z)调节笔尖在书写表面上方的高度。着陆时,位移控制由力控制(F)代替。笔尖在两个笔尖向下时之间的空中轨迹包含有价值的特定于书写者的信息,但对于离线扫描的手写样本,它的形状是未知的。类似地,笔力信息对作者的身份信息非常丰富,但无法直接从离线扫描中得知[18]。最后,使用手写形状识别书写者的一个重要理论基础是,手写不是一个反馈过程,它在很大程度上取决于环境中的外围因素。由于神经和神经机械传播延迟,仅基于连续反馈机制的手写过程将发展得太慢。因此,大脑在时间上持续规划一系列的弹道运动,也就是说,以前馈的方式。假设一个字符是由一个“**运动程序”[20]**产生的,即一个可配置的运动模式生成器,它需要在触发前指定一系列参数值,以通过墨水沉积[24]、[25]产生笔尖运动,从而产生字符形状[21]、[22]、[23]。尽管到目前为止描述的过程涉及连续变量,如位移、速度和力控制,笔迹的语言基础允许假定一个给定字符形状所指的字母表中的离散符号。
2.2模型
-
假设对于给定的字母表L存在一个有限的异体字列表S,每个异体字都被认为是字母第i个允许的样式变化,原则上,该字母在书写-阅读通信线路的接收端应清晰可见[26]。异体变异的来源可能在于教学方法和个人偏好。因此,人类书写者被认为是一个模式生成器,在即将书写字母时随机选择每个异体字形状。假设概率密度函数,即书写人发出异体字的概率,将在识别书写人时提供信息。他认为:
- w和v代表两个书写人
- S是一个常见的通用异体字码本(Common allograph codebook)
- p代表发射异体字的离散概率密度函数
-
公式一是可以实现的,如果书写人w发出的手写样本u的特点是
- 假设样本u具有代表性,则样本u就被表示为书写人w的概率密度函数
- 他认为
- 是概率密度函数上的一个适当距离函数,v和w表示书写人,a,b,c是手写样本标识符。等式4表明,在特征空间中,同一作者的任意两个样本之间的距离小于不同作者的任意两个样本之间的距离。在理想情况下,这种关系将始终保持,从而形成完美的书写人识别。在模型1中,含义是单向的,在伪造笔迹的情况下,不等于,但是把书写人w强制变为v。
- 在这一点上的一个问题是,为了实现这种随机异体字模型,很难获得特定笔迹和字母表的异体字的详尽列表S。然而,手写图像数据的数量(不存在字符背景真实性)远远超过了商业和学术训练集的大小,而商业和学术训练集是在单个字符的水平上进行标记的。目前,还不存在一份普遍接受的手写异体字列表(及其普遍接受的名称,如拉丁语,如生物学领域的物种分类)。在这方面,值得注意的是,对于机器打印字体,由于其形状与手写变体相比存在微小差异,因此存在命名字体类别(例如,Times Roman、Helvetica等),而我们不使用手写字符族的通用名称。
- 因此,使用一种有益的方法来避免在训练和操作阶段都需要昂贵的字符标签。**与手写体中的字符分割相反,可以以非参数方式可靠地检测连接的组件。**那么,问题是这样的子分配文本片段是否可以用于作者识别。
- 如果每个异形字符由一组非空的连接组件 组成, $ s _ { l i } = \left { c _ { 1 } , c _ { 2 }, \ldots, c _ {m} \right } $ ,我们假设所有可能的异形字符都可以由有限集或码本C的连通组件估计。此外,如果我们假设连通组件的形状是其作为元素的异体字符变体的信息,那么对于概率函数
- 书写人w从手写样本u中导出连通组件,和公式4类似
- 假设样本u具有代表性,则:(连通组件的概率密度就可以表示书写人w的特征)
- 一个潜在的问题涉及触碰字符的现象(phenomenon of touching characters)。对于本文中提出的方法,,如果产生连接或重叠字母组合的倾向对于作者来说是典型的,那么这将不会构成真正的问题。在下一节中,我们将描述连接组件码本C的构造、特定书写人基元发射pdf的计算,以及pdf的适当距离函数
2.3 设计考虑
- 在应用领域中,稀疏参数(sparse-parametric)方法有几个优点,因为新数据可以很容易地合并,而无需重新训练。在目前的研究中,由于使用了基于包含大量参数的自组织映射的码本,因此无法实现这一目标。**然而,在处理管道中,特定于域的启发式的使用保持在最低限度。**没有基于规则的图像增强功能。图像和轮廓规格化的数量也将保持在最低限度。将使用简单的距离计算,避免昂贵的权重使用(如多层感知器或基于支持向量机的训练相似性函数)。关于目标应用程序,应该注意,所提出的方法是大小不变的。而,在伪造笔迹的情况下,伪造者试图改变笔迹样式,通常是通过更改倾斜和/或所选的异体字。通过详细的手工分析,法医专家有时能够正确识别伪造的手写样本。然而,所提出的算法旨在从数据库中恢复正确的已知样本,以获得作者未知的查询样本,前提是这两个样本都是以可比的自然写作态度生成的
3 方法
3.1数据
- 从Firemaker1数据库中的250名作者的手写页面中,使用了“第2页”,即由大写手写文本复制而成的集合。该文本由两句话组成,共有65个文本块,即单词和金额(表1),以300 dpi的灰度扫描,在带消失线颜色(黄色)的划线纸上。字数相当于一段文字。该文本是在法医实践中设计的,涵盖了足够数量的字母表中的不同字母,同时对大多数嫌疑人来说仍然是可写的。图2显示了由单个作者编写的此类段落的片段。
- **一组100个段落被尽可能多的书写人用于训练目的。剩下的150个段落被同样多但不同的作者用来测试书写人身份。**处理需要三个步骤:
- 以大写笔迹计算连接部件轮廓的码本。
- 计算特定书写人的特征向量
- 书写人识别
- 在下文中使用特征(feature)一词时,都应理解为书写人特征向量(writer- feature vector)
3.2第一阶段,用大写笔迹计算连通元件轮廓码本
- 对100个段落的图像进行处理,以提取代表手写墨水的连接组件。使用3x3平面平滑窗口对灰度图像进行模糊处理,然后使用中点灰度值进行二值化。对于每个连接的组件,使用摩尔算法计算其轮廓,以逆时针方式从最左边的像素开始。对生成的轮廓坐标进行重新采样,以便包括100个XY坐标对。得到固定(N=200)200维向量被称为连接组件轮廓COnnected-COmponent COntour
- 100个段落产生了26896个连接组件轮廓CO3,这些连接组件轮廓被呈现给33x33节点的自组织特征映射(SOFM)论文29。从而产生每个Kohonen节点约25个样本的先验均匀覆盖。目标是为了产生精确的co3形状表,而不是以拓扑保持为目标。因此使用了大量的500为时期epoch来训练网络,网络气泡大小从训练开始时的半径33(完整网络)到训练结束时的0(一个节点)不等。培训开始时学习率为0:9,培训结束时为0:015。通常,在训练Kohonen自组织图时,使用线性冷却计划(linear cooling schedules)。然而,如果目标是在可能的模式集合和有限的Kohonen单元集合之间获得验证性的最小均方根误差,则已证明使用急剧衰减的温度是有益的**[30]**。Kohonen放松过程大致可分为三个阶段。
- chaotic oscillation 混沌震荡
- structural consolidation 结构稳固
- fine tuning 微调
- 使用线性温度冷却计划有助于在有限的时间段内获得具有拓扑保持特性的地图。然而,使用气泡半径和学习率的非线性和急剧衰减函数会导致长时间的微调阶段,在呈现足够多的训练时段后产生可靠的码本。
- 应该注意的是,过拟合在这里不是一个问题:在Kohonen自组织映射中,过拟合的程度主要取决于单元的数量。考虑到这些因素,根据以下功率函数(8),采用了快速冷却计划:
- s是陡峭程度因子
- r是递减训练参数(此处为学习率或Kohonen气泡半径)
- k=[0,m]是epoch时期计数器,m是最后一个训练时期
- 如果s=1,rk是线性函数
- 如果s=5,这种相对较高的陡度通过缩短最初不规则状态空间演化的持续时间来加速自组织过程。
- 在结束训练时,产生的SOFM自组织特征映射如图所示
- 该表被认为是构成计算书写人连接组件轮廓cococo发射器概率所需的码本C。
- Kohonen训练将轮廓的每个坐标x或y的初始均方根误差(0.036)减少到500个历元时的均方根误差(0.010)。当使用生成的码本对所有书写人的连接组件轮廓进行最近邻搜索时,Kohonen网络的PDF作为通信信道在33x33的离散符号,产生的所有无序状态大小为9.8位。
温馨提示: 遵纪守法, 友善评论!