3.方法
3.3 第二阶段,计算特定书写人特征向量
- 与其他报告的方法类似,书写人被认为是有限数量的信号源发生器。在当前研究中,一个基本模式由CO3组成。假设一个个体作者的特征是基本笔画模式发射的离散概率密度函数。因此,从150名书写人数据库中针对每个书写人,通过对手写CO3的欧几里得最近邻搜索,计算出书写人CO3的 Kohonen SOFM节点出现的直方图,已确定SOFM中存在的模式,该算法的伪代码如下所示:
ξ←0foralli∈K{xi←(xi−μx)/σryi←(yi−μy)/σrfi←(Xi1,Yi1,Xi2,Yi2…,Xi100,Yi100)k←argminl∥∥∥fi−λl∥∥∥Ξk←Ξk+1/N}
- ξ是CO3的概率密度函数,K是样本中检测到的连接组件集。标量向量元素显示为索引大写字母。步骤:
- 标量向量:只有大小,没有方向。如:重量、温度、长度、时间、热量等。
- 首先,将PDF初始化为零。
- 然后,各个连通分量轮廓(xi,yi)被归一化为原点0,0和半径σr=1的标准差,如论文30,32所将。
- CO3矢量fi包括重新采样到100个点的标准化轮廓X和Y的值。在预规范化Kohonen SOFM 向量表λ中,寻找fi的欧几里得最近邻的索引k和更新N=k的绝对值的pdf的相应值,最终获得p(CO3)。
- 假定这个pdf是一个书写人描述器,包含给定书写人大写字符连接组件形状发射可能性。
- ξ代表切分出来的片段的概率密度函数,K是在样本中检测到的连接组件集。将概率密度函数初始化为零,然后将连通分量轮廓坐标(xi,yi)归一化到原点并且和半径σr=1的标准差。将整理好的数据用fi表示,这里的100个点都已经是经过标准化的。
3.4书写人识别
- 150位书写人的150个段落被分成上半部A和下半部B。分别为每个书写人计算p(CO3)组件轮廓的概率,集合A和B都计算。使用卡方距离测量。对于集合B中的每个书写人描述符,搜索集合A中的最近邻。
χij2=k=1∑nξki+ξkj(ξki−ξkj)2
- i和j是样本索引,k是bin index,n表示pdf中bin的数量,ξ表示CO3码本的概率。
- 使用卡方距离(点与期望的差除以期望的平方价格开根号)的优点是,概率密度函数中低概率区域的差异比简单欧几里德距离度量更好,也比Bhattacharya距离更好。

- 上图为提取出来的轮廓的密度图,每个单元表示33X33的Kohonen码本中的CO3的概率密度,相同书写人密度就大,不同书写人,相同的很少。
4.结果
- 使用N=150个书写人的独立测试集,进行了大量性能比较。测试将按如下方式组织:对于测试集中的每个书写人,一个段落设为A,不同的段落设为B。测试的目的是为每个书写人从A中找到相应的段落B。
- 名为AB的测试是指一种保留一个的方法,所有A和B样本集都在一个集合中,一个接一个的取出查询样本,这意味着对A查询,样本B将变成目标。
- 作为基线性能的衡量标准,使用了边缘方向(特征0)。引入新的特征P(CO3)最为特征1.最后单独展示最近基于边缘方向和曲率特征(特征2),并与特征1结合使用
4.1 边缘方向概率密度直方图
- 开发了一个离线的基于边缘方向分布的方法。
- 使用两个不同的正交sobel内核进行卷积,然后进行阈值处理。该过程生成一个二进制图像,其中只有边缘像素是有的。
4.2 CO3概率密度直方图
4.3边缘铰链概率密度直方图
5.讨论
温馨提示: 遵纪守法, 友善评论!