1.第六章,通过特征匹配和特征融合进行笔迹识别和验证
- 在将手写笔迹映射到特征上后,需要在特征向量之间进行适当的距离度量,以计算两个样本之间的差异性或相似程度。我们在实验中使用了大量的距离的测试,Minkowski 5阶距离,卡方距离,Bhattacharya and Hausdorff距离。
- 对于pdf特征f12345, 卡方距离用于匹配查询样本q和数据库中的任何其他样本i:
χqi2=n=1∑Ndimspqn+pin(pqn−pin)2
- p是pdf的一个元素?,n是bin索引,Ndims是pdf中bin的数量(特征的维度),卡方用于pdf的距离度量,欧几里得距离用于自相关。
- 书写人识别是使用漏掉一个的策略使用最近邻分类。对于查询样本q,使用所选特征计算到所有其他样本的i不等于q的距离。然后,所有样本i在排序的命中列表中排序,与查询q的距离增加。理想情况下,排名第一的样本应该是由同一个书写人书写人成对样本。如果一个人不仅考虑最近的邻居(排名第一的),而且也考虑从第一到第十更长的邻居列表,那么正确命中的概率会随着列表的长度增加而增加。
- 在实验中,我们没有将训练集和测试集分开,所有数据全都在一个套件中。这实际上是一个更加困难和真实的测试条件,有更多的干扰因素,不是一个,而是每个虚假作者两个,只有一个正确的命中。
- 书写人验证,与所有生物特征验证任务一样,可以完美地放入经典的Neyman-Pearson框架统计决策理论[54]。对于书写人验证,两个给定笔迹样本之间的距离是使用选定的特征去计算的。如果达到预定的阈值T,则认为距离最高地,一认为两个笔迹样本是同一个人书写。超过T的,被认为是不同人书写的。但可能存在两种错误:错误接受FA,两个样本是由同一个人写的,但这不是真的。错误拒绝FR,两个样本是同一个人写的,也是真的。相关错误率FAR和FRR,在文档中要找到疑似对象,FAR为失误率,FRR为未命中率。这些错误率可以通过将
- 这些错误率可以通过将同一人书写的样本之间距离的概率分布PS(x)和不同人书写的样本之间距离的概率分布PD(x)进行积分,直到/从决策阈值T进行积分计算:
FAR=∫0TPD(x)dx,FRR=∫T∞PS(x)dx
- 通过改变阈值T,获得了 Receiver Operating Characteristic (ROC) 曲线,该曲线曲线说明两种错误率之间不可避免的权衡。**Equal Error Rate (EER)**对应于ROC曲线上的点,其中FAR=FRR,它以单个数字量化书写人验证性能。
- 在本研究中考虑的特征不是完全正交的,但是,他们在笔迹样本上提供了不同的观点。因此,尝试将他们结合起来,在我们的特征组合方案中,任意两个手写样本之间的最终唯一距离计算为由于参与组合的各个特征而产生的距离的平均距离(简单或加权平均值)

Hqi=n=1∑Ndims∣pqn−pin∣.
- 在卡方距离中,由于分母,卡方距离为概率分布函数中的低概率区域提供了更多权重,并且使每个特征的性能最大化。汉明距离,为不同的pdf特征生成可以比较的距离值,并提供了一个共同点,在特征组合方面略有优势。
- 本文提出的特征组合方案的贝叶斯框架包含两个基本假设:特征是独立的,并且两个样本由同一人编写的概率假设是由所选特征生成的两个样本之间距离的指数分布PS(x)∝e−x/σ来表示。衰减常数σ控制不同特征在组合中的权重。
2.第七章,结果
- 验证top1和top10识别率以及错误率作为性能的度量结果。
- 所有数据集包含每个书写人的两个样本,书写人以遗漏一个的方式来搜索。
- 用ImUnipen来生成特征f4的码本,保证不污染数据。
- 我们使用了一个由k-means聚类生成的包含400个原型形状的码本
3.第八章,讨论
- f4特征相关的两个因素:码本大小和用于生成形状的聚类算法
温馨提示: 遵纪守法, 友善评论!