07年PAMI总结

论文研究生笔迹鉴定总结

论文

发布日期: 2021-08-27

更新日期: 2021-08-27

文章字数: 1.8k

阅读次数:

07年PAMI总结

1.数据集

歌剧魅影

一共用了四个数据集，所有数据集的书写人都有两个样本，书写人的分类使用遗漏一个方式执行。
- 对于查询样本q，使用选定的特征，计算q到所有其他样本i不等于q的距离。每个人有两个样本，不要那个人的查询样本就是遗漏一个的方式。
Firemaker大写数据集，250个书写人
Firemaker小写数据集，250个书写人
IAM（650小写）和Firemaker（250小写）合并成一个Large（900小写）数据集
使用ImUnipen数据库中的65个书写人每人两个片段，共130个片段，用于计算异体字特征f4的码本。利用k-means距离生成了包含400个原型的码本。

2.特征分类

方向概率分布函数 $(f1,f2,f3h,f3v)$ ，形状基元产生概率分布函数 $(f4)$ ，游程概率分布函数 $(f5h,f5v)$ 和自相关 $(f6)$
轮廓上计算： $(f1)$ 边缘方向概率分布函数、 $(f2)$ 边缘铰链、 $(f3h)$ 水平边缘共生、 $(f3v)$ 垂直
连通组件： $(f4)$ ，基元发射pdf
二值化图像：f5h基于游程的水平pdf，f5v垂直
灰度图像：自相关水平和垂直

2.1边缘方向 $pdf (f1)$

建立角度直方图（角度出现的次数），将角度直方图归一化为概率分布 $p(\phi)$ ，
- 归一化，将区间[c，d]变为区间[a，b]上算法（即可以归一化角度，也可以用作图像灰度归一化）：
$x_{o u t}=\left\{\begin{array}{ll} a & \left(\text { if } \quad x_{i n}<c\right) \\ \frac{b-a}{d-c} \cdot\left(x_{i n}-c\right)+a & \left(\text { else if } \quad c \leq x_{i n}<d\right) \\ b & (\text { else }) \end{array}\right.$
这个概率分布 $p(\phi)$ 代表角度 $\phi$ 出现的概率，可以用角度 $(\phi)$ 出现的概率来衡量一个人的书写特征。

\phi=\arctan \left(\frac{y_{k+\epsilon}-y_{k}}{x_{k+\epsilon}-x_{k}}\right)

$\epsilon$ $ϵ$ 控制轮廓片段的长度，选择 $\epsilon=5$ $ϵ = 5$ ，轮廓随便长度相当于墨水笔迹的六个像素。角度范围是 $(0^\circ \sim 180^\circ)$ $(0^{\circ} \sim 18 0^{\circ})$ ，因为没有在线信息。将bin设置为 $n=12$ $n = 12$ ，每份 $15^\circ$ $1 5^{\circ}$ 。
- 直方图中bin的含义：例如颜色直方图，RGB每个通道有256种颜色，共计有 $256*256*256$ 种色彩，一张图片中，按照每个像素去统计颜色，相同的值会很少，不能达到统计的目。所以采用合并的思想，引入了bin，在颜色中将每个通道划分为8个bin，可以组成512个组合。所以在直方图横坐标就有512个刻度，达到统计频率的目的。

2.2边缘铰链方向 $pdf(f2)$

计算连接在同一像素用相同距离 $\epsilon=5$ $ϵ = 5$ 上的两条线的角度的联合概率密度。
- 铰链方向范围是 $(0^\circ \sim 360^\circ)$ 四个象限，将bin按照 $2n=24$ 进行设置，两个角度的所有组合可能性为 $2n*2n$ 种，只考虑角度2大于角度1的情况，则共有 $24+23+\cdots+2+1=300$ 种维度（文章作者用的是 $C_{2 n}^{2}+2 n=n(2 n+1),n=12$ ，所以一共也是300种维度，但不知道是怎么排列组合的）

2.3边缘方向共生 $pdf(f3h,f3v)$

在边缘方向的基础上，构造水平延伸和垂直延伸，碰到像素时，用相同的距离，获得的两个角度进行联合概率密度计算。
每个角度有12种可能，所以共有144种维度。

2.4游程长度 $pdf(f5h,f5v)$

游程长度在二值图上确定，利用两个黑色像素之间的水平和垂直距离的白色背景长度来做联合概率密度作为特征表示。
最多长度为60像素，以防止垂直测量到其他行的字母（默认书写人笔迹字高为120像素）

2.5自适应特征 $pdf(f6)$ （没太搞懂）

笔迹的每一行都会以给定的偏移量去移动，然后计算原始行和改变后副本之间的标准化点积。使用原始灰度图像，最大偏移量对应60像素。
对于每个偏移，对所有图像行的自相关系数进行平均，看每个偏移的所有自相关系数的规律。
自相关系数计算需要使用欧几里得距离。

2.6异体字特征 $(f4)$

三个阶段：笔迹分割、通过分割出的图形块聚类生成字形码本、在码本上计算笔迹的距离
笔迹分割方法：在下轮廓的最细的地方进行分割，由下到上。将大小规范为 $30*30$ 的像素并保留原有横纵比。
通过聚类获得码本：利用65位书写人130个笔迹样本进行训练，从样本中分割出了41000个笔迹图形块。
- 与04年文章相同
计算特定书写人的概率分布函数或距离：先将每个笔迹样本 $i$ 用上文方法进行分割提取图形。对于样本中的每个图形元 $g$ ，使用欧几里得距离来寻找最近的特定书写人的原型 $w$ ，将出现情况记录到相应的直方图中。

w=\operatorname{argmin}_{n}\left[\operatorname{dist}\left(g, C_{n}\right)\right], h_{i w} \leftarrow h_{i w}+1,

$n$ 代表码本中的第几个， $C_n$ 代表第n个码本的形状，最后直方图 $h_i$ 被标准化为概率分布函数 $p_i$ 。

3.特征融合

对于特征 $(f1,f2,f3,f4,f5)$ 进行卡方距离计算，匹配查询样本 $q$ 和数据库中其他样本 $i$ 的距离

\chi_{q i}^{2}=\sum_{n=1}^{N d i m s} \frac{\left(p_{q n}-p_{i n}\right)^{2}}{p_{q n}+p_{i n}}

$p$ 是概率分布函数的值， $n$ 是 $bin$ 的索引， $Ndims$ 是 $bin$ 的数量
引入了失误率FAR（两个样本是同一个人书写，但判断错了）和未命中率FRR（两个样本是同一个人书写，也是真的但你拒绝了）

最终距离为每个特征产生距离的平均值，特征组合中，汉明距离表现最好

H_{q i}=\sum_{n=1}^{N d i m s}\left|p_{q n}-p_{i n}\right| .

卡方距离中，分母为低概率区域提供了更高的权重，并使得每个特征最大化。而汉明距离没有这种缺点。

小冷同学

http://www.bangbangbangbang.top/posts/befa.html/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源小冷同学 !

论文研究生笔迹鉴定总结

用户交流区

温馨提示: 遵纪守法, 友善评论!

上一篇

14年SIFT论文（一）

14年SIFT论文（一）

14年SIFT论文（一）

2021-08-29 论文

论文研究生笔迹鉴定

下一篇

07年PAMI（二）

07年PAMI（二）

07年PAMI（二）

2021-08-27 论文

论文研究生笔迹鉴定