04年PAMI(二)


3.方法

3.3 第二阶段,计算特定书写人特征向量
  • 与其他报告的方法类似,书写人被认为是有限数量的信号源发生器。在当前研究中,一个基本模式由CO3CO^3组成。假设一个个体作者的特征是基本笔画模式发射的离散概率密度函数。因此,从150名书写人数据库中针对每个书写人,通过对手写CO3的欧几里得最近邻搜索,计算出书写人CO3的 Kohonen SOFM节点出现的直方图,已确定SOFM中存在的模式,该算法的伪代码如下所示:

ξ0foralliK{xi(xiμx)/σryi(yiμy)/σrfi(Xi1,Yi1,Xi2,Yi2,Xi100,Yi100)kargminlfiλlΞkΞk+1/N}\begin{array}{l} \vec{\xi} \leftarrow 0 \\ forall \quad i \in \mathcal{K} \\ \{ \\ \quad \vec{x} _ {i} \leftarrow\left(\vec{x}_{i}-\mu_{x}\right) / \sigma_{r} \\ \quad \vec{y}_{i} \leftarrow\left(\vec{y}_{i}-\mu_{y}\right) / \sigma_{r} \\ \quad \vec{f}_{i} \leftarrow\left(X_{i 1}, Y_{i 1}, X_{i 2}, Y_{i 2} \ldots, X_{i 100}, Y_{i 100}\right) \\ \quad k \leftarrow \operatorname{argmin}_{l}\left\|\vec{f}_{i}-\vec{\lambda}_{l}\right\| \\ \quad \Xi_{k} \leftarrow \Xi_{k}+1 / N \\ \} \end{array}

  • ξ\vec{\xi}是CO3的概率密度函数,K\mathcal{K}是样本中检测到的连接组件集。标量向量元素显示为索引大写字母。步骤:
  • 标量向量:只有大小,没有方向。如:重量、温度、长度、时间、热量等。
    • 首先,将PDF初始化为零。
    • 然后,各个连通分量轮廓(xi,yi)\left(\vec{x}_{i}, \vec{y}_{i}\right)被归一化为原点0,0和半径σr=1\sigma_{r}=1标准差,如论文30,32所将。
    • CO3矢量fi\overrightarrow{f_{i}}包括重新采样到100个点的标准化轮廓X和Y的值。在预规范化Kohonen SOFM 向量表λ\lambda中,寻找fi\overrightarrow{f_{i}}的欧几里得最近邻的索引k和更新N=k的绝对值的pdf的相应值,最终获得p(CO3)。
    • 假定这个pdf是一个书写人描述器,包含给定书写人大写字符连接组件形状发射可能性。
    • ξ\vec{\xi}代表切分出来的片段的概率密度函数,K\mathcal{K}是在样本中检测到的连接组件集。将概率密度函数初始化为零,然后将连通分量轮廓坐标(xi,yi)\left(\vec{x}_{i}, \vec{y}_{i}\right)归一化到原点并且和半径σr=1\sigma_{r}=1标准差。将整理好的数据用fi\overrightarrow{f_{i}}表示,这里的100个点都已经是经过标准化的。
3.4书写人识别
  • 150位书写人的150个段落被分成上半部A和下半部B。分别为每个书写人计算p(CO3)组件轮廓的概率,集合A和B都计算。使用卡方距离测量。对于集合B中的每个书写人描述符,搜索集合A中的最近邻。

χij2=k=1n(ξkiξkj)2ξki+ξkj\chi_{i j}^{2}=\sum_{k=1}^{n} \frac{\left(\xi_{k i}-\xi_{k j}\right)^{2}}{\xi_{k i}+\xi_{k j}}

  • i和j是样本索引,k是bin index,n表示pdf中bin的数量,ξ{\xi}表示CO3码本的概率。
  • 使用卡方距离(点与期望的差除以期望的平方价格开根号)的优点是,概率密度函数中低概率区域的差异比简单欧几里德距离度量更好,也比Bhattacharya距离更好。

  • 上图为提取出来的轮廓的密度图,每个单元表示33X33的Kohonen码本中的CO3的概率密度,相同书写人密度就大,不同书写人,相同的很少。

4.结果

  • 使用N=150个书写人的独立测试集,进行了大量性能比较。测试将按如下方式组织:对于测试集中的每个书写人,一个段落设为A,不同的段落设为B。测试的目的是为每个书写人从A中找到相应的段落B。
  • 名为AB的测试是指一种保留一个的方法,所有A和B样本集都在一个集合中,一个接一个的取出查询样本,这意味着对A查询,样本B将变成目标。
  • 作为基线性能的衡量标准,使用了边缘方向(特征0)。引入新的特征P(CO3)最为特征1.最后单独展示最近基于边缘方向和曲率特征(特征2),并与特征1结合使用
4.1 边缘方向概率密度直方图
  • 开发了一个离线的基于边缘方向分布的方法。
  • 使用两个不同的正交sobel内核进行卷积,然后进行阈值处理。该过程生成一个二进制图像,其中只有边缘像素是有的。
4.2 CO3概率密度直方图
4.3边缘铰链概率密度直方图

5.讨论

  • 反对:数据太干净、太好了

文章作者: 小冷同学
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 小冷同学 !
用户交流区

温馨提示: 遵纪守法, 友善评论!