文档库

最新最全的文档下载
当前位置:文档库 > 基于贝叶斯的图像检索系统

基于贝叶斯的图像检索系统

基于贝叶斯的图像检索系统,图像捕食者:理论,实现和实际试验摘要—这篇文章呈现了图像检索的理论,设计原理,实现和图像检索的表现结果,这个基于内容的图像检索的系统的模型在过去的三年里取得了一些进展。除此之外,这个文件还展现了实际试验的原理,构思和结果,这些试验被进行用来尝试解决一些在图像检索的发展中出现的关键问题。这个图像捕食者计划对基于内容的图像捕食者主要有四个贡献。首先,图像捕食者呈现了一个大体的贝叶斯架构被我们用来描述相关反馈来进行搜索的一个简单例子。有了用户要怎么做的明确模型,知道了用户想要的目标图像,图像捕食者根据用户的动作来使用贝叶斯规则来预测出用户想要的目标图像。这个过程通过分析概率分布来进行,而不是通过改善查询。其次,一个最小嫡陈列算法来描述试图把通过每次搜索从用户获得的信息最大最大化。再次,图像捕食者利用隐藏的备注而不是可能不准确的或者用户必须学习和查询的前后矛盾的备注结构。最后,图像捕食者引入了两个实验范例来从数量上评估这个系统的表现,而且实际试验也用来支持这个理论上的论述。

索引词---贝叶斯搜索,基于内容的搜索,数字图书馆,图像搜索,相关反馈。

I.引言

对数字信息,尤其是图像,音乐,视频信息的搜索正在商业和娱乐中的作用变得越来越重要。基于内容的图像捕食者正受到研究人员更加广泛的研究兴趣。这种趋势被快速成长的图像数据库所驱动,而这种结果又反过来对高效率的搜索方案提出更高的要求。一次搜索典型的由一次问询和紧随其后的不断重复的相关反馈组成,在相关反馈中用户留下了对修复结果的词汇的评论。用户的问询提供了对需要图像或者图像类别的一种描述。这种描述可以采用多种形式:它可以是有注释的图像数据库中的一系列关键词,或者对目标图像的大致描述,或者是一个示例图像,或者是代表着例如整体亮度,特定颜色像素百分比等量化特征的数值。不幸的是,用户在说明这些描述的时候经常存在困难,而且电脑程序在理解它们的时候也存在困难。更重要的是,即便用户可以提供一个比较好了初始问询词语,如何去数据库中搜素也是是一个难题。当问询提出之后用户肯能需要补充一些额外的信息,例如哪种寻回的图像是他们的目标,哪种寻回的图像最接近他们的目标。这种相关反馈比起问询的方式更加具有交互性而且交互性更加简单。

时至今日,搜索界明显偏重于使用问询词语来找到更好的图像的呈现。在图像建立中对这种趋势的强调过多以致于使得相关反馈被使用的很少甚至不存在,尤其是当需要用户修改他们的问询的时候。在这种情况下,搜索能力就完全依靠从图像中提取特征的质量和用户给出一个比较好了问询词的能力。相关反馈的效果可以比这个好的多。尤其是,用户提供的信息不必使用问询的语言表现出来,但是可能会修改特征的权重或者组建新的特征架构。

图像捕食者利用贝叶斯的方法把这种思想发扬光大,把用户目标的不确定性用可能的目标上的概率分布呈现出来。这种利用贝叶斯的方法来解决问题被Cox et al倡导。在有着一个明确的用户行动的模型时候,假设一个可能的目标,图像捕食者根据用户的动作来利用贝叶斯的规则来预测目标图像。所以搜索问题就被转化为预测用户的问题。第四部分将描述怎样得到这种预测模型。

利用CBIR来搜索的一个阻碍就是缺少对搜索算法表现的一个定量的比较。典型的,有关搜索的长度的统计数据要被提出,例如,在基本让人满意的与目标图像相似的图像被找到之前被访问的图像的数量。这里“相似”这个词语的使用应该引起人们的深思,很明显,搜索长度依赖于数据库的内容结构和对把一个图像认为是相似的标准的定义有多么的严

格。在这篇文章中,搜索可以被分为三个大类。

1)限定目标搜索或者简单的说目标搜索:用户被要求在数据库中找到特定的图

像,除此之外的任何图像都不能使得搜索终止,无论搜索到的结果与目标图像多

么的相似。这种类型的搜索在检测领域很有价值,例如可以用来检查一个特定的

图标是否已经被注册,或者寻找一个特定的历史图片来匹配一个文档,或者寻找

一个文章和标题都被搜索着忘记的一个作品。

2)目录搜索:用户搜索一个属于一个特定的类别的图像,例如,“狗,”“小鸡,”“摩

天大厦,”或者“篮球比赛的场景”;某种情况下,当一个用户被要求去寻找一个

跟目标图像足够相似的图像时,用户会采用目录搜索。

3)开关搜索—浏览搜索:用户搜索一个专门的数据库的时候头脑中的目标非常广泛

和普通。在一个典型的应用中,一个用户可能最初想搜索一个贴在壁纸上的柔和

的几何图形,但是在搜索的过程中,当用户搜索数据库的时候,目标可能会几经

改变。

上面提到的贝叶斯的方法可以适应上述三种搜索策略。我们主要把焦点放在目标搜索,原因将在第五部分说明。

有一个可预见的模型的另一个优势是我们可以模拟这个模型来评估你个特定形式的交互会有多么的有效,进而设计出最佳的交互方案。在第七部分,我们描述了一个基于最小嫡原则的新奇的陈列算法。并对这个算法进行了模拟和实际的评估。

使用语义信息对在大的数据库里搜索图像有着极大的帮助。然而,现行的计算机版本的现状并不允许语义信息那么容易,自动的提取。因此,在许多的应用中,图像数据库中同样包含着文本注释。注释的文本能描述每个图像的一些语义信息。然而,基于文本搜索的有注释的图像数据库已经被证明存在诸多问题,包括用户对专业词汇的陌生和它对单一语言的严格。第六部分将在更多的细节上来探讨这个问题。

这篇文章展现了信息检索的综述,信息检索是使用一个可适应的贝叶斯方案的图像搜索系统,他在1996年第一次被发现,随后又不断的被提升到现在。我们提出了一个概念连续的并且可高度表达的架构来解决图像捕食者的问题,并且用一个简单的系统和仔细的实地试验验证了这个架构。第二部分描述了图像捕食者的理论基础并给出了必要的贝叶斯升级规则。为了执行这个理论架构,有必要制定一个用户界面和一个用户的模型。这些在第三部分和第四部分进行了描述。同样在第四部分被报告的实际试验支持这用户模型。为了评估相关反馈的效率和其他一些执行问题,我们引入了两个实验,这在第五部分进行了描述。我们同样给出了评估有无相关反馈情况下的图像检测系统表现的实验结果。然后,在第六部分,我们描述了注释如何可以在隐藏在用户之外的情况下仍然可以提供有价值的语义信息来加快搜索进程。通常,陈列给用户的找到的图像是当前匹配中最接近的结果。然而,这样的方案从搜索前景考虑并不理想。在第七部分,我们描述了陈列出来的试图最大化从用户每次重复的搜索中提取的信息的策略。理论和实际的研究表明了信息最大化方法的有用性。最后,第八部分描述了图像捕食者模型可能的扩展,第四部分描述了未来搜索前景的细节,第五部分了讨论图像捕食者对CBIR的贡献和其他更加广泛的问题

贝叶斯方程

在每次图像捕食者的方程替换中,t=1,2…..这个程序从它的数据库中陈列出一系列Dt 图像,用户则搜索At图像作为回应,这个过程在系统的监控之下进行。为方便起见,这部分的字符t用Ht来替换,并包括{D1,A1,D2,A2,…Dt,At}。

数据库中的图像被命名为T1,…,Tn,然后图像捕食者用概率的方法把每一个作为假定的目标。当迭代结束之后,图像捕食者系统评估图像数据库中的图像Ti是用户的目标图

像T的概率,根据历史,把最符合的记作P(T=Ti‖Ht).系统把优先评估的对象记作P(T=Ti)。这次的迭代结束之后,程序会选择另一组的Dt+1来陈列。这是做出最相似选择的最权威的策略,但是其他的可能策略将会在接下来的文中讨论。只要它是确定的,采用的某一个特定的方法跟我们用贝叶斯的方法对P(T=Ti‖Ht)进行立即的计算是不相关的。根据贝叶斯规则,我们可以得到公式

基于贝叶斯的图像检索系统

就是说,根据观测历史,Ti是目标图像的后验概率口蹄疫通过计算P得出,在事实上将目标图像假设成Ti的情况下。这里的P(T=Ti代表着一个先验概率。对P的权威处理是将P 分配至每一幅图像,但是一个可以使用其他的开始功能来处理这些早期的结果。

这个图像捕食者图像系统可以递增的从P(T=Ti‖Ht-1)来求出P(T=Ti\Ht),依据是下面的那个公式,

基于贝叶斯的图像检索系统

在这个公式中我们可以把P(At\T=Ti,Dt,Ht-1)记作P(Dt,At\T=Ti,Ht-1),因为Dt是Ht-1的一个确定的函数。

贝叶斯方法核心是字符P(At/T=Ti,Dt,Ht-1),我们把这个字符用作用户模型,因为它的目标是预测在给定了整个历史Dt,Ht-1并假设Ti就是他/她的目标的时候用户会做些什么。用户模型优先地把整个的时间空间T×Ht给出概率分布,其中T表示图像的数据库,Ht表示一系列可能的历史结果D1,A1,。。。,Dt,At。在我们的捕图者范例的实际体验中使用的特殊的用户模型在第四部分被描述。应该注意到用户模型的预测受限于Ti图像和所有到此为止已经被显示的图像。这就意味着这种模型可以自由地以不成熟的方式(例如像素点)来检查图像,或者依赖任何额外的被提到的信息。在实际操作中这个模型不直接检测像素点而是依赖一些附属的特征因素或者其他隐藏的特征,着将在下文提到。

若以Nd来表示每次方程中的图像的数量,我们的实验假设为2的Nd次方+Nd+1的可能空间,这个空间与用户的陈列图像的选择自己相对应,或者她/他的迹象表明Nd的其中一个就是目标图像,或者是各自的对应的“中断”信号。但是在我们的架构中有着许多的可表达的动作集合。

这样,我们工作的一个内容就把概念上的图像搜索问题的减少变成了三个具体任务:1,设计一个用户可能行为的空间,2,构造一个用户模型,3,选择一个图像显示策略。

我们的执行做了额外的使之简化的假设,假设用户有着模型P(At/T=Ti,Dt),例如,用户的行为时是不变的。应该注意到,然而,作为我们贝叶斯方程的结果,即使这种最简单的是不变模型都会使得图像捕食者以在搜索最开始的时候就体现所有用户行为的方式来升级它的可能性评估。

除了是不变的用户,我们实验的模型是充分地开发了贝叶斯方程的模型并且根据整个历史来调整数据。为保持增量估值的可能性,我们引入了写有状态和升级方程的用户模型的概念,

基于贝叶斯的图像检索系统

这个模型以某种初始状态S0开始,当观察到动作At时候,这个模型就会升级它的St-1来产生状态St。注意到我们认为状态的结构式不可变的。但是从它的效率考虑,有必要来把它设计得简单有效的。

然而,方程一是以一种完全通用的方式来表达图像捕食者的升级,它从陈述无关重要又连续的时不变的模型里面扫描了整个频谱,通过携带少量陈述的模型来生成P,在p中状态St就是Ht并且不受限制的成长。

找到有效的有表述模型对在图像捕食者的架构上的未来工作是一个很有趣的机会,我们认为陈述可以用来特征相关度,用户类型(专家还是初学者),通用模型类型(颜色还是文本)和其他方面的评估。

三用户交互界面

图像捕食者使用一种简单的用户界面,这种界面搜索目标时需要对用户进行最小的训练。CBIR系统的原理最终应该是被万维网的普通用户用作图像捕食者的工具,加强对他们的使用应该是容易而且自明的。用户在每次重复的搜索中产生了相关反馈。用户交互界面和用户模型是以图像中的相似相关判定为基础的,例如,“这些图像比起其他图像跟目标图像更加相似”。如果所有图像都与目标图像不相似,那用户就不能作出选择。许多的系统使用目录反馈来代替,在目录反馈中用户只能选择在相同目录下的图像作为目标。然而,这加重了用户的负担来在一个可能不熟悉的数据库中决定一个有用的图像目录,并且比起目标搜索好像更加适合目录搜索。

用户界面在图像一中展示了出来。它包含了Nd图像中的一小部分;在这个特地地执行时Nd=9.最初的显示由数据显示算法决定。目标图像总是展现在这些陈列的图像当中,来避免由于存储问题导致的可能的冲突。当然,目标图像也可以以传统的打印图像的格式来呈现,但是在好多情况下,CBIR系统并不知道哪一个是目标图像。用户通过用鼠标点击图像来不选择或者选择多个与想要的目标图像相似的图像。如果用户想要改变他们的选择,他们可以通过用鼠标再次点击图像来取消他们的选择;鼠标的点击有选择或者取消选择图像的功能。正如上面提到的,如果用户觉得所有的图像与他们想要的目标图像都不相似,他们可以不选择图像。当用户对他们作出的选择感到满意的时候,他们点击按钮“GO”来进入下一次的匹配。然后程序依据用户模型来解释用户的选择。最终更新阵列算法来决定哪个Nd图像将会在下一次迭代中出现。这个过程一直被重复知道想要的图像被找到。当这些目标达到后,用户单击被识别图像的上面的按钮。

基于贝叶斯的图像检索系统

四结论-讨论

图像捕食者的新的方法是它的基于试图预测用户的动作来将搜索的结果集中到目标图像周围的贝叶斯架构的方程。中心数据结构是贯穿于整个数据库的后验概率分布的向量,例如,每一个图像在这个向量中有一个入口来代表成为目标的可能性。这种分布依据每次迭代陈列之后的用户动作进行更新。这种动作被用户的模型“解读”,用户模型是除了概率向量以外的系统的第二大组成因素。这是一个使用人类对相似图像的判决的基本只是的,以经验得到的绘画和语义特征为基础的动作判断模型。用户模型以从我们的相似性判定实验中得到的数据为基础进行改进。系统的第三大部分,陈列更新设计,主要用来关注怎样为下一次的迭代陈列来选择图像。我们展现了两个主要的选择,一个最可实现的和一个最具价值的设计,它们展现出了比备用方案明显提高的表现。总的来说,这个系统在对各种各样的参加测验的以不同的目标图像为目标的用户的试验中表现地很好。正如已有的实验和使用该系统的用户的验证,早期的版本经过改进之后,很有前途。

在以目标测验计划条件下他们的表现为基础的比较算法中,我们做出了如果他们在测验条件下表现最佳那么他们在目录搜索或者开关浏览中同样会表现不错的隐形假设。我们就当目标检测版本用于目录搜索的形式时支持这个结论的试验作出报告。由于手头任务属性的模糊性,开关浏览的表现很难量化。开关浏览的主要要求是系统呈现出与用户的选择相似的图像并且避免呈现出与用户未选择的图像相似的图像,这将导致在呈现更新计划中部分的变化。同时,因为在搜索的过程中目标变化,用户必须被授权当他作出这个目标改

变时清除记忆,这样才能让他早期的选择不再影响呈现升级决定。

被人们使用的根据对用户来说的重要性来判决图像相似度对各式各样的标准进行排名非常的有必要。这些标准可以根据他们在预测相似性的判决中扮演的角色来分配权重。相关搜索已经被应用于多维定标方法来找到首要的塑造文本看法的成因。许多的图像进程研究已经着手利用文本来作为CBIR系统中的图像特征。Rogowitz et al将多维定标方法应用于人类的使用自然图像来判决人类相似性的领域;这个任务异常艰难,多半是因为语义学的存在。一个有趣的实验是让人们扮演图像捕食者的角色,来观察他们使用的标准,并且将他们的表现与图像捕食者作比较。

在假定用户模型所需时间不变的情况下,图像捕食者每次迭代的计算量和它的大概需要的存储空间与数据库中的图像线性相关。执行时间由用户模型决定,而空间由特征向量的容量决定。我们现在的技术氛围下研究的图像对象的数目大致是数百万,而不是数亿。我们注意到,用一个亚线性的用户模型完成时间接近它的贝叶斯更新和次级存储中的特征向量代表着未来的理论和系统工作的一个有趣的领域。

虽然我们已经证明搜索时间要比蛮力搜索用时少得多,但是它并没有少到让很少用户不满意的地步。我们纯粹的相关反馈方法可能会形成一个完全可以接受的系统,但是同样很可能一个混合的方法将会被证明效果最好。那就是说,一个系统使用了准确的问询,但是使用了相关反馈来减少搜索时间。

我们的实验表明人们在判断相似性的时候倾向于图像的语义信息。高度专业的数据库,例如在大型医药中心的医学图像数据库已经开始建立有注释的语义信息,而且这种趋势似乎正在蔓延到一般的电子图书馆。因此,看起来在图书馆数据库中搜索一个图像和搜索一个文本有着许多的共同之处。

在我们的实验中,有经验的用户比没有经验的用户表现得好得多,跟预期一样。例如,他们完成搜索的平均时间只是第一次使用该系统的用户的时间的65.5%到53.2%。然而,必须注意到当我们想第一次使用的人介绍了算法的用户模型之后,即便是第一次使用的用户也会逐渐地提高他们的分数。这种训练非常简单,持续时间不到8分钟,训练之后他们的搜索时间提高了20%。这种对非专家用户的最短训练之后的持续改善对搜索动力是个可期待的特征,使得对第一次使用的用户的在线短期培训得到了发展。

大多数的论文提供了以在用户找到一个与目标图像相似的图像之前要进行多少次的迭代来表征的搜索长度的数据。然而,这可能并不是一个可靠的方法,因为即使是一次随机的搜索也能产生一个相对较少的搜索长度,正如在实验中展示的那样。实际上,后者的搜索长度可以用作基准数据来评测一种算法的表现。更好的是,我们相信目标搜索算法下的数据提供了一个客观的表现的尺度。除此之外,这种估量展现了不同用户结果的微小的标准偏差,当每一个用户的结果平均到一个相当大的有着不同目标的数据中时,然而,相应的随机搜索基线展现了高度的可变性。因此,目标测试将需要更少的用户来建立相同程度的统计学上的自信。

这篇文章中的试验是图像捕食者在原理的成型。然而,他们的结果和发现确实非常有用的并且可以应用到任何的CBIR系统,甚至更广泛的,可以应用到任何涉及人类相似性判决的系统中。