文档库 最新最全的文档下载
当前位置:文档库 › 计算机视觉领域著名期刊

计算机视觉领域著名期刊

计算机视觉领域著名期刊
计算机视觉领域著名期刊

计算机视觉领域期刊和会议分析

分为三个级别:

tier-1:

IJCAI (1+): International Joint Conference on Artificial Intelligence AAAI (1): National Conference on Artificial Intelligence

COLT (1): Annual Conference on Computational Learning Theory

CVPR (1): IEEE International Conference on Computer Vision and Pattern Recognition

ICCV (1): IEEE International Conference on Computer Vision

ICML (1): International Conference on Machine Learning

NIPS (1): Annual Conference on Neural Information Processing Systems

ACL (1-): Annual Meeting of the Association for Computational Linguistics

KR (1-): International Conference on Principles of Knowledge Representation and Reasoning SIGIR (1-): Annual International ACM SIGIR Conference on Research and Development in Information Retrieval

SIGKDD (1-): ACM SIGKDD International Conference on Knowledge Discovery and Data Mining UAI (1-): International Conference on Uncertainty in Artificial Intelligence

*Impact factor (According to Citeseer 03):

IJCAI :1.82 (top 4.09 %)

AAAI :1.49 (top 9.17%)

COLT:1.49 (top 9.25%)

ICCV :1.78 (top 4.75%)

ICML :2.12 (top 1.88%)

NIPS :1.06 (top 20.96%)

ACL :1.44 (top 10.07%)

KR :1.76 (top 4.99%)

SIGIR :1.10 (top 19.08%)

Average:1.56 (top 8.02%)

IJCAI (1+): AI最好的综合性会议, 1969年开始, 每两年开一次, 奇数年开. 因为AI 实在太大,所以虽然每届基本上能录100多篇(现在已经到200多篇了),但分到每个领域就没几篇了,象machine learning、computer vision这么大的领域每次大概也就10篇左右, 所以难度很大. AAAI (1): 美国人工智能学会AAAI的年会. 是一个很好的会议, 但其档次不稳定, 可以给到1+,也可以给到1-或者2+, 总的来说我给它”1″. 这是因为它的开法完全受IJCAI制约: 每年开, 但如果这一年的IJCAI在北美举行, 那么就停开. 所以, 偶数年里因为没有IJCAI, 它就是最好的AI综合性会议, 但因为号召力毕竟比IJCAI要小一些, 特别是欧洲人捧AAAI场的比IJCAI少得多(其实亚洲人也是), 所以比IJCAI还是要稍弱一点, 基本上在1和1+之间; 在奇数年, 如果IJCAI不在北美, AAAI自然就变成了比IJCAI低一级的会议(1-或2+), 例如2005年既有IJCAI又有AAAI, 两个会议就进行了协调, 使得IJCAI的录用通知时间比AAAI的deadline 早那么几天, 这样IJCAI落选的文章可以投往AAAI.在审稿时IJCAI 的PC chair也在一直催, 说大家一定要快, 因为AAAI 那边一直在担心IJCAI的录用通知出晚了AAAI就麻烦了.

COLT (1): 这是计算学习理论最好的会议, ACM主办, 每年举行. 计算学习理论基本上可以看成理论计算机科学和机器学习的交叉, 所以这个会被一些人看成是理论计算机科学的会而不是AI的会. 我一个朋友用一句话对它进行了精彩的刻画: “一小群数学家在开会”. 因为COLT的领域比较小, 所以每年会议基本上都是那些人. 这里顺便提一件有趣的事, 因为最近国内搞的会议太多太滥, 而且很多会议都是LNCS/LNAI出论文集, LNCS/LNAI基本上已经被

搞臭了, 但很不幸的是, LNCS/LNAI中有一些很好的会议, 例如COLT.

CVPR (1): 计算机视觉和模式识别方面最好的会议之一, IEEE主办, 每年举行. 虽然题目上有计算机视觉, 但个人认为它的模式识别味道更重一些. 事实上它应该是模式识别最好的会议, 而在计算机视觉方面, 还有ICCV 与之相当. IEEE一直有个倾向, 要把会办成”盛会”, 历史上已经有些会被它从quality很好的会办成”盛会”了. CVPR搞不好也要走这条路. 这几年录的文章已经不少了. 最近负责CVPR会议的TC的chair发信说, 对这个community来说, 让好人被误杀比被坏人漏网更糟糕, 所以我们是不是要减少好人被误杀的机会啊? 所以我估计明年或者后年的CVPR就要扩招了.

ICCV (1): 介绍CVPR的时候说过了, 计算机视觉方面最好的会之一. IEEE主办, 每年举行. ICML (1): 机器学习方面最好的会议之一. 现在是IMLS主办, 每年举行. 参见关于NIPS的介绍.

NIPS (1): 神经计算方面最好的会议之一, NIPS主办, 每年举行. 值得注意的是, 这个会每年的举办地都是一样的, 以前是美国丹佛, 现在是加拿大温哥华; 而且它是年底开会, 会开完后第2年才出论文集, 也就是说, NIPS’05的论文集是06年出. 会议的名字“Advances in Neural Information Processing Systems”, 所以, 与ICML\ECML这样的”标准的”机器学习会议不同, NIPS里有相当一部分神经科学的内容, 和机器学习有一定的距离. 但由于会议的主体内容是机器学习, 或者说与机器学习关系紧密, 所以不少人把NIPS看成是机器学习方面最好的会议之一. 这个会议基本上控制在Michael Jordan的徒子徒孙手中, 所以对Jordan系的人来说, 发NIPS并不是难事, 一些未必很强的工作也能发上去, 但对这个圈子之外的人来说, 想发一篇实在很难, 因为留给”外人”的口子很小. 所以对Jordan系以外的人来说, 发NIPS的难度比ICML更大. 换句话说, ICML比较开放, 小圈子的影响不象NIPS那么大, 所以北美和欧洲人都认, 而NIPS则有些人(特别是一些欧洲人, 包括一些大家)坚决不投稿. 这对会议本身当然并不是好事, 但因为Jordan系很强大, 所以它似乎也不太care. 最近IMLS(国际机器学习学会)改选理事, 有资格提名的人包括近三年在ICML\ECML\COLT发过文章的人, NIPS则被排除在外了. 无论如何, 这是一个非常好的会.

ACL (1-): 计算语言学/自然语言处理方面最好的会议, ACL (Association of Computational Linguistics) 主办, 每年开.

KR (1-): 知识表示和推理方面最好的会议之一, 实际上也是传统AI(即基于逻辑的AI) 最好的会议之一. KR Inc.主办, 现在是偶数年开.

SIGIR (1-): 信息检索方面最好的会议, ACM主办, 每年开. 这个会现在小圈子气越来越重. 信息检索应该不算AI, 不过因为这里面用到机器学习越来越多, 最近几年甚至有点机器学习应用会议的味道了, 所以把它也列进来.

SIGKDD (1-): 数据挖掘方面最好的会议, ACM主办, 每年开. 这个会议历史比较短, 毕竟, 与其他领域相比,数据挖掘还只是个小弟弟甚至小侄儿. 在几年前还很难把它列在tier-1里面, 一方面是名声远不及其他的top conference响亮, 另一方面是相对容易被录用. 但现在它被列在tier-1应该是毫无疑问的事情了.

UAI (1-): 名字叫”人工智能中的不确定性”, 涉及表示\推理\学习等很多方面, AUAI (Association of UAI) 主办, 每年开.

________________________________________

tier-2:

AAMAS (2+): International Joint Conference on Autonomous Agents and Multiagent Systems ECCV (2+): European Conference on Computer Vision

ECML (2+): European Conference on Machine Learning

ICDM (2+): IEEE International Conference on Data Mining

SDM (2+): SIAM International Conference on Data Mining

ICAPS (2): International Conference on Automated Planning and Scheduling

ICCBR (2): International Conference on Case-Based Reasoning

COLLING (2): International Conference on Computational Linguistics

ECAI (2): European Conference on Artificial Intelligence

ALT (2-): International Conference on Algorithmic Learning Theory

EMNLP (2-): Conference on Empirical Methods in Natural Language Processing

ILP (2-): International Conference on Inductive Logic Programming

PKDD (2-): European Conference on Principles and Practice of Knowledge Discovery in Databases

*Impact factor (According to Citeseer 03):

ECCV :1.58 (top 7.20 %)

ECML :0.83 (top 30.63 %)

ICDM :0.35 (top 59.86 %)

ICCBR :0.72 (top 36.69 %)

ECAI :0.69 (top 38.49 %)

ALT :0.63 (top 42.91 %)

ILP :1.06 (top 20.80 %)

PKDD :0.50 (top 51.26 %)

Average:0.80 (top 32.02%)

AAMAS (2+): agent方面最好的会议. 但是现在agent已经是一个一般性的概念, 几乎所有AI有关的会议上都有这方面的内容, 所以AAMAS下降的趋势非常明显.

ECCV (2+): 计算机视觉方面仅次于ICCV的会议, 因为这个领域发展很快, 有可能升级到1-去. ECML (2+): 机器学习方面仅次于ICML的会议, 欧洲人极力捧场, 一些人认为它已经是1-了. 我保守一点, 仍然把它放在2+. 因为机器学习发展很快, 这个会议的reputation上升非常明显.

ICDM (2+): 数据挖掘方面仅次于SIGKDD的会议, 目前和SDM相当. 这个会只有5年历史, 上升速度之快非常惊人. 几年前ICDM还比不上PAKDD, 现在已经拉开很大距离了.

SDM (2+): 数据挖掘方面仅次于SIGKDD的会议, 目前和ICDM相当. SIAM的底子很厚, 但在CS里面的影响比ACM和IEEE还是要小, SDM眼看着要被ICDM超过了, 但至少目前还是相当的.

ICAPS (2): 人工智能规划方面最好的会议, 是由以前的国际和欧洲规划会议合并来的. 因为这个领域逐渐变冷清, 影响比以前已经小了.

ICCBR (2): Case-Based Reasoning方面最好的会议. 因为领域不太大, 而且一直半冷不热, 所以总是停留在2上.

COLLING (2): 计算语言学/自然语言处理方面仅次于ACL的会, 但与ACL的差距比ICCV-ECCV 和ICML-ECML大得多.

ECAI (2): 欧洲的人工智能综合型会议, 历史很久, 但因为有IJCAI/AAAI压着,很难往上升. ALT (2-): 有点象COLT的tier-2版, 但因为搞计算学习理论的人没多少, 做得好的数来数去就那么些group, 基本上到COLT去了, 所以ALT里面有不少并非计算学习理论的内容. EMNLP (2-): 计算语言学/自然语言处理方面一个不错的会. 有些人认为与COLLING相当, 但我觉得它还是要弱一点.

ILP (2-): 归纳逻辑程序设计方面最好的会议. 但因为很多其他会议里都有ILP方面的内容, 所以它只能保住2-的位置了.

PKDD (2-): 欧洲的数据挖掘会议, 目前在数据挖掘会议里面排第4. 欧洲人很想把它抬起来, 所以这些年一直和ECML一起捆绑着开, 希望能借ECML把它带起来.但因为ICDM和SDM。________________________________________

tier-3:

ACCV (3+): Asian Conference on Computer Vision

DS (3+): International Conference on Discovery Science

ECIR (3+): European Conference on IR Research

ICTAI (3+): IEEE International Conference on Tools with Artificial Intelligence

PAKDD (3+): Pacific-Asia Conference on Knowledge Discovery and Data Mining

ICANN (3+): International Conference on Artificial Neural Networks

AJCAI (3): Australian Joint Conference on Artificial Intelligence

CAI (3): Canadian Conference on Artificial Intelligence

CEC (3): IEEE Congress on Evolutionary Computation

FUZZ-IEEE (3): IEEE International Conference on Fuzzy Systems

GECCO (3): Genetic and Evolutionary Computation Conference

ICASSP (3): International Conference on Acoustics, Speech, and Signal Processing

ICIP (3): International Conference on Image Processing

ICPR (3): International Conference on Pattern Recognition

IEA/AIE (3): International Conference on Industrial and Engineering Applications of Artificial Intelligence and Expert Systems

IJCNN (3): International Joint Conference on Neural Networks

IJNLP (3): International Joint Conference on Natural Language Processing

PRICAI (3): Pacific-Rim International Conference on Artificial Intelligence

*Impact factor (According to Citeseer 03):

ACCV :0.42 (top 55.61%)

ICTAI :0.25 (top 69.86 %)

PAKDD :0.30(top 65.60 %)

ICANN :0.27 (top 67.73 %)

AJCAI :0.16 (top 79.44 %)

CAI :0.26 (top 68.87 %)

ICIP :0.50 (top 50.20 %)

IEA/AIE :0.09 (top 87.79 %)

PRICAI :0.19 (top 76.33 %)

Average:0.27 (top 68.30%)

ACCV (3+): 亚洲的计算机视觉会议, 在亚太级别的会议里算很好的了.

DS (3+): 日本人发起的一个接近数据挖掘的会议.

ECIR (3+): 欧洲的信息检索会议, 前几年还只是英国的信息检索会议.

ICTAI (3+): IEEE最主要的人工智能会议, 偏应用, 是被IEEE办烂的一个典型. 以前的quality 还是不错的, 但是办得越久声誉反倒越差了, 糟糕的是似乎还在继续下滑, 现在其实3+已经不太呆得住了.

PAKDD (3+): 亚太数据挖掘会议, 目前在数据挖掘会议里排第5.

ICANN (3+): 欧洲的神经网络会议, 从quality来说是神经网络会议中最好的, 但这个领域的人不重视会议,在该领域它的重要性不如IJCNN.

AJCAI (3): 澳大利亚的综合型人工智能会议, 在国家/地区级AI会议中算不错的了.

CAI (3): 加拿大的综合型人工智能会议, 在国家/地区级AI会议中算不错的了.

CEC (3): 进化计算方面最重要的会议之一, 盛会型. IJCNN/CEC /FUZZ-IEEE这三个会议是计算智能或者说软计算方面最重要的会议, 它们经常一起开, 这时就叫WCCI (World Congress on Computational Intelligence). 但这个领域和CS其他分支不太一样, 倒是和其他学科相似, 只重视journal, 不重视会议, 所以录用率经常在85%左右, 所录文章既有quality非常高的论文, 也有入门新手的习作.

FUZZ-IEEE (3): 模糊方面最重要的会议, 盛会型, 参见CEC的介绍.

GECCO (3): 进化计算方面最重要的会议之一, 与CEC相当,盛会型.

ICASSP (3): 语音方面最重要的会议之一, 这个领域的人也不很care会议.

ICIP (3): 图像处理方面最著名的会议之一, 盛会型.

ICPR (3): 模式识别方面最著名的会议之一, 盛会型.

IEA/AIE (3): 人工智能应用会议. 一般的会议提名优秀论文的通常只有几篇文章, 被提名就已经是很高的荣誉了, 这个会很有趣, 每次都搞1、20篇的优秀论文提名, 专门搞几个session做被提名论文报告, 倒是很热闹.

IJCNN (3): 神经网络方面最重要的会议, 盛会型, 参见CEC的介绍.

IJNLP (3): 计算语言学/自然语言处理方面比较著名的一个会议.

PRICAI (3): 亚太综合型人工智能会议, 虽然历史不算短了, 但因为比它好或者相当的综合型会议太多, 所以很难上升.

机器视觉文献综述

文献综述 河北科技师范学院 文献综述 题目:基于计算机视觉测量技术 姓名:张力坤 一.国内外现状 机器视觉自起步发展到现在,已有将近20年的发展历史。应该说机器视觉作为一种应用系统,其功能特点是随着工业自动化的发展而逐渐完善和发展的。 目前全球整个视觉市场总量大概在70~80亿美元,是按照每年8.8%的增长速度增长的。而在中国,这个数字目前看来似乎有些庞大,但是随着加工制造业的发展,中国对于机器视觉的需求将承上升趋势。 何谓机器视觉? 简言之,机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是指通过机器视觉产品(即图像摄取装置,分CMOS和CCD 两种)将被摄取目标转换成图像信号,传送给专用的图像处理系统,根据像素分布和亮度、颜色等信息,转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征,进而根据判别的结果来控制现场的设备动作。 机器视觉系统的特点是提高生产的柔性和自动化程度。在一些不适合于人工作业的危险工作环境或人工视觉难以满足要求的场合,常用机器视觉来替代人工视觉;同时在大批量工业生产过程中,用人工视觉检查产品质量效率低且精度不高,用机器视觉检测方法可以大大提高生产效率和生产的自动化程度。而且机器视觉易于实现信息集成,是实现计算机集成制造的基础技术。 正是由于机器视觉系统可以快速获取大量信息,而且易于自动处理,也易于同设计信息以及加工控制信息集成,因此,在现代自动化生产过程中,人们将机器视觉系统广泛地用于工况监视、成品检验和质量控制等领域。在中国,这种应用也在逐渐被认知,且带来最直接的反应就是国内对于机器视觉的需求将越来越多。 机器视觉在国内外的应用现状在国外,机器视觉的应用普及

基于计算机视觉步态识别系统的方法研究

第21卷第4期湖 北 工 业 大 学 学 报2006年08月 V ol.21N o.4 Journal of H ubei U niversity of T echnology Aug.2006 [收稿日期]2006-05-23[作者简介]程 琼(1959-),女,湖北武汉人,湖北工业大学副教授,研究方向:模式识别及计算机控制. [文章编号]1003-4684(2006)0820101203 基于计算机视觉步态识别系统的方法研究 程 琼,庄留杰 (湖北工业大学电气与电子工程学院,湖北武汉430068) [摘 要]对目前步态识别系统的研究方法进行了分析、归类与总结,并在原有的研究方法基础上提出了三维 系统建模与跟踪新方法.计算机视觉技术为步态识别系统提供了强有力的分析工具. [关键词]步态识别;计算机视觉;研究方法[中图分类号]TP391.41 [文献标识码]:A 步态识别作为一种新兴的生物特征识别技术, 当前已成为基于视觉的人体运动分析领域的研究热点.步态识别是一种潜在的行为特征,相关研究已证实它可以用于身份识别. 1 步态识别系统组成 步态识别是从相同行走行为中寻找和提取相应个体的可区分的变化来自动进行身份识别.基于视 觉的步态识别系统,如图1所示,监控摄像机用于捕捉监控领域中的行人,结合背景的自动建模和更新,步态检测用来检测行人.行人在二维或三维空间中被连续跟踪.从跟踪结果中,步态模式的一些个性化特征被相应地提取.结合在步态数据库中已经存储的步态模式,分类器最后给出识别结果 . 2 基于视觉的步态分析 步态作为生物特征的可用性在早期已得到证明,关健是如何利用计算机视觉方法来获取个体运动特征.人体建模的选择对于从图像中识别人的形状,正确分析人的运动是非常重要的.骨架图模型是 以直线近似在关节点处所连接的骨骼来表达人体;立体模型能更好地表达人体,它利用广义锥台、椭圆柱、球等三维模型来描述人体的结构细节[1]. 许多研究将人的运动定义为身体运动的不同姿势.有2种主要方法来建模人的运动:一种是基于模型的方法,即选择人体模型后,该模型的三维结构从图像序列中进行恢复;另一种方法重在确定运动场的特征,而不需结构的重构.运动行为的识别可以认为是时变数据的分类问题. 可以看出,人体建模、跟踪与运动识别技术等视觉方法已为步态分析提供了一种强有力的分析工具. 3 步态识别方法分类 当前的步态识别方法有:1)使用行人的时空模式得到步态特征;2)通过光流分布来提取特征;3)特征化实际运动的外观.而如何紧支有效地表达分割出来的或跟踪的行人是非常重要的,因为它将直接或被进一步分析,以获取用于识别的步态特征. 步态包括2类分量:结构化分量,它捕捉了一个人的身体形状;动态分量,它捕捉人体行走期间的运 动特征.根据分析,步态识别方法一是基于模型或结构的方法,它通常建模人体结构并且提取图像特征来影射它们为模型的结构化分量,或者衍生出人体部分的运动轨迹来识别个体;二是非结构或者基于运动的方法,它通常特征化人体的整个运动模式来获取运动特征,而不考虑潜在的结构[2].

数据挖掘简介

数据挖掘综述

数据挖掘综述 摘要:数据挖掘是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明数据挖掘产生的背景,数据挖掘的步骤和基本技术是什么,然后介绍数据挖掘的算法和主要应用领域、国内外发展现状以及发展趋势。 关键词:数据挖掘,算法,数据库 ABSTRACT:Data mining is a relatively new database technology, it is based on database, which is constituted by a large number of data coming from daily accumulation, and find potential, valuable information - called knowledge from it, used to support decision-making. Data mining is a database application technology, this article first outlines, expounds the background of data mining , the steps and basic technology, then data mining algorithm and main application fields, the domestic and foreign development status and development trend. KEY WORDS: data mining ,algorithm, database 数据挖掘产生的背景 上世纪九十年代.随着数据库系统的广泛应用和网络技术的高速发展,数据库技术也进入一个全新的阶段,即从过去仅管理一些简单数据发展到管理由各种计算机所产生的图形、图像、音频、视频、电子档案、Web页面等多种类型的复杂数据,并且数据量也越来越大。在给我们提供丰富信息的同时,也体现出明显的海量信息特征。信息爆炸时代.海量信息给人们带来许多负面影响,最主要的就是有效信息难以提炼。过多无用的信息必然会产生信息距离(the Distance of Information-state Transition,信息状态转移距离,是对一个事物信息状态转移所遇到障碍的测度。简称DIST或DIT)和有用知识的丢失。这也就是约翰·内斯伯特(John Nalsbert)称为的“信息丰富而知识贫乏”窘境。因此,人们迫切希望能对海量数据进行深入分析,发现并提取隐藏在其中的信息.以更好地利用这些数据。但仅以数据库系统的录入、查询、统计等功能,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。更缺乏挖掘数据背后隐藏知识的手段。正是在这样的条件下,数据挖掘技术应运而生。 数据挖掘的步骤 在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊的实施并取得成功。很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型,来指导他们的用户一步步的进行数据挖掘工作。比如SPSS公司的5A和SAS公司的SEMMA。 数据挖掘过程模型步骤主要包括:1定义商业问题;2建立数据挖掘模型;3分析数据;4准备数据;5建立模型;6评价模型;7实施。 1定义商业问题。在开始知识发现之前最先的同时也是最重要的要求就是了

计算机视觉应用专题报告

二、技术应用场景及典型厂商分析 1.计算机视觉技术已应用于传统行业和前沿创新,安全/娱乐/营销成最抢先落地的商业化领域 计算机视觉技术已经步入应用早期阶段,不仅渗透到传统领域的升级过程中,还作为最重要的基础人工智能技术参与到前沿创新的研究中。 本报告将重点关注技术对传统行业的影响。其中,计算机对静态内容的识别应用主要体现在搜索变革和照片管理等基础服务层面,意在提升产品体验;伴随内容形式的变迁(文字→图片→视频),动态内容识别的需求愈加旺盛,安全、娱乐、营销成为最先落地的商业化领域。 Analysys易观认为,这三类领域均有一定的产业痛点,且均是视频内容产出的重地,数据体量巨大,适合利用深度学习的方式予以改进。与此同时,行业潜在的商业变现空间也是吸引创业者参与的重要原因。 另一方面,当前计算机视觉主要应用于二维信息的识别,研究者们还在积极探索计算机对三维空间的感知能力,以提高识别深度。

2.计算机视觉的应用从软硬件两个层面优化安防人员的作业效率和深度 安防是环境最为复杂的应用领域,通常的应用场景以识别犯罪嫌疑人、目标车辆(含套牌车/假牌车)以及真实环境中的异常为主。 传统安防产品主要功能在于录像收录,只能为安防人员在事后取证的环节提供可能的线索,且需要人工进行反复地逐帧排查,耗时耗力;智能安防则是将视频内容结构化处理,通过大数据分析平台进行智能识别搜索,大大简化了工作难度,提高工作效率。 除此之外,在硬件层面上,传统安防产品超过4-5米的监控内容通常无法达到图像识别的像素要求,并容易受复杂环境中光影变化和移动

遮挡的影响而产生信息丢失,因此计算机会出现大量的误报漏报,这些局限为治安工作造成了一定的阻碍。 安防技术厂商在此基础上进行了创新,以格灵深瞳为例,目前已将摄像头的有效识别距离稳定至70-80米,同时开创了三维计算机视觉的应用,通过整合各类传感器达到类人眼的效果,减弱了环境对信息采集的负面影响,提高复杂环境下的识别准确度。 Analysys易观认为,计算机视觉的应用从行业痛点出发,以软硬件的方式大大优化了安防人员的作业效率与参考深度,是顺应行业升级的利好。不过,在实际应用过程中,对公安、交警、金融等常见安防需求方而言,更强的视觉识别效果往往意味着更多基础成本(存储、带宽等)的投入,安防厂商的未来将不只以技术高低作为唯一衡量标准,产品的实用性能与性价比的平衡才是进行突围、实现量产的根本,因此市场除了有巨大的应用空间外,还会引发一定的底层创新。

基于计算机视觉技术的水果分级研究进展

基于计算机视觉技术的水果分级研究进展 曹乐平 (湖南生物机电职业技术学院,长沙 410127) 摘要:较为全面地介绍了国内外基于计算机视觉技术的水果外观品质的单指标分级、多指标综合分级和水果内部品质检测分级的研究现状与方法,指出了现有研究中研究对象较单一、图像采集不全面、图像处理算法不多、精度不高等存在的主要问题。同时,提出了未来水果分级的发展方向,认为水果内外品质融合的一体化分级技术是未来的发展趋势。 关键词:计算机应用;计算机视觉;综述;水果;内外品质;图像处理;分级 中图分类号:TP391.41 文献标识码:A 文章编号:1003─188X(2007)11─0010─06 0 引言 我国是世界水果生产大国,自1993年以来,水果总产量一直居世界第1位。据农业部预测统计,2006年我国水果产量及果园面积保持继续增长势头,果园面积突破10000khm2,水果总产量近17000万t[1],但我国水果在国际市场的竞争力很弱,出口水果数量占总产量的极少部分,2005年和2006年鲜冷冻水果出口维持在200万t左右,以香港市场为例,我国出口柑橘数量占香港市场的2/3,但是我国收汇只占1/3,单价仅为其他国家的1/4。提高我国水果在国际市场的竞争力,强化采后处理是关键。发达国家的经验告诉我们,水果产值的大部分是由采后处理和加工创造出来的[2]。在美国、欧洲以及澳大利亚等国家,除了在收获季节随摘随卖少量水果之外,绝大部分水果都必须经过采后处理程序,否则不能成为商品[3]。目前,我国水果采后处理能力不到水果总量的5%,采后烂果率高达25%以上。由此可见,水果采后处理对我国水果业乃至整个农业的重要性。 1 水果外部品质分级现状 水果智能分级技术涉及计算机、CCD技术、模式识别、数字图像处理、光学、数学、数学形态学、自动化、人工智能、视觉学、心理学、脑科学等众多学科[4]。全球从事计算机视觉产品生产的企业有上百家,产品有相机、电源、传感器、镜头、图像卡、图像处理器和软件包等。知名企业有:DALSA coreco,Siemens,SICK,National Instrument,Edmund Optics Inc,Hamamatsu Photonic Systems,Basler Vision Technologies和Cognex等[5]。生产智能水果分级设备也不少,Mitsubishi Corpor- ation生产水果成熟度分级机,美国俄勒冈州的Alle Electronics Corporation生产“Inspect- tronic”装置,美国Autoline Corporation生产Model 4至Model 8的系列分级设备。我国浙江、江苏和台湾也生产有分级设备。基于计算机视觉技术的水果外部品质分级是根据水果的大小、形状、颜色和表面缺陷等外部品质特征进行的,有单指标分级和多指标综合分级两大类。 1.1 基于计算机视觉技术的水果单指标分级 1.1.1 水果大小分级 水果大小是分级的主要依据之一,是水果等级不可缺少的重要指标。Dabenel A等(1988)[6]利用机器视觉技术进行苹果大小和碰伤分级的深入研究,但分级正确率仅为69%。国内开展水果智能分级的研究已近10年,由于很好地借鉴了国外在该领域的研究成果,发展速度较快。应义斌(2000)[7]去除果梗并完成了边缘提取与细化的水果图像,通过曲线积分并离散,求水果形心坐标,进而建立黄花梨实际最大横径与预测最大横径关系的线性回归方程,二者相关系数为0.96。冯斌等(2003)[8]通过水果图像的边缘像素求水果形心,取过形心的半径序列中最小值方向为水果轴向,将轴向宽度4等分,过3等分点求垂直于轴向的果径,最大值作为水果大小的特征值。试验结果表明,轴向检测正确率达94.4%,水果大小检测最大绝对测量误差为3mm。饶秀勤等(2003)[9]分析了水果实际尺寸与测量值之间的半径误差是由成像时光线无法从水果最 收稿日期:2007-03-05 基金项目:湖南省教育厅科学研究项目(06D059)。 作者简介:曹乐平(1964-),男,长沙人,副教授,(E-mail)clp 4218@https://www.wendangku.net/doc/259744294.html,。 - 10 -

关于计算机视觉的手势识别综述

关于计算机视觉的手势识别综述 蒋指挥 (江苏科技大学江苏镇江 213022) 摘要:计算机技术的高速发展也产生了许多新领域,在此对以计算机视觉为基础的手势检测识别技术展开综述。主要阐述该技术的发展历程、实现方法、研究现状以及其存在的不足之处和发展方向。结果表明简单的可穿戴设备的手势识别和深度视觉传感器的手势识别和多方法交叉融合的手势识别是未来该领域的发展方向。 关键词:计算机视觉;手势识别;人机交互 A survey of gesture recognition in computer vision//Jiang Zhi Hui Abstract;With the rapid development of computer technology, a lot of new fields have been developed. In this paper, the technology of gesture detection and recognition based on computer vision is reviewed. This paper describes the development of the technology, the realization method, the research status and its shortcomings and development direction. The results show that the simple wearable device for hand gesture recognition and depth vision sensor for hand gesture recognition and multi method cross fusion for gesture recognition is the future direction of the development of the field. Key words:Computer vision; gesture recognition; human-computer interaction 计算机在我们的生活中越来越不可或缺,我们同时也对计算机提出了更高的要求,计算机视觉的手势识别正是对计算机应用拓展的重要途径,例如现在的VR技术,就是应用了手势识别才实现的。ABIResearch公司高级分析师约书亚·弗拉德(JoshuaFlood)指出:“免提操作或手势识别很快将成为高端旗舰智能手机、媒体平板电脑和智能眼镜区别于其他同类产品的一个关键因素。三星电子最新推出银河S4已经将这项技术用于其手机中,并以其全新的用户体验获得用户交口称赞。此外,在一系列新型智能眼镜产品即将发布之时,不难想象这类技术将被采用。”其实手势识别技术涵盖了许多领域,比如物理学、生物学等,实现手势识别的方式有很多种从一开始的二维手型识别、二维手势识别到后来的三维手势识别,正是计算机视觉技术的发展使得手势识别的实现方式更加多样。但目前的技术仍然很繁琐,冗杂的可穿戴设备就直接影响了使用者的舒适感,其还有很大的发展空间。 1、手势识别的发展历程及其实现方法

2019-2020年中国计算机视觉行业市场研究

2019-2020 中国计算机视觉行业市场研究

目录 1 方法论 (4) 1.1 方法论 (4) 1.2 名词解释 (5) 2 中国计算机视觉行业市场综述 (9) 2.1 计算机视觉行业定义 (9) 2.2 计算机视觉行业分类 (9) 2.3 中国计算机视觉行业规模 (12) 2.4 计算机视觉行业产业链 (13) 2.4.1 产业链上游 (13) 2.4.2 产业链中游 (16) 2.4.3 产业链下游 (16) 3 中国计算机视觉行业驱动因素 (18) 3.1 深度学习算法促进计算机视觉准确度提升 (18) 3.2 海量数据为深度学习算法提供了大量的数据支持 (19) 3.3 人工智能芯片发展提供算力支持 (20) 3.4 计算机视觉应用前景广阔 (20) 4 中国计算机视觉行业制约因素 (22) 4.1 中国计算机视觉实际商业应用能力仍需提高 (22)

4.2 高质量数据获取成本高、难度大 (22) 5 中国计算机视觉行业相关政策法规 (24) 6 中国计算机视觉行业发展趋势 (26) 6.1 计算从云端到智能前端 (26) 6.2 云+AI,智能云端赋能前端实现计算机视觉 (27) 7 中国计算机视觉行业竞争格局 (29) 7.1 中国计算机视觉行业竞争格局概览 (29) 7.2 中国计算机视觉行业典型企业分析 (29)

图表目录 图 2-1中国计算机视觉行业规模,2014-2023年预测 (12) 图 2-2计算机视觉行业产业链 (13) 图 2-3视频图像采集设备芯片 (15) 图 2-4计算机视觉应用领域 (17) 图 3-1计算机视觉相关数据集 (19) 图 3-2计算机视觉部分应用领域 (21) 图 4-1数据、算法、商业应用产品作用机制 (23) 图 5-1人工智能与计算机视觉相关政策 (25) 图 7-1 格灵深瞳智能算法技术 (33) 图 7-2 格灵深瞳产品 (34)

计算机视觉各种方法

第33卷第1期自动化学报Vol.33,No.1 2007年1月ACTA AUTOMATICA SINICA January,2007 车辆辅助驾驶系统中基于计算机视觉的 行人检测研究综述 贾慧星1章毓晋1 摘要基于计算机视觉的行人检测由于其在车辆辅助驾驶系统中的重要应用价值成为当前计算机视觉和智能车辆领域最为活跃的研究课题之一.其核心是利用安装在运动车辆上的摄像机检测行人,从而估计出潜在的危险以便采取策略保护行人.本文在对这一问题存在的困难进行分析的基础上,对相关文献进行综述.基于视觉的行人检测系统一般包括两个模块:感兴趣区分割和目标识别,本文介绍了这两个模块所采用的一些典型方法,分析了每种方法的原理和优缺点.最后对性能评估和未来的研究方向等一系列关键问题给予了介绍. 关键词行人检测,车辆辅助驾驶系统,感兴趣区分割,目标识别 中图分类号TP391.41 A Survey of Computer Vision Based Pedestrian Detection for Driver Assistance Systems JIA Hui-Xing ZHANG Yu-Jin Abstract Computer vision based pedestrian detection has become one of the hottest topics in the domain of computer vision and intelligent vehicle because of its potential applications in driver assistance systems.It aims at detecting pedestrians appearing ahead of the vehicle using a vehicle-mounted camera,so as to assess the danger and take actions to protect pedestrians in case of danger.In this paper,we give detailed analysis of the di?culties lying in the problem and review most of the literature.A typical pedestrian detection system includes two modules:regions of interest(ROIs) segmentation and object recognition.This paper introduces the principle of typical methods of the two modules and analyzes their respective pros and cons.Finally,we give detailed analysis of performance evaluation and propose some research directions. Key words Pedestrian detection,driver assistance system,ROIs segmentation,object recognition 1引言 车辆辅助驾驶系统中基于计算机视觉的行人检测是指利用安装在运动车辆上的摄像机获取车辆前面的视频信息,然后从视频序列中检测出行人的位置.由于它在行人安全方面的巨大应用前景,成为智能车辆、计算机视觉和模式识别领域的前沿研究课题.欧盟从2000年到2005年连续资助了PROTECTOR[1]和SAVE-U[2]项目,开发了两个以计算机视觉为核心的行人检测系统;意大利Parma[3]大学开发的ARGO智能车也包括一个行人检测模块;以色列的MobilEye[4]公司开发了芯 收稿日期2006-3-14收修改稿日期2006-6-17 Received March14,2006;in revised form June17,2006 国家自然科学基金(60573148),教育部高等学校博士学科点专项科研基金(20060003102)资助 Supported by National Natural Science Foundation of P.R.China(60573148),Specialized Research Fund for the Doc-toral Program of Higher Education(20060003102) 1.清华大学电子工程系北京100084 1.Department of Electronic Engineering,Tsinghua University, Beijing100084 DOI:10.1360/aas-007-0084片级的行人检测系统;日本本田汽车公司[5]开发了基于红外摄像机的行人检测系统;国外的大学如CMU[6]、MIT[7,8]和国内的西安交通大学[9]、清华大学[10]也在该领域做了许多研究工作. 车辆辅助驾驶系统中基于计算机视觉的行人检测属于计算机视觉中人体运动分析的研究范畴,其主要任务是在运动摄像机下快速准确地检测行人.本文主要针对这一特定领域对相关的文献进行综述,重点分析常用方法的原理和优缺点,以期对相关的科技人员起到指导作用.对监控系统和体育运动分析领域中人体检测感兴趣的读者可以参考综述文献[11~14]. 行人检测除了具有一般人体检测具有的服饰变化、姿态变化等难点外,由于其特定的应用领域还具有以下难点:摄像机是运动的,这样广泛应用于智能监控领域中检测动态目标的方法便不能直接使用;行人检测面临的是一个开放的环境,要考虑不同的路况、天气和光线变化,对算法的鲁棒性提出了很高的要求;实时性是系统必须满足的要求,这 c 2007by Acta Automatica Sinica.All rights reserved.

基于计算机视觉的测距算法研究

电子科技大学 2012级本科毕业设计(论文)开题报告表

只有这样计算机才能运行。为使更多的人能使用复杂的计算机,必须改变过去的那种让人来适应计算机,来死记硬背计算机的使用规则的情况。而是反过来让计算机来适应人的习惯和要求,以人所习惯的方式与人进行信息交换,也就是让计算机具有视觉、听觉和说话等能力。这时计算机必须具有逻辑推理和决策的能力。具有上述能力的计算机就是智能计算机。 智能计算机不但使计算机更便于为人们所使用,同时如果用这样的计算机来控制各种自动化装置特别是智能机器人,就可以使这些自动化系统和智能机器人具有适应环境,和自主作出决策的能力。这就可以在各种场合取代人的繁重工作,或代替人到各种危险和恶劣环境中完成任务。 3、课题研究内容 将计算机视觉和图像处理技术应用到车辆驾驶辅助系统当中可以有效地为车辆行驶提供安全保障。而在计算机视觉中,利用视觉信息感知环境,由单幅二维投影图像确定目标与装载摄像机物体之间距离信息的研究,是目前智能交通系统(ITS)和智能车辆系统(IVS)的关键技术之一。本文主要研究针对ITS和IVS的单目视觉测距方法。基于单目视觉的测量技术是从计算机视觉领域中发展起来的新型非接触测量技术,它是一种结合图像处理技术,把图像当作检测和传递信息的手段或载体而加以利用的测量方法。本文利用投影几何原理和图像处理方法研究了单目测距算法,重点研究了摄像机标定技术、图像预处理方法、障碍物体检测及计算障碍物体距离的算法。本文首先采用了一种在照、摄像机内外部参数未知的条件下,利用图像平面中的平行线,以及它们形成的消隐点具有几何约束关系来实现摄像机标定的新方法。该方法与以前方法相比,计算复杂性不高,但相对而言,准确性和鲁棒性较高,且无须在使用前标定相机,更符合实际需要(因现今的照、摄像机都是变焦距的),从而具有广泛的推广价值。其次,对多种图像预处理方法进行了分析、比较和选择,采用的方法兼顾了图像处理效果和实时性要求。最后,在分析道路特征的基础上建立了道路几何模型,并利用改进的Hough变换提取出道路边缘曲线模型。并在现有单一道路模型测距算法的基础上做了改进,提出了混合几何模型的单目测距算法。模拟试验结果表明该算法对视觉测距领域的研究有一定的借鉴意义。 4、关键问题及研究目标 本次研究目标主要是通过对已有基于计算机视觉的测距算法的实现和评估。关键问题在于如何用OpenCV实现这些算法并对其进行合适的评估。 5、研究特点 基于计算机视觉的距离测量主要是单目测距和多目测距,它们都有各自的优点,也

计算机视觉在各个方面的应用

计算机视觉在各个方面的应用 摘要 计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。 关键词:图像处理,模式识别,图像理解。 正文 1.1序言 计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息,就像人类和许多其他类生物每天所做的那样。 计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算计科学和工程、信号处理、物理学、应用数学和统计学,神经生理学和认知科学等。 所需要的知识储备以及相关课程如下, 图1-1 图1-2

1.1.2 现阶段的形式 视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种智能/自主系统中不可分割的一部分。由于它的重要性,一些先进国家,例如美国把对计算机视觉的 图1-3计算机视觉与其他领域的关系 研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题,即所谓的重大挑战(grand challenge)。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。作为一门学科,计算机视觉开始于60年代初,但在计算机视觉的基本研究中的许多重要进展是在80年代取得的。计算机视觉与人类视觉密切相关,对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。为此我们将先介绍人类视觉。 人类正在进入信息时代,计算机将越来越广泛地进入几乎所有领域。一方面是更多未经计算机专业训练的人也需要应用计算机,而另一方面是计算机的功能越来越强,使用方法越来越复杂。这就使人在进行交谈和通讯时的灵活性与目前在使用计算机时所要求的严格和死板之间产生了尖锐的矛盾。人可通过视觉和听觉,语言与外界交换信息,并且可用不同的方式表示相同的含义,而目前的计算机却要求严格按照各种程序语言来编写程序,只有这样计算机才能运行。为使更多的人能使用复杂的计算机,必须改变过去的那种让人来适应计算机,来死记硬背计算机的使用规则的情况。而是反过来让计算机来适应人的习惯和要求,以人所习惯的方式与人进行信息交换,也就是让计算机具有视觉、听觉和说话等能力。这时计算机必须具有逻辑推理和决策的能力。具有上述能力的计算机就是智能计算机。 智能计算机不但使计算机更便于为人们所使用,同时如果用这样的计算机来控制各种自动化装置特别是智能机器人,就可以使这些自动化系统和智能机器人具有适应环境,和自主作出决策的能力。这就可以在各种场合取代人的繁重工作,或代替人到各种危险和恶劣环境中完成任务。 1.1.3 简单原理 计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界,具有自主适应环境的能力。要经过长期的努力才能达到的目标。因此,在实现最终目标以前,人们努力的中期目标是建立一种视觉系统,这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。例如,计算机视觉的一个重

计算机视觉系统及其应用

课程设计 课程名称工业自动化专题 题目名称_计算机视觉系统及其应用学生学院_____自动化________ 专业班级______ 学号 学生姓名____ 指导教师___________ 2013 年 6月 25日

机器视觉系统及其应用 摘要:主要介绍机器视觉系统的概要,简要分析机器视觉的特点、优越性和应用,具体介绍了机器视觉技术在印刷行业、农业、工业、医学中的实际应用,并且分别举例说明。机器视觉的诞生和应用在理论和实际中均具有重要意义。 关键词:机器视觉;标签检测;药物检测;水果品质检测;硬币检测。 1. 机器视觉系统 1.1 机器视觉系统简介 机器视觉系统是指利用机器替代人眼做出各种测量和判断。机器视觉是工程领域和科学领域中的一个非常重要的研究领域,它是一门涉及光学、机械、计算机、模式识别、图像处理、人工智能、信号处理以及光电一体化等多个领域的综合性学科。 机器视觉系统通过图像摄取装置将被摄取目标转换成图像信号,传送给专用的图像处理系统,根据像素分布和亮度、颜色等信息,转变成数字化信号。机器视觉系统可以快速获取大量信息,而且易于自动处理,也易于同设计信息以及加工控制信息集成。 机器视觉系统的优点有:1.非接触测量,对于被检测对象不会产生任何损伤,而且提高了系统能够的可靠性;2.较宽的光谱响应范围,例如使用人眼看不见的红外测量,扩展人眼的视觉范围;3.长时间稳定工作,人类难以长时间对同一对象进行观察,而机器视觉系统则可以长时间地作测量、分析和识别任务。 现在,机器视觉系统在工业、农业、国防、交通、医疗、金融甚至体育、娱乐等等行业都获得了广泛的应用,可以说已经深入到我们的生活、生产和工作的方方面面。 1.2 基本原理 图 1 是机器视觉系统的基本结构,在一定的光照(包括可见光,红外线甚至超声波等各种成象手段)条件下,成象设备(摄象机,图像采集板等)把三维场景的图像采集到计算机内部,形成强度的二维阵列——原始图象;然后,运用图像处理技术对采集到的原始图像进行预处理以得到质量改善了的图像;其次,运用机器视觉技术从图像中提取感兴趣的特征分类整理;,构成对图像的进一步,运用模式识别技术对抽取到的特征进行描述;最后,运用人工智能得到更高层次的抽象描述。完成视觉系统的任务。 图1机器视觉的基本结构

数据挖掘相关的权威期刊和会议

数据挖掘相关的权威期刊和会议 ----------------------------------------------- 数据挖掘相关的权威期刊和会议 ----------------------------------------------- [Journals] 1.ACM Transactions on Knowledge Discovery from Data (TKDD) 2.IEEE Transactions on Knowledge and Data Engineering (TKDE) 3.Data Mining and Knowledge Discovery 4.Knowledge and Information Systems 5.Data & Knowledge Engineering [Conferences] 1.SIGMOD:ACM Conference on Management of Data (ACM) 2.VLDB:International Conference on Very Large Data Bases (Morgan Kaufmann/ACM) 3.ICDE:IEEE International Conference on Data Engineering (IEEE Computer Society) 4.SIGKDD:ACM Knowledge Discovery and Data Mining (ACM) 5.WWW:International World Wide Web Conferences (W3C) 6.CIKM:ACM International Conference on Information and Knowledge

计算机视觉领域的一些牛人博客

/************ 本文转载自csdn:https://www.wendangku.net/doc/259744294.html,/carson2005/ ************/ 希望对iprai的童鞋有所参考 ;-) ===================================== cut line =========================== 以下链接是本人整理的关于计算机视觉(ComputerVision, CV)相关领域的网站链接,其 中有CV牛人的主页,CV研究小组的主页,CV领域的paper,代码,CV领域的最新动态,国内的 应用情况等等。打算从事这个行业或者刚入门的朋友可以多关注这些网站,多了解一些CV的 具体应用。搞研究的朋友也可以从中了解到很多牛人的研究动态、招生情况等。总之,我认 为,知识只有分享才能产生更大的价值,真诚希望下面的链接能对朋友们有所帮助。 (1)Google Research;https://www.wendangku.net/doc/259744294.html,/index.html (2)MIT博士,汤晓欧学生林达华;https://www.wendangku.net/doc/259744294.html,/dhlin/index.html (15)南加州大学CV实验室;https://www.wendangku.net/doc/259744294.html,/USC-Computer-Vision.html (16)卡内基梅隆大学CV主页;https://www.wendangku.net/doc/259744294.html,/afs/cs/project/... ision. html (17)微软CV研究员Richard Szeliski;https://www.wendangku.net/doc/259744294.html,/en-us/um/peo ple/szeliski/ (18)微软亚洲研究院计算机视觉研究组;https://www.wendangku.net/doc/259744294.html,/en-us/grou ps/vc/ (19)微软剑桥研究院ML与CV研究组;https://www.wendangku.net/doc/259744294.html,/en-us/gro... fault.aspx (20)研学论坛;https://www.wendangku.net/doc/259744294.html,/ (21)美国Rutgers大学助理教授刘青山;https://www.wendangku.net/doc/259744294.html,/~qsliu/

人工智能计算机视觉发展分析

人工智能计算机视觉发展分析 计算机视觉是用电脑去识别物体的一种新技术。作为视觉来讲,必须要有眼睛与大脑两部分。计算机视觉的主要组成部分不是“眼睛”,而是“大脑”。 2011年,计算机视觉迎来了最伟大的突破。当年,谷歌人工智能实验室的杰夫·迪恩与斯坦福大学计算机系教授吴恩达合作,他们动用上万台电脑的计算资源,让计算机用深度学习算法在YouTube上观看了一千万段关于猫的视频,最后计算机终于完成了“猫脸识别”。这个项目是谷歌大脑在计算机视觉领域取得的巨大成功。 到了2014年,计算机视觉领域的ImageNet比赛第一次超越了人类肉眼识别图片的准确率——这标志着计算机视觉已经比人眼更加精准,因此具有极大地应用价值。 ImageNet国际挑战赛是计算机视觉领域最著名的比赛,被誉为国际计算机视觉领域的“奥林匹克”。它是2010年由美国斯坦福大学人工智能实验室的李飞飞教授主导推出的。早在2009年,ImageNet对1500万张图片进行了标注,涉及22000个类别的物体,李飞飞她们建立了一个规模空前的数据库。而且,她们公开了整个数据库,免费提供给全世界的人工智能研究团队。有了这个培育计算机大脑的数据库,科研工作者教会了计算机识别物体。 计算机视觉的基本原理

想要实现计算机视觉,首先需要有一个摄像头,然后把拍摄的照片成像在CCD上形成电子照片。这些电子照片是以像素为单位存储在计算机上的。每一个像素都可以看成是三个矩阵元,这些矩阵元给出了像素的RGB数值(每个数值都是整数,取值在0到255之间)。其中,R表示红色,是red的首字母; G表示绿色,是green的首字母;B表示蓝色,是blue的首字母。有了这三种基本颜色,就可以按照不同的权重叠加出千变万化的色彩。 计算机视觉所处理的主要对象就是这个RGB数值,因为每一张照片的像素很多,因此整张照片可以被看成是三个大的矩阵。 计算机视觉的本质,其实就是处理这三个矩阵,然后从这三个矩阵中提取出“特征信息”,比如对于动物的图片,可以提取的特征是“有没有尾巴?”以及“有没有毛?”等。通过对特征信息的提取与判断,可以实现“猫脸识别”或者“人脸识别”。人工智能是通过机器学习的方法,提取不同物体的特征,然后用分类器对各种事物进行分类识别。 计算机视觉的头部公司之一商汤科技与华东师范大学合作,编写了中国第一本人工智能教材《人工智能基础(高中版)》,在书中详细介绍了计算机视觉的算法实现及其基本原理。 计算机视觉有哪些相关企业与落地应用? 计算机视觉领域的应用非常广泛,其主要的落地应用有以下几个大类。

基于计算机视觉技术的人脸检测系统设计

基于计算机视觉技术的人脸检测系统设计 王斌,郭攀,张坤,黄乐 (长安大学信息工程学院,陕西西安710064) 摘要:通过对基于Haar-like 特征的AdaBoost 人脸检测算法研究,利用由该算法训练的级联分类器和计算机视觉类库OpenCV 进行人脸检测系统设计,实现了基于静态图像、摄像头视频和avi 视频的人脸检测与标记,以及标记后的人脸区域图像实时显示和存盘。此外,在VC++6.0环境下实现了对人脸检测系统软件界面的开发。实验结果表明,该检测系统开发周期短,检测速度快,实时性强,检测率高,可作为人脸识别和人脸跟踪系统的开发基础。关键词:计算机视觉;人脸检测;AdaBoost 算法;Haar-like 特征;OpenCV 中图分类号:TP391.4 文献标识码:A 文章编号:1674-6236(2011)16-0038-04 The design of face detection system based on computer vision technology WANG Bin ,GUO Pan ,ZHANG Kun ,HUANG Le (College of Information Engineering ,Chang ’an University ,Xi ’an 710064,China ) Abstract:Through the research for AdaBoost face detection algorithm based on Haar -like features ,make use of the cascade classifier trained by this algorithm and computer vision library OpenCV to design a face detection system ,realize face detection and mark based on static image ,camera video and avi video ,finish displaying and saving the face region images marked by rectangles real -timely.Besides ,achieve the development of software interface by VC++6.0.The experiment result shows that the face detection system has features of short develop cycle ,rapid detection ,real -time and high detection rate ,which can be used for the bases of face recognition system and face tracking system. Key words:computer vision ;face detection ;AdaBoost algorithm ;Haar -like feature ;OpenCV 收稿日期:2011-06-19 稿件编号:201106084 作者简介:王斌(1985—),男,河南南阳人,硕士研究生。研究方向:信号与信息处理及智能控制。 随着计算机技术和数字信号处理技术的快速发展,计算机视觉技术逐渐应运而生,并得到了广泛的应用。OpenCV [1](Open Source Computer Vision Library )是由Intel 提供的由一系列C 函数和少量C++类构成的计算机视觉开源软件包,它拥有数百个可实现图像处理和计算机视觉方面的中、高层 API ,可以十分方便地搭建基于计算机视觉技术的静态图像 和视频流处理软件平台,可作为二次开发的理想工具。由于基于Haar-like 特征的AdaBoost 人脸检测算法具有检测速度快、实时性强、鲁棒性好等优点,本文采用基于Haar-like 特征的AdaBoost 人脸检测算法和OpenCV 相结合的方法在 VC++6.0软件开发平台上分别对基于静态图像、摄像头视频 和avi 视频的人脸检测系统进行设计,实现了从静态图像中检测出人脸并标记出人脸位置、从摄像头视频中实时检测和标记出人脸的位置和从avi 视频中提取检测出有人脸的帧并实时标记人脸,同时还实现了对标记后的人脸区域图像进行实时显示和存盘。 1AdaBoost 人脸检测算法 人脸检测的目的就是把静态图像或视频帧中的人脸区 域和非人脸区域区分开。Viola 等人提出的人脸检测方法是一种基于积分图、级联分类器和AdaBoost 算法的方法,该方法可分为以下3个步骤实现[2]。 1)使用Haar-like 特征表示人脸,并采用一种新的图像 表示方式—“积分图”快速计算其特征值。 2)利用AdaBoost 机器学习算法挑选出一些最能代表人 脸的矩形特征(弱分类器)并按照加权投票的方式将弱分类器构造成一个强分类器。 3)将训练得到的若干个强分类器串联起来构造成一个 级联结构的分类器,从而提高分类器的检测速度。 1.1Haar-like 特征 用一些简单的矩形特征来表示人脸特征,因其类似于 Viola 等人提出的Haar-like 小波而得名[3]。常用的Haar-like 特征有边缘特征、线性特征和中心特征,如图1所示。 其中特征值是指图像上两个或者多个形状大小相同的矩形内部所有像素灰度值之和的差值,在系统中统一采用白 电子设计工程 Electronic Design Engineering 第19卷Vol.19第16期No.162011年8月Aug.2011 图1 Haar -like 特征Fig.1 Haar -like features -38-

相关文档