文档库 最新最全的文档下载
当前位置:文档库 › 基于复合信息的流域特征提取研究

基于复合信息的流域特征提取研究

基于复合信息的流域特征提取研究
基于复合信息的流域特征提取研究

基于复合信息的流域特征提取研究1

李丽,郝振纯,王加虎,罗健,杨传国

(河海大学水资源环境学院,江苏南京,210098)

摘要:信息技术的发展为水文科学提供了新的机遇和挑战,从地理信息中,尤其是从DEM 中提取水文模拟所需要的流域特征曾一度成为研究热点。但由于DEM本身的分辨率和信息量有限,仅以其为数据源提取出的流域特征往往与自然情况存在较大差异,直接影响着以虚拟河网为基础的分布式水文模拟。本文在DEM的基础之上迭加了自然水系的位置信息作为流域特征提取的限制条件提取流域特征,与引入自然水系前所提取的流域特征进行了对比,发现在自然水系位置的约束下提取流域特征,不仅可以纠正DEM生成过程中引入的较大误差,而且大大提高了洼地和平原区流域特征提取的精度,为分布式水文模型的模拟提供更高精度的流域特征信息。并与同类方法进行了比较,结果显示本文所使用的方法由于未对原有DEM信息进行修改,具有较高的精度。

关键字:流域特征提取;DEM;复合信息

0 引言

在流域下垫面对降水的水文响应中,地形等流域特征对水文过程起着不可忽视的作用。在传统的集总式水文模型中,模型参数反映了流域的整体信息,包括植被、地形、土壤等,而没有能力单独分析地形这一因素对水文过程的影响。近些年来地理信息技术的发展为水文学领域注入了新的活力,尤其是DEM(Digital Elevation Model)的出现,更为水文模型的发展提供了新的契机。最先在模型中提取流域信息、考虑地形影响的水文模型是1969年Kirby 等提出的基于土壤含水量和地形指数的半分布式水文模型TOPMODEL(a Topography Based Hydrology Model)[1],该模型通过地形指数的引入考虑地形对产流面积和汇流滞时的影响[2]。此后,在20世纪80~90年代,基于DEM的流域特征提取曾一度成为研究的热点[3],为分布式水文模型的研究和发展提供了必要的技术支撑。

最初的流域特征提取也仅限于分水线和谷点的识别和提取[4],直到二十世纪八、九十年代才取得了飞速的发展,相继出现了各种流向判断、提取河网的方法,包括D8法[5]、D∞[6]法、多流向法等流向判断法,以及填平等洼地和平原区的处理方法。随着各种提取流域特征方法的深入研究,在20世纪末,仅以DEM为数据源的流域特征提取方法趋于成熟,并形成众多使用软件,如River Tools,TOPAZ(Topographic PArameteriZation)软件包,以及Arc/Info、Arcview中的水文分析模块等。这些工具软件都可直接从DEM中提取虚拟河网、水流路径和坡度等流域特征,满足一些水文模拟的需要。

但是,仅仅以DEM为数据源的流域特征提取方法有其本身的局限性,尤其在洼地和平原区的处理中,DEM分辨率的提高对于其所能提供的信息量而言并无大的改善,在平原区所提取出的河网与实际河网相差甚大[3]。为了改善这一情况,本文充分利用大量电子地图的水系图层作为DEM的附加信息,控制所提取的虚拟水系的河道位置,以提取出与自然水系相匹配的流域特征信息。尤其在洼地和平原区,使所提取出的河网等流域特征有了极大的改善。

1方法

本文采用的复合信息提取流域特征的方法(Channel Network Tool,以下简称CNT法)[7]所需要的数据源包括DEM和与其分辨率相对应的自然水系位置信息(由电子地图栅格化完成,形成标量化河道信息),由标量河道信息确定部分数字水系的位置和方向,在此基础上

1基金资助:江苏省高等学校研究生创新计划项目(B04010);国家重点基础研究发展规划项目“我国生存环境演变和北方干旱化趋势研究”(编号:G199043400)。

利用洼地填平法对DEM进行预处理,由D8法确定其余栅格的流向,然后根据栅格流向提取水流路径长度、坡度、划分子流域和提取流域特征等。

研究区域中各网格流向的确定是提取流域特征的基础,本文将区域中的网格分为两部分确定流向,即河道上网格(与自然水系位置重合的网格)的流向和坡地网格(不位于自然水系位置上的网格)的流向。首先要引入自然河道的位置信息(图1(a));然后通过标量河道矢量化的方法[8,9]确定与自然河道位置重合的栅格(称其为第一批栅格)的流向(图1(b));接着由D8法确定可以直接流入河道和区域外的栅格(第二批)的流向(图1(c));最后由填平法对其余栅格进行处理,使其能汇入第一批和第二批栅格,再由D8法判断其余栅格的流向,从而判断出整个研究区域内栅格的流向,为进一步的流域特征提取奠定基础。

自然水系信息的引入大大增加了研究区域中的水流出口,减少了封闭的(水流无法自然流出的)面积较大的洼地和平原区。使得填平法所处理的洼地多为小洼地,对整个区域的水系特征不会产生大的影响,减少了洼地和平原区处理方法不同所引起的误差。

(a)迭加了自然河道位置的DEM (b)确定与自然河道重合的栅格流向

(c)确定能直接流入河道或区域外的栅格流向(d)用填平法确定其它栅格的流向

图1 复合信息确定区域内栅格流向的过程

2引入自然水系前后比较

为比较自然水系引入前后所提取的流域特征的差异,本文利用ArcView实现引入自然水系前的流域特征提取、用CNT法实现自然水系引入后的流域特征提取。通过对二者提取结果的简单比较,发现在基于DEM的流域特征提取过程中引入自然水系信息起码至少从两方面改善了流域特征的提取结果:

(1)能够纠正DEM生成过程中所产生的明显错误和误差。

这部分错误和误差是由DEM的水平分辨率和生成过程中的采样策略和采样方法引起的[10],在仅以DEM为数据源的流域特征提取中,这部分错误和误差是无法识别和纠正的。如

小于DEM水平分辨率的峡谷在DEM数据采样过程中可能会被忽略,那么以此DEM为数据源的流域特征提取方法就无法从中提取出与其相对应的信息。

以黄河流域的三门峡-花园口区间为例(图2),其中的1区和2区应属于这种情形,仅从DEM上无法正确识别河道位置(见图3),势必会使所提取的其它流域特征,如子流域、集水面积、水流路径等,与实际情形偏差极大,影响到流域产汇流的模拟和计算。如果在DEM之上迭加自然水系位置,那么区域内主要河道的位置和方向就会受到限制,使所提取的水系不会出现大的偏差(见图4、5),可以明显提高所提取的其它流域特征的精度。

图2仅以DEM为数据源提取的三花间数字水系图3 黄河三花间实际水系(1:25万)

图4 引入自然水系后1区的数字水系图5 引入自然水系后2区的数字水系

(2)极大程度上解决平原区的水系提取问题,降低DEM分辨率限制带来的误差

由于DEM水平分辨率和垂向分辨率的限制以及DEM生成过程中的系统误差[11],DEM并不能反映地势的轻微起伏。因而在自动提取河网的过程中,洼地和平原区的处理是最大的问题。最常用的办法是填平洼地、垫高平原区,迫使水流流出网格。但这样的方法会产生很多与自然情形不相符合的平行河道(图2中的3区、即图6所示的数字水系),后来也出现了

一些新的平原区流向确定方法[12,13],使产生的河网是收敛性的河网,具有一定的真实性。然而,这些方法仍然以DEM为唯一数据源,想尽办法所产生的收敛性河网并不一定与实际水系相吻合,据此所进行的进一步的流域特征提取的误差仍然很大。在流域特征提取过程中引入自然水系之后,由于DEM分辨率自身的限制,所提取的流域特征可能与实际情况仍然存在误差,但在主干河道位置的制约下,所提取的数字水系(图7)已与自然水系非常接近,那么以数字水系为基础所提取的其它流域特征的误差必然会得到很大程度上的改善。

图6 仅以DEM为数据源提取的3区数字水系图7 引入自然水系后所提取的3区数字水系

3同类方法比较

利用复合信息提取流域特征的方法也各有千秋,包括对DEM数据进行局部的加密和

修改[14,15,16]、在既定分辨率的DEM基础上引入矢量水系数据[17,18]等,以丰富提取虚拟

水系的信息源。这些方法可以在一定程度上改善所提取水系的精度,但由于数据源、算

法等方法本身的局限性,在应用中受到了限制。目前相对应用广泛的是ArcGis中嵌入的AGREE算法,AGREE算法是在“河道烧录”法[18]基础上发展起来的DEM修正法,它根

据引入的矢量河道的位置和上下游关系对DEM进行局部修正[19]。该法与本文所描述的CNT法的不同之处在于先根据电子水系修改DEM,然后根据修改后的DEM提取信息;而

后者则不对DEM进行修改,在提取流域特征的同时考虑电子水系的控制作用。本文针对

子流域划分对这两种方法的提取结果进行了对比,表1所示即为两种方法所提取的子流

域面积。由表中可以看出,由CNT法提取的流域特征精度相对高些。究其原因,可能与AGREE算法对DEM的修改有关,对自然水系流经区域及其附近的栅格高程进行修改势必

会影响到水系的集水面积,进而影响到子流域的划分和流域面积的提取。

表1 两种方法提取的子流域面积对比

子流域面积(km2)

序号站名

实际面积ArcGis 相对误差CNT 相对误差

1 三门峡

2 小浪底5754.195935.42 3.15% 5759.6 0.10%

3 花园口3543.513165.28-10.67%3490.79 -1.50%

4 栾川328.87 330.56 0.51% 337.88 2.70%

5 潭头1393.641301.39-6.62% 1403.12 0.70%

6 东湾947.75 913.89 -3.57% 942.72 -0.50%

7 下河村202.41 197.92 -2.22% 205.13 1.30%

8 陆浑出库706.58 680.56 -3.68% 712.13 0.80%

9 龙门镇1878.341773.61-5.58% 1843.4 -1.90%

10 黑石关1373.551319.44-3.94% 1381.6 0.60%

11 卢氏2148.582011.11-6.40% 2126.59 -1.00%

12 故县水库1154.69836.81 -27.53%1131.64 -2.00%

13 长水583.81 865.28 48.21% 611.78 4.80%

14 宜阳3413.253341.67-2.10% 3437.79 0.70%

15 白马寺1332.571327.78-0.36% 1326.61 -0.40%

16 石门峪174.54 160.42 -8.09% 166.23 -4.80%

17 灵口2410.142239.58-7.08% 2431.86 0.90%

18 大沟口78.81 83.33 5.74% 79.6 1.00%

19 新安847.85 817.36 -3.60% 849.08 0.10%

20 孔家坡1453.581365.97-6.03% 1434.09 -1.30%

21 飞岭1405.8 1372.22-2.39% 1364.01 -3.00%

22 润城4167.514076.39-2.19% 4230.12 1.50%

23 五龙口1993.222040.28 2.36% 2031.5 1.90%

24 武陟900.63 897.22 -0.38% 896.51 -0.50%

25 油坊428.85 411.81 -3.97% 423.98 -1.10%

26 青天河2625.182560.42-2.47% 2563.57 -2.30%

27 山路坪552.87 525 -5.04% 554.88 0.40%

28 赵李庄514.59 408.33 -20.65%513.38 -0.20%

29 白墙231.3 282.64 22.20% 265.52 14.80%

合计-42546.641241.69-3.07% 42515.08 -0.07%

4结论

水文模型描述的是流域下垫面对降水等气候因素的综合响应,传统的水文模型将地形、植被、土壤等下垫面因素以模型参数的形式进行综合考虑。而在新兴的分布式水文模型中,尤其在具有物理学基础的紧密耦合型[20]分布式水文模型中,由地理信息中提取的流域特征信息则成为模型的基础,用以反映地形对水文过程的影响。高精度的流域特征信息能够比较真实地反映流域地形,有助于提高水文模型的模拟精度。CNT法作为一种复合信息提取流域特征的新方法,通过引入自然水系的位置信息(即标量河道而非矢量河道),对DEM生成过程中形成的误差和本身分辨率的限制对流域特征提取所带来的误差进行了有效的改善,大大提高了在现有分辨率的DEM基础上所提取的流域特征的精度,为分布式水文模型的研究和发展提供了更高精度的技术支持。

参考文献:

[1] 孔凡哲, 芮孝芳. TOPMODEL中地形指数计算方法的探讨[J], 水科学进展, 14(1), 2003: 41-45

[2] Vijay P. Singh, Computer Models of Watershed Hydrology[M], U.S.A.: Water Resource Publications. 1995:

627-668

[3] 李丽, 郝振纯. 基于DEM的流域特征提取综述[J]. 地球科学进展, 2003, 18(2): 251-256

[4] Tribe Andrea. Automated recognition of valley lines and drainage networks from grid digital elevation

models: a Review and a New Method [J]. Journal of Hydrology, 1992, 139: 263-293.

[5] O'Callaghan J F, Mark D M. The extraction of drainage networks from digital elevation data. [J]. Computer

Vision, Graphics, and Image Processing, 1984, 28: 323-344.

[6] Tarboton D G. A new method for the determination of flow direction and upslope areas in grid digital

elevation models [J]. Water Resources Research, 1997, 33(2): 309-319.

[7] 李丽, 郝振纯, 王加虎. 复合信息提取流域特征及其应用[C]. 见: 夏军主编. 水问题的复杂性与不确定

性研究与进展. 北京: 中国水利水电出版社, 2004: 196-205

[8] 王加虎, 郝振纯, 李丽. 河道矢量化的深弘演进模型研究[J]. 水利学报, 36(8), 2005, 972-977

[9] 王加虎, 郝振纯, 李丽. 基于DEM和主干河网信息提取数字水系研究[J]. 河海大学学报, 33(2), 2005,

119-122

[10] 汤国安, 刘学军, 闾国年. 数字高程模型及地学分析的原理与方法[M]. 北京: 科学出版社, 2005: 44-72

[11] Moore I D, Grayson R B, Ladson A R. Digital terrain modeling: a review of hydrological geomorphological

and biological applications [J]. Hydrological Processes, 1991, 5(1): 7-35

[12] Jenson S K, Domingue J O. Extraction topographic structure from digital elevation data for geographic

information system analysis [J]. Photogrammetric Engineering and Remote Sensing. 1988, 54(11): 1593-1600

[13] Garbrecht J, Martz L W. The assignment of drainage direction over flat surfaces in raster digital elevation

models [J]. Journal of Hydrology, 1997, 193: 204-213

[14] 孔凡哲, 芮孝芳. 处理DEM中闭合洼地和平坦区域的一种新方法[J]. 水科学进展. 2003, 14(3): 290-294

[15] 陈永良, 刘大有, 虞强源. 从DEM中自动提取自然水系[J]. 中国图形图象学报. 2002, 7(1): 91-96

[16] Hutchinson, M.F., A new procedure for gridding elevation and stream line data with automatic removal of

spurious pits [J]. Journal of Hydrology. 1989. 106, 211–232.

[17] R. Turcotte, J.P. Fortin, A.N. Rousseau, et al. Determination of the drainage structure of a watershed using a

digital elevation model and a digital river and lake network [J]. Journal of Hydrology. 2001, 240: 225-242.

[18] 郝振纯, 李丽. 基于DEM的数字水系的生成[J]. 水文, 2002, 22(4): 8-11

[19] Ferdi Hellweger and David Maidment, AGREE-DEM Surface Reconditioning System

https://www.wendangku.net/doc/df13817798.html,/prof/maidment/gishyd97/terrain/agree/agree.htm, Feb. 26, 2006:

[20] 左其亭,王中根. 现代水文学[M], 郑州: 黄河水利出版社, 2002: 61-82

Study on Methods of Extracting Catchment Properties

Based on Multi-source Information

Hao Zhenchun, Li Li, Wang Jiahu

(Collage of Water Resources and Environment, Hohai University, Nanjing 210098, China)

Abstract

Development of information techniques offers new chances and challenges to hydrology. Extracting catchment properties from geography information system, especially from digital elevation models has becoming so hot. While the extracted properties often be very different from natural for the resolution and information of DEM is limited, which effects on hydrologic simulation. Natural river system was added on DEM to extract catchment properties as controlling factor. And the properties gotten with methods before or after adding natural channels were compared. The results showed that extracting catchment properties from DEM under the controlling of natural channels improved the precision of properties in two aspects at least. Firstly, the larger errors of DEM coming from horizontal resolution were corrected mostly for the right main channel could be gotten with this method. Secondly, this method resolved the problem of extracting river network of pits and plains, and improved the precision of properties. It was compared with similar methods, too. As a result, this method was more exacter. The reason may be that original information of DEM was not modified during extracting catchment properties with this method.

Keywords: extracting catchment properties; DEM; multi-source information

作者简介:李丽(1978-),女,河南济源人,博士研究生,主要从事水文水资源研究。

基于Web的信息提取技术研究

基于Web的信息提取技术研究

目录 摘要 (4) 第1章绪论 (5) 1.1研究背景 (5) 1.2研究意义 (5) 1.3本文研究内容 (6) 1.4论文结构安排 (6) 第2章Web信息抽取概述 (7) 2.1 Web信息抽取的发展历史 (7) 2.2 Web信息抽取的定义和Web信息的特点 (7) 2.3 Web信息抽取技术分析 (8) 2.3.1 基于正则表达式的信息抽取 (8) 2.3.2 基于自然语言处理的信息抽取 (8) 2.3.3 基于本体的信息抽取 (9) 2.3.4 基于包装器归纳的信息抽取 (9) 2.3.5 基于HTML结构的信息抽取 (9) 2.3.6 基于Web查询的信息抽取 (9) 2.4 本章小结 (9) 第3章基于XML技术的Web信息抽取 (10) 3.1 概述 (10) 3.1.1 问题的提出 (10) 3.1.2 网页的格式及XML技术的优势 (10) 3.2 Web信息抽取流程 (11) 3.3 相关技术介绍 (11) 3.3.1 DOM模型 (11) 3.3.2 Xpath (11) 第四章基于XML技术的Web信息抽取的实现 (12) 4.1 Web文档的预处理 (12) 4.1.1 将HTML文档解析为DOM模型 (12) 4.1.2 将HTML文档转换为形式上的XML文档 (12)

4.2 抽取规则 (13) 4.2.1 抽取规则的设计 (13) 4.2.2 抽取规则的生成 (14) 4.3 信息抽取 (14) 4.4 附加语义 (14) 4.5 抽取规则的优化 (15) 4.5.1 利用标记属性进行优化 (15) 4.5.2 利用标记之间的数量关系进行优化 (15) 第五章结论 (16) 本文总结 (16) 本文总结 (16) 参考文献 (17)

图像特征提取方法

图像特征提取方法 摘要 特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 至今为止特征没有万能和精确的图像特征定义。特征的精确定义往往由问题或者应用类型决定。特征是一个数字图像中“有趣”的部分,它是许多计算机图像分析算法的起点。因此一个算法是否成功往往由它使用和定义的特征决定。因此特征提取最重要的一个特性是“可重复性”:同一场景的不同图像所提取的特征应该是相同的。 特征提取是图象处理中的一个初级运算,也就是说它是对一个图像进行的第一个运算处理。它检查每个像素来确定该像素是否代表一个特征。假如它是一个更大的算法的一部分,那么这个算法一般只检查图像的特征区域。作为特征提取的一个前提运算,输入图像一般通过高斯模糊核在尺度空间中被平滑。此后通过局部导数运算来计算图像的一个或多个特征。 常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。当光差图像时,常 常看到的是连续的纹理与灰度级相似的区域,他们相结合形成物体。但如果物体的尺寸很小 或者对比度不高,通常要采用较高的分辨率观察:如果物体的尺寸很大或对比度很强,只需 要降低分辨率。如果物体尺寸有大有小,或对比有强有弱的情况下同事存在,这时提取图像 的特征对进行图像研究有优势。 常用的特征提取方法有:Fourier变换法、窗口Fourier变换(Gabor)、小波变换法、最 小二乘法、边界方向直方图法、基于Tamura纹理特征的纹理特征提取等。

设计内容 课程设计的内容与要求(包括原始数据、技术参数、条件、设计要求等):一、课程设计的内容 本设计采用边界方向直方图法、基于PCA的图像数据特征提取、基于Tamura纹理特征的纹理特征提取、颜色直方图提取颜色特征等等四种方法设计。 (1)边界方向直方图法 由于单一特征不足以准确地描述图像特征,提出了一种结合颜色特征和边界方向特征的图像检索方法.针对传统颜色直方图中图像对所有像素具有相同重要性的问题进行了改进,提出了像素加权的改进颜色直方图方法;然后采用非分割图像的边界方向直方图方法提取图像的形状特征,该方法相对分割方法具有简单、有效等特点,并对图像的缩放、旋转以及视角具有不变性.为进一步提高图像检索的质量引入相关反馈机制,动态调整两幅图像相似度中颜色特征和方向特征的权值系数,并给出了相应的权值调整算法.实验结果表明,上述方法明显地优于其它方法.小波理论和几个其他课题相关。所有小波变换可以视为时域频域的形式,所以和调和分析相关。所有实际有用的离散小波变换使用包含有限脉冲响应滤波器的滤波器段(filterbank)。构成CWT的小波受海森堡的测不准原理制约,或者说,离散小波基可以在测不准原理的其他形式的上下文中考虑。 通过边缘检测,把图像分为边缘区域和非边缘区域,然后在边缘区域内进行边缘定位.根据局部区域内边缘的直线特性,求得小邻域内直线段的高精度位置;再根据边缘区域内边缘的全局直线特性,用线段的中点来拟合整个直线边缘,得到亚像素精度的图像边缘.在拟合的过程中,根据直线段转角的变化剔除了噪声点,提高了定位精度.并且,根据角度和距离区分出不同直线和它们的交点,给出了图像精确的矢量化结果 图像的边界是指其周围像素灰度有阶跃变化或屋顶变化的那些像素的集合,边界广泛的存在于物体和背 景之间、物体和物体之间,它是图像分割所依赖的重要特征.边界方向直方图具有尺度不变性,能够比较好的 描述图像的大体形状.边界直方图一般是通过边界算子提取边界,得到边界信息后,需要表征这些图像的边 界,对于每一个边界点,根据图像中该点的梯度方向计算出该边界点处法向量的方向角,将空间量化为M级, 计算每个边界点处法向量的方向角落在M级中的频率,这样便得到了边界方向直方图. 图像中像素的梯度向量可以表示为[ ( ,),),( ,),)] ,其中Gx( ,),),G ( ,),)可以用下面的

文本特征提取方法

https://www.wendangku.net/doc/df13817798.html,/u2/80678/showart_1931389.html 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。 文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。 目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)。

图像分割和特征提取技术研究

毕业设计 图像分割和特征提取技术研究 摘要 图像分割是图像分析的第一步,是图像理解的重要组成部分,在有关图像处理的几乎所有领域具有广泛的应用。因此,图像分割一直受到高度重视,对其研究具有十分重要的意义。长期以来,研究人员提出了许多实用的分割算法。随着统计学理论,神经网络,小波理论等在图像分割中的应用日益广泛,遗传算法、尺度空间、非线性扩散方程等近期涌现的新方法和新思想也不断被用于解决分割问题,许多国内外学者也针对一些具体应用提出了许多实用有效的方法。 本文介绍了数字图像处理技术中图像分割技术的基本理论和三种图像分割方法(1)基于阈值图像分割;(2)基于边缘检测及算子分割;(3)基于区域特性的图像分割。对基于点的分割方法进行了较全面的叙述,主要研究了图像分割方法中的边缘检测法,区域提取法和阈值分割法。通过大量的理论研习。并编写了MATLAB软件程序,对各分割方法进行了仿真实验,得到分割图像。最后对于仿真进行了数据处理分析,验证了Canny算子的整体效果最好, Prewitt算子分割细致。但对于一幅图像仅仅只有只用一种方法达不到很好的效果,而根据待分割图象的不同特点,结合已知的先验知识,研究符合具体图象特性的分割模型,才是提高图象分割的重要手段。 关键词:图像分割;边缘法;区域法;阈值法;分水岭分割法

Lmage Segmentation And Feature Extraction Technology Research Abstract Image segmentation is the first step in image analysis, image segmentation is an important component of image understanding, in almost all areas of the image processing has widely application. As a result, image segmentation has been attached great importance to, its research has the very vital significance. For a long time,researchers put forward many practical segmentation algorithm. With statistics theory, the neural network, wavelet theory has been used increasingly in image segmentation, such as genetic algorithm, scale space, and nonlinear diffusion equation with the recent emergence of new methods and new ideas are constantly being used to solve the segmentation problem, many scholars at home and abroad for some specific application put forward many practical and effective method. Digital image processing techniques were introduced in This paper introduces the digital image processing technology of image segmentation technology in basic theory and three methods of image segmentation. (1) based on threshold image segmentation. (2) segmentation based on edge detection and operator; (3) the image segmentation based on region feature. On the segmentation method based on the point of narrative, mainly studies the edge of image segmentation method, region extraction method and threshold segmentation method. Through a lot of theory study. And write the MATLAB software, the segmentation method, the simulation experiment for image segmentation. Finally analyzed the data processing for simulation.Verify the Canny operator of the overall effect is best. Prewitt operator segmentation and detailed. But for an image only only one way to reach a good effect, and according to the different characteristics of for image segmentation, combined with the known prior knowledge, research in accordance with the specific image segmentation model, is an important means to improve the image segmentation. KEYWORDS:Segmentation;edge method;the regional method;threshold;watershed segmentation

特征提取方法

4.2.2 特征提取方法 图像经过一系列的预处理之后,原来大小不同、分布不规则的各个字符变成了一个个大小相同、排列整齐的字符。下面接要从被分割归一处理完毕的字符中,提取最能体现这个字符特点的特征向量。将提取出训练样本中的特征向量代入BP网络之中就可以对网络进行训练,提取出待识别的样本中的特征向量代入到训练好的BP网络中,就可以对汉字进行识别。 特征向量的提取方法多种多样,可以分为基于结构特征的方法和基于像素分布特征的方法,下面给予简单介绍,并说明本文所用的方法。 (1)结构特征。结构特征充分利用了字符本身的特点,由于车牌字符通常都是较规范的印刷体,因此可以较容易地从字符图像上得到它的字符笔画信息,并可根据这些信息来判别字符。例如,汉字的笔画可以简化为4类:横、竖、左斜和右斜。根据长度不同又可分为长横、短横、长竖和短竖等。将汉字分块,并提取每一块的笔画特征,就可得到一个关于笔画的矩阵,以此作为特征来识别汉字。 (2)像素分布特征。像素分布特征的提取方法很多,常见的有水平、垂直投影的特征,微结构特征和周边特征等。水平、垂直投影的特征是计算字符图像在水平和垂直方向上像素值的多少,以此作为特征。微结构法将图像分为几个小块,统计每个小块的像素分布。周边特征则计算从边界到字符的距离。优点是排除了尺寸、方向变化带来的干扰,缺点是当字符出现笔划融合、断裂、部分缺失时不适用。 ①逐像素特征提取法 这是一种最简单的特征提取方法。它可以对图像进行逐行逐列的扫描,当遇到黑色像素时取其特征值为1,遇到白色像素时取其特征值为0,这样当扫描结束后就获得一个维数与图像中的像素点的个数相同的特征向量矩阵。 这种特征提取方法的特点就是算法简单,运算速度快,可以使BP网络很快的收敛,训练效果好,更重要的是对于数字图像这样特征较少的图像,这种方法提取的信息量最大,所以对于本系统来说,这种方法较为适用。但是它的缺点也很明显,就是适应性不强,所以本文没有选用这种方法。 ②骨架特征提取法

数字地面模型地形指标和地形特征信息的提取

地理教学实验中心 专业实训实习报告 备注:根据实际要求可加附页。电子文本与此等效。

1.坡度和坡向的提取 1)坡向的提取:打开ArcGis里面的ArcToolbox,在工具箱中选择3D分析—栅格表面—双击坡向—输入栅格dem2-输出栅格aspect2 图1.1.1 图1.1.2 2)坡度的提取:同上打开坡度对话框输入栅格dem2—输出slope2 图1.2.1

图1.2.3 2.坡度变率的提取 1)对生成的坡度再求坡度,打开坡度对话框—输入上一步生成的坡度slpoe2-输出sos2 图2.1.1 图2.1.2

3.坡向变率的提取 1)先求反地形--Spatial Analyst工具—地图代数--栅格计算器—输入公式为2375-dem2输出fan-保存OK。 2)将反地形加载到窗口中求反地形的坡向,命名为aspect2 fan 3)求原地形的坡向的坡度soa1,求反地形坡向的坡度命名为soa2 4)打开栅格计算器—输入公式为soa =soa (soa1+soa2-Abs(soa1-soa2))/2。输出结果为soa即为坡向变率. 4.地形起伏度的提取 1)提取最大值:将dem2加载到ArcMap中,启动ArcToolbox—Spatial Analyst工具—邻域分析—焦点统计-输入dem2-输出max,采用矩形窗口大小为11*11,打开统计类型,选中最大值—OK,生成的新的dem与原始dem最小海拔不同,发生了变化, 图4.1.1 2)最小值:邻域分析—矩形邻域大小为为11*11,选中最小值,点击确定生成最小值 3)地图代数--栅格计算器—最大值dem- 最小值dem—选择存储位置,命名为地形起伏度—OK,地形起伏度提取完成。 5.地面粗糙度的提取 1)求取坡度,启动栅格计算器最小值为1,最大值为2.4739

肺结节检测中特征提取方法研究

小型微型计算机系统JournalofChineseComputerSystems2009年10月第10期V01.30No.102009 肺结节检测中特征提取方法研究 何中市1,梁琰1,黄学全2,王健2 1(重庆大学计算机学院,重庆400044) 2(第三军医大学西南医院放射科,重庆400038) E—mail:zshe@cqu.edu.ca 摘要:计算机辅助诊断(Computer—AidedDiagnosis,CAD)系统为肺癌的早期检测和诊断提供了有力的支持.本文对孤立性肺结节特征提取问题进行研究.通过对肺结节和肺内各组织在序列CT图像上的医学征象分析和研究对比,结合专家提供的知识,提出了肺结节特征提取总体方案.该方案分别从肺部CT图像的灰度特征、肺结节形态、纹理、空间上下文特征等几个方面,对关键的医学征象进行图像分析,从而实现对ROI(RegionsofInterest)区域的特征提取和量化;提出特征提取的评价方案,实验结果表明,本文提取的特征提取方案是有效的.利用本文提取的特征,肺结节检测正确率达到93.05%,敏感率为94.53%. 关键词:孤立性;肺结节;特征提取;CT图像;特征评价 中图分类号:TP391文献标识码:A文章编号:1000—1220(2009)10—2073-05 ResearchontheFeatureExtractionApproachforSPNsDetection 腼Zhong—shil,LIANGYanl,HUANGXue—quan2,WANGJian2 1(CollegeofComputerScience,c‰增幻增Univers毋,Chongqing400044,China) 2(DepartmentofRadiology,Southwest丑却池z,ThirdMilitaryMedwalUniversityofChinesePL4,Chongqing400038,China) Abstract:Imageprocessingtechniqueshaveprovedtobeeffectiveforimprovementofradiologists7diagnosisofpubmonarynodules.Inthispaper,wepresentastrategybasedonfeatureextractiontechniqueaimedatSolitaryPulmonaryNodules(SPN)detection.Infeatureextractionscheme,36featureswereobtained,contained3greylevelfeatures,16morphologicalfeatures,10texturefeaturesand7spatialcontextfeatures.Andtheclassifier(SVM)runningwiththeextractedfeaturesachievescomparativeresults,withare-suitof93.05%innoduledetectionaccuracyand94.53%insensitivity. Keywords:isolated;solitarypulmonarynodules;featureextraction;CTimages;featureassessment 1引言 近几年,随着影像检查技术的改进,临床结果初步证明CT扫描是检测早期无症状肺癌最有效的影像学方法。1J.肺部疾病在CT影像上通常表现为孤立性肺结节(SolitaryPul—monaryNodules,SPNs),因此,对孤立性肺结节的检测和识别是对肺部疾病诊断最重要的途径.计算机辅助诊断系统一方面,大大减轻了医生的工作量,提高了工作效率;另一方面,使影像诊断更加客观化,提高诊断的效率和正确效率.因此,用计算机进行肺结节辅助诊断,提取肺结节特征,检测肺结节,是具有十分重要的意义和研究价值的. 在孤立性肺结节自动识别中,肺结节的特征提取及表示是其关键问题之一,它是进行识别的重要手段.关于肺结节检测方法有很多。2…,但对肺结节医学征象描述并不充分.目前一般常用面积、周长等形态方面进行肺结节特征提取.对肺结节的形态、全局、局部上下文特征以及病理征象的分析不足,使得特征提取描述不到位,影响识别准备率.同时也欠缺对识别结果的解释.正因为对提取的特征与肺结节医学征象问的对应关系分析不足,无法对识别结果进行医学知识上的解释, 特征提取特征评价 懂歪母 I里斗1显查鲎堑卜_倒1J躺l 帽霭瓣||描述程度l 1絮嚣卜 lJs、,M识 --|别性能 图1SPNs诊断框架图 Fig.1OverviewofSPNsdetection 而只有”是”或”否”的识别结果,无法给医生提供更多的信息.本文围绕以上几个问题,意在提供全面的、系统的量化信息,便于医学专家诊断的客观化、效率化.本文对孤立性肺结节特征提取问题进行研究.通过对肺结节和肺内各组织在序列CT图像上的医学征象分析和研究对比,提出了肺结节特征提取总体方案.该方案分别从肺部CT图像的灰度特征、形 收稿日期:2008-08-30基金项目:重庆市重大科技专项项目(CSTC,2008AB5038)资助;重庆市自然科学基金项目(CSTC,2007BB2134))资助.作者简介:何中市,男,1965年生,博士,教授,研究方向为人工智能、机器学习与数据挖掘等;梁琰,女,1982年生,博士研究生,图像处理、模式识别;黄学金,男,1966年生,博士,副教授,研究方向为影像诊断和介入放射学;王健,男,1964年生,博士,教授,研究方向为影像诊断和介入放射学.

文本分类中的特征提取和分类算法综述

文本分类中的特征提取和分类算法综述 摘要:文本分类是信息检索和过滤过程中的一项关键技术,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。本文主要对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。 采用kNN和Naive Bayes分类算法对已有的经典征选择方法的性能作了测试,并将分类结果进行对比,使用查全率、查准率、F1值等多项评估指标对实验结果进行综合性评价分析.最终,揭示特征选择方法的选择对分类速度及分类精度的影响。 关键字:文本分类特征选择分类算法 A Review For Feature Selection And Classification Algorithm In Text Categorization Abstract:Text categorization is a key technology in the process of information retrieval and filtering,whose task is to process automatically the unknown categories of documents and distinguish the labels they belong to in the set of predefined categories. This paper mainly discuss the feature selection and classification algorithm in text categorization, and make deep research via experiment. kNN and Native Bayes classification algorithm have been applied to test the performance of classical feature detection methods, and the classification results based on classical feature detection methods have been made a comparison. The results have been made a comprehensive evaluation analysis by assessment indicators, such as precision, recall, F1. In the end, the influence feature selection methods have made on classification speed and accuracy have been revealed. Keywords:Text categorization Feature selection Classification algorithm

基于特征值提取文本分类方案

目录 一、综述 (2) (一)实现目标 (2) (二)主要功能 (2) 二、总体架构 (3) 三、各模块建模挖掘层详解 (4) (一)无监督学习模块.............................................. 错误!未定义书签。 (二)有监督学习模块.............................................. 错误!未定义书签。 四、输入层和输出层详解 (6) (一)输入层 (6) (二)输出层 (6)

基于特征值提取文本分类设计方案 一、综述 (一)实现目标 本模块实现了对文本文档集合的分类特征值提取。对输入的分类文档,基于词频、互信息、类别信息的综合特征,从每个分类中挖掘出对应的有效特征值。 该模块还实现了对特征值的权重计算,按照特征词的权重值,构造了分类器。新增文本可以通过文本分类器进行分类,无法分类的文本可以人工分类后重新执行特征值抽取功能,重新调整特征值,从而达到优化分类器的目的。 该模块由Java编写,可用于任何需要挖掘文本主题的项目中,也可以单独使用。 (二)主要功能 该模块的主要功能包括以下几个方面: ●对原始语料库进行中文分词、去除停用词 ●词性过滤,只提取名词,动词 ●按类别进行特征词提取 ●特征词权重计算 ●文本分类

二、总体架构

三、挖掘层详解 1.文本分词 中文分词采用开源的Ansj分词工具,基于中科院的ictclas 中文分词算法,采用隐马尔科夫模型(HMM),比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。Ansj是一款纯Java的、主要应用于自然语言处理的、高精度的分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。 Ansj实现了用户自定义词典的动态添加删除,当然,也支持从文件加载词典。用户自定义词典默认路径:项目目录/library/userLibrary/userLibrary.dic。格式为:[自定义词] [词性] [词频],其中[词性]和[词频]两项可以空缺不写。本项目在Ansj原本自带的词典(367425条)基础上,扩展了以下词典: 1)从数据库中抽取的电信业务词库(5767条) 2)广深东佛城市信息精选词库(来源:搜狗细胞词库)(62617条) 3)搜狗标准词库(392778条) 4)搜狗精选词库(392507条) 5)搜狗万能词库(362333条) 本模块还提供了从数据库加载词库的功能。目前整理了以下的数据库版本的词库: 1)公积金领域词(1332条) 2)医保领域词(2503条) 2.词性过滤 代词、连词、介词等的表征能力比较弱,因为一篇文本中的代词、连词或介词对于区分这个文本所属哪个领域几乎没什么参考价值。为此可以将表征能力很差的词性的词过滤掉。而名词和动词的表征能力最强,它们是文本中具有代表性的关键词项,因为大量的汉语知识表明,名词和动词是一个汉语句子中的核心部分,它们的简单组合,往往就可以表达出一种中心思想,一种主题。因此,我们只保留名词和动词,将其他词性的词作为弱词性词过滤掉。

图像目标提取及特征计算

摘要 对图像进行研究和应用时,人们往往对图像中的某些部分感兴趣,这些部分常被称为目标或对象 目标或对象特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 本课设需要解决的问题是,利用阈值分割方法,对该图像进行分割,得到提取那个目标后的二值图像,计算该目标的面积、周长、中心坐标等三个参数。阈值分割采用的是全局阈值分割方法,而面积、周长的计算则是先通过将图像转换成二值图像,在通过计算二值图像像素点的方式求取。 关键词:阈值分割,边缘检测,像素点

1绪论 目标的特征提取是图像处理和自动目标识别(ATR)中的一个重要的研究课题,是解决图像识别问题的难点和关键。 特征提取是图象处理中的一个初级运算,也就是说它是对一个图像进行的第一个运算处理。它检查每个像素来确定该像素是否代表一个特征。假如它是一个更大的算法的一部分,那么这个算法一般只检查图像的特征区域。作为特征提取的一个前提运算,输入图像一般通过高斯模糊核在尺度空间中被平滑。此后通过局部导数运算来计算图像的一个或多个特征。 有时,假如特征提取需要许多的计算时间,而可以使用的时间有限制,一个高层次算法可以用来控制特征提取阶层,这样仅图像的部分被用来寻找特征。 由于许多计算机图像算法使用特征提取作为其初级计算步骤,因此有大量特征提取算法被发展,其提取的特征各种各样,它们的计算复杂性和可重复性也非常不同。 2 设计原理 2.1 常用的特征提取的方法 提取图像空间关系特征可以有两种方法:一种方法是首先对图像进行自动分割,划分出图像中所包含的对象或颜色区域,然后根据这些区域提取图像特征,并建立索引;另一种方法则简单地将图像均匀地划分为若干规则子块,然后对每个图像子块提取特征,并建立索引。 本课程设计是采用的第一种方法,即先对该图像进行分割,得到提取那个目标后的二值图像,计算该目标的面积、周长、中心坐标等三个参数。阈值分割采用的是全局阈值分割方法,而面积、周长的计算则是先通过将图像转换成二值图像,在通过计算二值图像像素点的方式求取。其中计算周长时,先需要对二值图像进行边缘检测,然后再统计其像素点。 2.2 阈值分割原理 图像阈值化分割是一种最常用,同时也是最简单的图像分割方法,它特别适用于目标和背景占据不同灰度级范围的图像[1]。它不仅可以极大的压缩数据量,而且也大大简化了分析和处理步骤,因此在很多情况下,是进行图像分析、特征

基于Web的大规模中文人物信息提取研究

国内图书分类号: TP301.6 密级:公开国际图书分类号: 681.14 西南交通大学 研究生学位论文 基于Web的大规模中文人物信息提取研究 年级二〇一〇级 姓名胡万亭 申请学位级别硕士 专业计算机系统结构 指导教师杨燕教授 二〇一三年五月

Classified Index: TP301.6 U.D.C: 681.14 Southwest Jiaotong University Master Degree Thesis RESEARCH ON LARGE-SCALE CHINESE PEOPLE INFORMATION EXTRACTION BASED ON WEB Grade: 2010 Candidate: Wanting Hu Academic Degree Applied for: Master Speciality: Computer Architecture Supervisor: Prof. Yan Yang May,2013

西南交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1.保密□,在年解密后适用本授权书; 2.不保密□,使用本授权书。 (请在以上方框内打“√”) 学位论文作者签名:指导老师签名: 日期:日期:

西南交通大学硕士学位论文主要工作(贡献)声明 本人在学位论文中所做的主要工作或贡献如下: 1、采集人物相关网页数据,主要包括编写程序下载好大夫在线、评师网、百度百科等 网站数百万网页,CNKI网站三千多万条论文数据。 2、对基于统计的网页正文提取算法做出一些改进,并结合DOM解析工具实现正文提 取程序。用该程序提取了网页的正文。 3、完成分词系统的组织机构名识别模块,主要工作包括:统计词语词频并排序、整理 机构后缀词词典、建立机构名词典、统计机构名组成词词频、构建数学模型并实现基于词频统计的机构名识别算法。用该分词系统完成对网页正文的分词。 4、编程实现对半结构化和非结构化人物信息的提取,其中非结构化人物信息的提取采 用基于规则的提取算法,手动建立了规则库,规则依赖于实验室分词系统对正文的分词标注。 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。 学位论文作者签名: 日期:

ENVI提取地形特征要素

ENVI 实验六基本地形因子提取 一、实验目的 1熟悉ENVI软件能够从DEM 中提取地形特征。 2掌握DEM提取地形特征的方法。 二、实验要求 完成运用ENVI 进行从DEM 中提取地形特征,包括山顶、山脊、平原、水平面、山沟和凹谷。 三、实验仪器 每人计算机一台。 四、实验内容 1在Toolbox中,启动/Terrain/Topographic Features,在Topographic Feature Input DEM 对话框中,选择DEM.tif 文件,点击OK,打开Topographic Features Parameters 对话框,需要设置一些参数。 (1)坡度容差:1。以度为单位;(2)曲率容差:0.1;(3)地形核大小:7。 2在Select Feature to Classify 列表中选择所有的地形特征。 3选择输出路径及文件名,单击OK 执行地形特征提取。

4通视域分析:使用Viewshed Analysis Workflow 工具,设置点、线、面作为观测源进行可视域分析。 将通视分析结果输出为矢量和图像结果有三种方法: (1)点观测源 a. 在Toolbox 中,启动/Terrain/Viewshed Analysis Workflow,打开文件选择面板 File Selection; b. 分别选择对应的文件DEM File:DEM.tif;Image File:Orthoimagery.tif,单击Next 进入Viewshed Analysis 面板; c.在Viewshed Analysis 面板中,设置以下几个参数: 可视距离Default View Range:1000 可视高度Default View Height:100 d.默认鼠标的状态是绘制“点注记”,在正射影像上绘制几个观测点。如果鼠标当前 状态是其他,可在工具栏中选择对应的工具绘制:,绘制4 个点; e.选择Any Source (四个观测点的并集),勾选Preview预览结果,红色表示可 视区域,黑色表示不可视区域; f.分别选择All Sources(四个观测点的交集),预览结果; g.单击Next进入Viewshed Export面板,可以将通视分析结果输出为矢量和图像结果。

文本特征提取方法研究

文本特征提取方法研究 ______________________________________________________ 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。 文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。 目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。 在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分

图像特征提取及识别过程

摘要 纹理特征是一种重要的视觉线索,是图像中普遍存在而又难以描述的特征。纹理分类与分割是图像处理领域一个经久不衰的热点研究领域,纹理特征提取作为纹理分类与分割的首要问题,一直是人们关注的焦点,各种纹理特征提取方法层出不穷。 本文在广泛文献调研的基础上,回顾了纹理特征提取方法的发展历程,分析了其研究现状,对纹理特征提取方法进行了较为全面的综述和分类,最后重点研究了基于灰度共生矩阵的图像纹理提取方法,研究如何有效地提取图像纹理特征来对图像进行描述,通过特征值来对图像进行识别。 灰度共生矩阵是一种简单有效的图像纹理特征描述方法,该方法的优势在于:它能利用了图像中像素相对位置的空间信息更加准确地描述图像的纹理,本文就是利用图像灰度共生矩阵的这一特性,从该矩阵中提取相应的统计参量作为纹理特征来实现对图像的识别。 关键字:灰度共生矩阵,纹理特征提取,图像识别

ABSTRACT Texture is a kind of important visual clues in images , it is widespread but cannot easy to be described . Texture classification and segmentation is a enduring popular research field in image processing area. Texture feature extraction has been the focus of attention,due to its priority to texture classification and image segmentation. all sorts of texture feature extraction methods has been emerged in endlessly. On the basis of extensive literature investigation, we review the texture feature extraction methods, analyze the development of the research status of the texture feature extraction methods and make a comprehensive review of its classification . Finally ,based on gray symbiotic matrix image problem extraction methods,we research how to effectively extract image texture feature described by the image characteristic value to image recognition. Graylevel co-occurrence matrix is a simple and effective image texture description method.This method's advantage is: it can use the image pixels relative positions of the spatial information more to accurately describe the texture image.This paper use the graylevel co-occurrence matrix of the properties to extract statistics from the matrix corresponding as texture feature parameters to realize image recognition. KEY WORDS: graylevel co-occurrence matrix, texture feature extraction, image recognition

相关文档