文档库 最新最全的文档下载
当前位置:文档库 › 昆虫分类学笔记

昆虫分类学笔记

昆虫分类学笔记
昆虫分类学笔记

第五篇 昆虫分类学

第一章 概 述

一、分类学的意义、任务及历史发展

1.意义

分类学是适应生活和生产实践的要求而产生的科学。分类是认识客观事物的最基本的方法。分类不仅是对世界上浩如繁星的物种进行分门别类列成系统,而且探索各个分类阶元之间的内在联系,目的是能够更好地反映生物界中的自然关系。此外,昆虫分类在生产实践上也有极其重要的意义:在益虫利用和害虫防治工作中,对某些具有重要经济意义的种类,因形态近似而易混淆,若忽视分类鉴别,可能给工作带来巨大损失。

●在卫生害虫方面。区别能传播疾病的种类,对划分疫区及制订防治措

施均有重要意义。e.g.我国按蚊共40多种,但能传播疟疾的主要是中华按蚊Anophehes hycanus sinensis Wiedemam等10余种。弄清了这一基本情况。我们可根据这些传疟种类的分布进行重点防治。

●在植物检疫方面。正确鉴定害虫种类并查明分布区,有助于准确划分

疫区和确定对外对内植树物检疫对象名单。eg.棉红铃虫在新疆尚未发现。

●在国防上。昆虫分类工作也很重要。eg.美国侵朝战争中曾空投大量

携带细菌的昆虫,查明空投下来的大量带菌昆虫,对揭露敌人罪行,迅速扑灭病菌害虫,保障中、朝人民的健康与生命安全都有巨大意义。

当时前往现场工作的有:

刘崇乐, 马世骏(东北地区);1952年9月5日,中国昆虫学会作出(第一届理事长,解放初主席) 《关于抗议并扑灭美帝撒布细菌毒虫的决议》。

何琦, 陈世骧,朱弘复(赴朝鲜前线)

(第二届理事长) (第三届理事长)

●在农业上。对于农业害虫的防治更是不言而喻进行农作物,果树,蔬菜等方面害虫的科学研究工作,首先必须正确的鉴别种名。

2.分类学工作的基本任务

①鉴定和描述物种

②在种类鉴定准确的基础上,按物种的亲疏关系建立系统关系,研究并 阐明其进化过程。

③预见该系统范围内尚未发现的新物种。

原则:共同性和特殊性的对立统一。

方法:分析特性与归纳共生的综合运用,是分类的基本方法。

3.昆虫分类学的历史发展

①古代至林奈时期

在古代,由于受分类学知识的限制,昆虫常易同其它节肢动物、甚至和其它动物混淆。故追溯古代昆虫分类学的历史时,就自然联系到动物分类学的历史发展。

远在4000年前(捷克)巴比亚人就开始记载动物,如希腊哲学家

赫波克拉蒂斯Hippoerates(BC.460~377) 等广泛研究博物学,观察并记录

德摩克拉托斯Democratus(BC.465~370) 动物,但均是片段的和不系统的

直到亚里斯多德Aristotles,BC.384~322)——这位科学鼻祖,才真正奠定了动物分类的科学基础。他在《Historia Animalium》中,认为动物可根据体躯构造,生活方式,习性和行为等加以区分。他曾根据体躯构造、生活方式将动物分为陆生和水生,还曾根据体躯构造将动物分为有血动物(相当脊椎动物)和无血动物(相当于无脊椎动物)二大类。还进一步从显着的形态特征、生活习性和行为区别昆虫为颚式口器、针式口器;有翅与无翅;鞘翅和双翅等类群。已初具现代分类的雏型。当然,其著作中涉及昆虫分类的部分很少。

在以后的近2000年间,由于宗教和神学势力强大,压抑科学、文化的发展,动物分类学并无显着进展,直到文艺复兴(14~16世纪)时期,科学技术才逐渐摆脱了宗教神学的束搏,进入新的发展时期。(但15世纪,科学被少数人所垄断………)。

斯旺默丹,J.Swammerdam,1637~1680解剖了蜉蝣,根据变态类型将昆虫区分为无变态类,不全变态类和完全变态类,其著作General History of Insects.绘有详细解剖图。

约翰.雷John Ray 1627~1705综合应用翅和变态等分类特点,第一个创立了“属”和“种”的概念。………………………………………………………………………………这些对林奈有深刻影响直到18世纪瑞典动植物分类学家林奈Linnaeus(1707-1778)1758年Systema Naturae 第10版发表,动物分类学才有了划时代的进展。他在该书中,创立了著名的双名法,故1758年被国际公认为是动物分类科学的创立年。按纲、目、属、种的分类系统记录动物,他当时在Insecta中建立了7个目。即著名的林奈7 目:

→无翅目Aptera 无翅昆虫及蜘蛛纲、甲壳纲、多足纲

双翅目Diptera

鞘翅目Coleoptera

林奈7 目— 半翅目Himiptera

鳞翅目Lepidoptera

脉翅目Neuroptera 现代蜉蝣目蜻蜓目脉翅目

→膜翅目Hymenoptera

林奈主张物种是客观存在的,其贡献在于肯定了物种的稳定性,但林奈是神学主义者,认为物种乃上帝制造,是恒定不变的,静止的。

其学生,丹麦人Fabricius第一个昆虫分类学家1775年完成了“Systema Entomolgiea”一书。这是世界上最早而完整的昆虫分类专着,他第一个使用检索表区别昆虫,一直沿用至今。

同时代还有法国昆虫学家https://www.wendangku.net/doc/0f11498645.html,trille(1762-1833)于1796年完成了《昆虫学纲要》。第一个建立了“科”分类系统。整理了蚁科、蜜蜂科、步甲科、叩头虫科等,并新订了一些目。 综上所述,这一时期昆虫分类局限于种的描述与命名的水平,一般称“甲级分类学”或“а-分类学”。

② 达尔文时期

以达尔文Charles Robert Darwin(1809~1882),1859年12月24日《物种起源》一书的发表为标志

林奈时期:物种恒定不变,物种之间是间断的。

达尔文与Wallace(1823~1913)英国博物学家、动物地理区系学家,集生物科学之大成,在英国林奈学会发表On the Origin of species此书是现代分类学的理论基础。从此

分类学从种的描述进而研究类群间的血缘关系和系统排列。分类学进入新的历史时期。

后人在进化论的影响下,热心探索“原始祖先”和“遗传的链索”,从而将比较形态学、比较胚胎学、化石学、发生学等学科引入分类学范畴。这一时其大量的新目、新属和新种被发现。昆虫分类学进入昌盛时代。

以种上分类为主要内容的分类,称为“乙级分类学”或“β-分类学”。

③ 种群分类时期

自从1940年小赫胥黎发表了《新系统学》(New Systematics)一书以来,提出了以“种群”而不是“个体”为分类阶元即用动物的多型概念代替了静态的种模概念。导致了对“种”下类型的探讨。现代科学发展趋势之一是学科间的日益渗透与交流。从生物来讲,分类、形态、生态、生理、生化、遗传、细胞等分支学科,在其发展初期,几乎各自孤立。但随知识的扩大,研究工作的深入,不同学科间的联系与渗透愈来愈密切,今天分类学已与生态学、遗传学、细胞学等相结合,这些学科的研究成果已渗透到分类学,为分类学增加了新的内容。 对这一时期以“种”下分类为主要内容的分类称为“丙级分类学”或“γ-分类学”。

二、分类阶元及分类特征

(一)分类阶元

1.基本阶元:种species

2.主要阶元:属、 科、 目、 纲、 门、 界

Genus Family Order Class Phylum Kingdom

次生阶元:亚种、亚属、族、亚科、总科、亚目、总目、股、亚纲、

亚门等。……………………………阶元系统Hierarchy

词尾:-oidea -idae -inae -ini

总科 科 亚科 族

(二)分类特征

分类学工作需进行:类下分类……发现特性 但均需通过分类特征来表现

类上分类……找出共性

应用分类特征的原则:

演变慢的特征,可用作高级分类阶元。较迅速的特征则适用于低级分类阶元,但避免使用平行或趋向消失的特征。(如有翅亚纲无翅类群)。

1.形态特征:目前主要仍是采用形态特征

2.幼期特征:

① 胚胎期 ② 卵期 ③ 幼虫期 ④ 蛹期

弹、双尾目无羊膜及浆膜卵壳构造 头部更重要 不太重要

3.生态学特征昆虫与寄主的协同进化

4.地下分布上的特征

5.生理学的特征:目前仅限于有经济意义种类的研究eg. 赤眼蜂、玉米螟、倍蚜、小地老虎、天牛等。

6.细胞学的特征

三、物种及其形成

(一)物种的概念

不同学者,不同历史时期等有不同的定义:

Linnaeus:

同一种生物,其形态相同,在自然情况下能够交配,生出正常的下代来。…………………

………………………………………………………………………………………………………………基本点正确,但神创论Darwin:

在“物种起源”中奠定了物种的可变性和种间连续性的概念。…………………阐明了物种进化观点,但忽视物种的稳定性→不可知论

南开大学等五校:

种是指形态、生理、生态、生物学及地理分布等方面相同,并在自然情况下能自由交配,产生具有繁殖力的后代的个体的总称。

本教科书:

种是能够相互配育的自然种群的类群,这些类群与其它近似类群有本质的差别,并在生殖上相互隔离着,它是生物进化过程中连续性与间断性统一的基本间断形式。

陈世骧:

物种是繁殖单元和进化单元,是生物系统线上的基本间断。

理解:必须承认在我们观察中的物种是真实存在的,从发展的继承性来看,种与种间是连续的,但从发展的一定阶段来看,种与种间又确实是间断的,因此,肯定物种是相对稳定地客观存在,同时又是不断变异发展的。

→物种是客观存在的实体

物种概念的三个要点: 物种是繁殖群体

→物种是进化阶元

另附:近缘种:

是指在形态上很相似而亲缘关系密切的种,它们在构造上仅有细微差别,这种相似的种(群)可以同时在一个地区生存,但不互相交配。对这类标本常以复组(复合种)名称来标记。E.g.五斑按蚊复组Anopheles maculipennis complex

(二)物种的形成(略)

物种形成的方式

物种形成的途径

物种形成的机制

进化论的基本任务是要研究生命发展规律,我们已知生物数量众多(动物150万种(昆虫占多数),植物约30万种,(种子植物占多数))世界既无完全相同的两种生物,亦没有两个全然无异的个体。这是因为变异是普遍存在的生命现。变异、遗传和自然选择是生物进化的机制。即以基因型突变和染色体畸变为进化的办在本质,在外界环境影响下。由于自然选择和长期隔离的作用,而使生物得到进化。

物种形成的速度

生物进化的速度是缓慢的,一般并非人的一生所能见到的。eg一个种群有100万个体,当基因突变为显性时,按1-50个分子时,需经历1139世代才能完成新的物种的形成;当基因突变为隐性时,亦按1-50个分子时,则需经历30多万代才能完成新的物种的形成。但物种形成的速度是复杂的。一般来说,需3500年以上。

四、命名及命名法规

(一)双名法

1758年Linnaeus倡导:一个生物的种名由属名+种名组成,即双名。通常还加上定名人的姓氏。

(二)名称及命名

1.名称name

一个分类阶元的名称name of taxon是指构成一个分类阶元科学指定的一个词或几个词。

① 单名nomen

高于种级级别的一个分类阶元的名称第一个字母大写。

② 双名binomen

系指一个属名和一个种名的组合,由此而构成一个种的学名(scientific name)。种名不能单独使用。

③ 三名trinomen

属名+种名+亚种名。

④ 属名generic name

指一个属的名称,即双名或三名中第一个词,单数主格名词,首字母必须大写;同属学名在连续提及时,第二次可缩写(首字母或首二字母)。

⑤ 种名specific name

学名中的第二个词。

⑥ 亚种名subspecific name

三名中的第三个词。

⑦ 土名vernacular name

凡一个分类阶元的名称,超出动物命名法以外的任何文字都是土名。

2. 名称的有效

优先律:出版时间上的优先,有效性始于1758年1月1日,Linnaeus

《自然系统》(第十版)的出版为标志。

3.(异物)同名与(同物)异名

①(异物)同名homonym

在同一个命名属内不同的种级分类阶元或在属级或科级内,不同的分类阶元用完全相同名称来表示。

②(同物)异名Synonym

一个分类阶元使用了两个或两个以上的名称。

4.模式标本type specimen

① 模式标本

第一次发表新种时所根据的标本

② 正模标本holotype

原作者发表原描述时所用的单一标本。(选一个或仅有一个)

③ 副模标本paratype

系指一个模式系列内除去正模以外的其余标本。

④ 配模标本allotype

系原作者指定的与正模标本异性的任一副模标本的一个标本。

⑤ 全模标本Syntype

系指在未曾指定正模的一个模式系列内的每个标本,即全模包括正模和副模。

⑥ 选模标本Lectotype

系指在一个种级名称发表后,从全模标本中选出一个,指定作为具有该名称的分类阶元的模式标本。

(三)命名法规(略)

五、检索表与系统树

1.检索表Key

→(1) 鉴定Identification

昆虫分类三项任务: (2) 分类Classification

→(3) 系统发育研究Systematics

昆虫分类使用的工具主要是检索表,故检索表的制作和运用是学习昆虫分类必须掌握的基本技能.

编制检索表时要使用:

(1)典型特征 (2)绝对性状 (3)严格对称 (4)简炼的文字

检索表的类型有三种:

①包孕式

②连续式:目前也用。

③两项式:目前普遍采用。

2.系统树

第二章 昆虫纲的分目

一、昆虫分类学派

1. 传统分类学派

古老,代表人物:R.E.Blackwelder(美)

主要论点:认为系统发育不可能完全追溯,仅是根据分类学者的经验或直觉印象,将有关类群按不同性状或相互关系进行归类,并不反映系统发育的实际,只是为了分类工作中的方便。

2.进化分类学派

代表人物;Simpson ;Mayr

主要论点:认为分类工作不仅依据祖征(按形态相近来推断同源关系)还要看各分支这之间的进化程度和速度,并阐明这种进化是怎样进行的。

3.歧序分类(分支分类)学派

又称谱系分类(Phylogenetic systematic)

创始人:亨宁(W.Hennig,德国)

1965~1966年发表“系统发育系统学”(Phylogenetic Systematics)的两篇论文。他认为分类学家建立的分类系统,应符合生物发展规律,而这样的分类系统,只能建立在对系统发育研究的基础上。

4.数值分类学派

法国植物学家艾德森(M.Adanson.1727—1806)曾提倡生物是根据“总体相似性”来进行分类。史尼斯(Sneath)和索卜尔(Sockal)1973着有《数植分类学—数值分类的原理和应用》Numerical Taxonomy—The Principles and Practice of Numerical Taxonomy) 他们认为在分类上各种性状的重要性是相等的,通过大量的不加权性状所得到的总体相似度(overall similarity)可以反映分类阶元之间的近似程度,因此,即从生物体的各个部分,选取尽量多的特征,从而可以用重复的数值来分类,借助电子计算机的运算,以计算出种间的差别。

二、分类体系

1.分类系统(分目)的主要依据

① 翅的有关及其特征

② 口器的构造

③ 变态的类型

以及触角的形状,跗节及古昆虫(化石昆虫)特征等。

2.分类体系演变

Linnaeus 1758 7目

Brauer 1885 据形态和系统发育,分2亚纲17目

Borner 1904据变态分2亚纲(有翅亚纲分完全变态和不完全变态,分22目)

Brues & Melander 1932 2亚纲 34目

周尧 1947,1950,1964 4亚纲,33目

陈世骧 1958 3亚纲,3股, 5类,33目

蔡帮华 1955 2亚纲 3大类,10类,34目

第三章 无翅亚纲的分类Apterygota

原始无翅,柔弱,微小,均在2.5 cm以下,无明显变态。胸足甚发达,腹部6节或11~12节,口器咀嚼式,陷入头部,形成内吸收式,触角极发达,也有无或退化的。

本亚纲分布广,一般陆栖,性喜潮湿,已知3260种以上,分4目。

Section 1 原尾目 Protura

Pro-tu`ra protos 原始oura 尾Proturans(英).Protures(法)

国内外专家:意大利Silvestri 1907年建立该目

杨集昆(1956年于陕西华山采到)、周尧(论文第一作者) 简 称:虫元

一、形态特征

微小无翅,细长黄白,无触角及眼,口器内藏,前足高举,功同触角,跗爪各一,腹部12节,无尾须。

二、生物学特征

1.变态:Anamorphosis

2.生境:陆栖,砖石,落叶,树皮下,苔藓中及腐殖质土中。

3.经济意义:一般无,对昆虫进化研究有重要意义。

三、分类

1.分类:

4个科:古虫元科Eosentomidae,无管虫元科Acerentomidae, 始虫元科Protentomidae,

华虫元科Sinertomidae.

2.种类:已知200多种。

Section 2. 弹尾目 Cinura (Collembola)

Col-lem`bo-la colla 胶 embolon 管 Springtails(英), Collmboles (法)

国内外专家:周尧,黄复生,殷惠芬,林善祥,尹文英

简称或俗名:粘管目,“跳虫”。

一、形态特征

体小无翅,细长或圆,颜色多样,白、褐、蓝金。触角4(4-6)节,胫跗 合一,爪1个,腹6节;腹部附肢位在一、三、四节,腹管(粘管)、握弹器、弹器,无尾须。

二、生物学特性

1.变态:无变态 表变态

2.生境:

(1)潮湿场所,落叶下,石下,表苔间,水边,水面等,以腐烂植物,菌类为主要食物。 极少数种类,肉类有益。少数生活在蚁巢或白蚁巢中(无弹器)。

(2)分布全世界,较寒冷的温带发生多。

3.经济意义

农作物害虫:麦棘跳虫(小麦根部);白棘跳虫(蔬菜);绿圆跳虫、紫圆跳虫、黄星跳虫等(危害稻、麦、茄子、马铃薯、西红柿等嫩芽)。

三、分类

Handirsch 1925年分3亚目,共5科1500多种。

跳虫科分布极广,且常大量出现,成虫出现在地上,水面及雪地上,美帝侵朝战争时,进行细菌战,曾利用其集居于雪地上的习性,作为撒布细菌的工具。

→节腹亚目Arthropleona跳虫科Poduridae……亦分总科,下辖4科

长角跳虫科Entomobryidae……同上。

体节明显,末端2~3节局部愈合;体形较直;被鳞片,弹器小,头

为水平位,触角位于头的前半部。

→肌生亚目Actaletoudae滨跳虫科Actaletidae

体愈合,仅末端2节略分离,无鳞片;弹器大;头为垂直位,触角

位于头之中央。

→愈(合)腹亚目Symphypleona短角跳虫科Neelidae

圆跳虫科Smynthuridae

体略呈球形,末2节愈合,鳞片小,弹器大,头垂直位,触角位于

头的中央或稍上方,一般有头气管。

Section 3. 双尾目 Diplura

Di-plura Diplos 双 oura 尾 campodeids(英)

国内外专家:周尧、黄复生、陈彤

简称或俗名:“ 虫八 ”、无翅目、双尾虫、钳尾虫、长尾虫

一、形态特征

体细长扁平,5-10 mm,白或黄白色,体无鳞片,咀嚼式口器,触角长、多节,无单、复眼;前胸小,中后胸相似。跗1节,2-3爪,腹11节,腹面有针突;腹末尾须1对,线状或钳状。

二、生物学特性

1.变态:

2.生境:性极畏光,生活于土壤中,潮湿处,石下、椴木下、枯树皮下、落叶下以上植物质,菌类。微小动物为食。广泛分布于温带及热带。

3.分类

双尾科Campodeidae:第11腹节无腹刺,尾须1对,丝状多节,先端不开口。

原铗尾虫科Projapygidae:第1腹节有腹刺,尾须短而多节,先端开口

铗尾虫科Japygidae:第1腹节有腹刺,尾须铗形。

Section 4 缨尾目 Thysanura

Thy’sa-nr’ra Thysanos 缨 oura尾

国内外专家:赵养昌

Bristletails,Silver fish moths (英) Thysanoures (法)

俗称,简称:衣鱼,虫丙

一、形态特征

体中小型、体长柔软(10-20 mm),被鳞片或毛、咀嚼口,下颚须长(5-7节),触角长丝状(30节),有或无单、复眼,跗2-3节,并2-3爪,腹11节,第11节→中尾丝,尾须1对位第10节上,很长≥50节。足基节及腹节腹板上有针形腹刺。

二、生物学特性

1.变态:Epimorphosis

2.生境:大多栖息在树叶、树皮、树干、青苔下等潮湿场所,有些在蚁或白蚁巢中,少数栖息室内。

3.食性:杂食性

大部分植食性:取食干燥或腐败植物,菌类,地衣以及苔藓类植物质。

生活室内的:取食谷物、浆糊、胶质、纸张书籍及有淀粉的衣服、丝绸等………………………………………是重要的家庭害虫 。

4.分布:世界各地。

三、分类

2科(常见)50属,550种。

1.石虫丙科Machilidae

本目中最大者,10-12 mm,圆筒形,有鳞片,触角,尾须及中尾丝长,中尾丝>体长,复眼大,在背面相连或接近,单眼狭长形。取食植物质。

2.衣鱼科Lepismidae

体扁长,胸最阔,被鳞片,触角、尾须、中尾丝及下颚须显着,复眼小,左右分离甚远,有无眼种类(生活于蚁、白蚁巢中)。

本科夜出性,于落叶中,石块,洞穴及房屋中干燥处以及蚁、白蚁巢中栖息,以干燥植物质或其产品为食,室内种类则以书籍纸箱上的浆糊及胶质为食,亦危害书籍,丝绸衣服等。

分布广,多世界性种类,我国常见毛(栉)衣鱼Ctenolepisma villosa Fabricius 及衣鱼Lepisma saccharina Linne.

有翅亚纲Pterygota大多有翅,亦包括祖先有翅,但因适应环境而翅退化消失的类群,口器类型变化多,变态也极多样,根据其变态分为二大类:

A.不全变态类或外生翅类 Exopterygota

包括19月,即:直翅目、蛩蠊目、蜚蠊目、竹节虫目、螳螂目、革翅目、重舌目、襀翅目、等翅目、缺翅目、纺足目、啮虫目、食毛目、虱目、蜉蝣目、蜻蜓目、缨翅目、半翅目、同翅目。

B.全变态类或内生翅类Endopterygota

包括11目,即:广翅目、脉翅目、蛇蛉目、长翅目、毛翅目、鳞翅目、鞘翅目、捻翅目、膜翅目、双翅目及蚤目。

第四章 古翅类群的分类 Palaeowing

Section 1. 蜉蝣目 Ephemerida

Eph’e-mer-op’te r-a Ephemeros 短命

Mayflies Dayflies Ephemerids(英) Ephemeres(法)

国内专家:尤大寿、吴钿、归鸿、徐家铸、苏翠荣、吴兴永(南京师大)。

简称或俗称:网翅目、“蜉”、“蜉蝣”。

一、形态特征

体中小型、细长柔软、头活动自如;复眼发达,单眼3个;触角短,刚毛状;口器退化咀嚼式(上颚消失、下颚退化,但保留下颚须),中胸大,翅膜质,前翅很大,后翅小或退化,翅多横脉,(翅脉原始)。休息时翅竖立体背面,尾须细长丝状,胸足细长,不作步行用。基节短,腿节粗,跗1~5节。爪2个。腹部11节。(第11节仅存退化形背板,延长成中尾丝)。

二、生物学特征

1.变态:原变态Prometamorphosis

幼体水栖、有鳃,称“稚虫”,成虫在空中飞翔。

2.生境:成虫不取食,寿命极短,有“朝生暮死”之称,常生活于河溪湖滨,多于晚间在近

水的地方飞翔,性器官在羽化前已成熟,交尾后产卵于水面(2000~3000个/♀),稚虫生活于水中1~3年,杂食性,末龄稚虫蜕皮前行动迟缓、翅半透明——亚成虫subimago,是鱼类的良好饵料,有净化水之作用。

3.经济意义:与人类无直接经济关系。

三、分类

(一)分类特征

1.后足跗节的可动环节数,4节或5节;

2.脉序;

3.尾毛2条或3条。

(二)分类

3总科14科150属2000种

总科检索表(依Tillyard式命名翅脉)

1 后足跗节有4或4以下可动的环节,若有5节,则与胫节愈合,不能活动............... (2)

- 后足跗节有5节,前翅M1+2与Cu1在基部平行……………五节蜉总科Heptagenioidea

2 前翅M1+2与Cu1在基部显著分叉…………………………………蜉蝣总科Ephemeroidea

前翅M1+2与Cu1在基部平行…………………………………………四节蜉总科Baetoidea

(三)重要科及种类介绍

本目以蜉蝣总科之蜉蝣科及四节蜉总科的四节蜉科为较常见。

1.蜉蝣科Ephemeridae

稚虫长筒形、两端稍尖,触角长形,有缘毛,尾毛3条,等长。成虫后翅较小,尾须2—3条,甚长,腹部有花纹,♂抱握器4节,第2节长而向内弯曲。e.g.台湾蜉蝣Ephemera formosana Ulmer 台湾,广东。

2.四节蜉科Baetidae

稚虫长形,触角与足均长,鳃叶状,尾须2条,中尾丝较短。成虫横脉较少,后翅退化或消失,往往有柄状复眼,♂抱握器4节,有时退化为3节,第2节细长与第1节相等,有时与第3节愈合,长而弯曲。e.g.二翼蜉Cloeon dipterum L.华北。

Section 2 蜻蜓目Odonata

O-don’a- ta Odouo 齿 Dragonflies (英) Libellulides (法)

国内外专家:Baron Edmond,Tillyard 研究较早而深入;赵修复(“中国蜻蜓分类”1990 福建科技出版社);隋敬之、孙洪国等 (“中国习见蜻蜓”1986 农业出版社) 简称、俗称:蜻蜓、蜻蛉、豆娘。

一、形态特征

体小、中、大型,细长,体壁坚硬,头大眼凸(复眼占头部大部分),3单眼,触角刚毛状,咀嚼口,上颚强,下颚有齿,前胸小,中后胸大,胸斜尾长;跗3节,翅狭长,脉网状,具翅痣,翅节。♂外生殖器位于腹部第2节,尾须1节。

二、生物学特性

1.变态:半变态Hemimetabola

2.食性:成、稚虫均捕食性

成虫:捕小型蛾类,飞虱,苍蝇,蚊子等……………………………………益虫。

稚虫——水虿虽吃蚊子的幼虫(子孓),但也攻击蝌蚪、捕食鱼苗………害虫。

稚虫脱皮11~15次,生活期1~2年。

①水虿的捕食工具——“脸盖”mask

特化的下唇(亚颏及颏伸长发达而成,形似胳膊状的长板子,其末端有弯钩。

②水虿在水中能做弹射运动

直肠腮:遇敌时迅速将水挤压出虫体外,借其反作用力弹离15cm…“火箭放射器”。

3.特殊的飞行能力

最出色的“飞行员”——高、快、远,每秒可高达40m,苍蝇飞行惊人,却能被蜻蜓捕获,

并在空中嚼啐吃掉,一只蜻蜓能在1小时内吃掉40只苍蝇或840只蚊子。……可倒飞,侧飞,

悬于空中,突然降落,急转弯。

飞机制造 仿生 蜻蜓………………减震器——颤振

堪称飞行之王的蜻蜓,在地面却是弱者,三对细足不适于步行,停歇在物体上,想改变

位置,须重新起飞,捕食也必须在飞行中进行。

4.交尾产卵

①交尾:歇后语:♂ 蜻蜓咬尾巴——自吃自

此乃♂蜻蜓为当“新郎官”做准备,♂第2、3腹节上有副性器官——阳茎囊,它要把尾

端(第9腹节)成熟精液移到副性器官内,♀♂ 交配首尾相接,打个箍儿在空中飞行——

欢度空中“蜜月”。

②产卵:♀ 点水蜻蜓款款飞(古代诗人语)。

R1

Sc R1

Mapl MA R4-5

蜻蜓前翅 蜻蜓后翅

注:Aa.臀角 ab.臀桥脉 ac.臀横脉 al.臀圈 an.节前横脉 arc.弓脉 at.臀三角室 br.桥脉 bs.基室 Cup.肘脉后支 d.中室区 h.上三角室 IR2.IR3.第2、3径插脉 MA.中脉前支 mb.臀膜 Mspl.中补脉 N.翅节 o.斜脉 Pn.节后横脉 Pt.翅痣 q.方室 Rspl.径支补脉 s.亚三角室 Sn.亚翅节 t.三角室

(二)分类

3亚目,4总科,24余科,500多属,约5000多种。

亚目检索表

1.前后翅大小、形状及脉序相同....................................束翅亚目(均翅)Zygoptera 前后翅形状及脉序不相同,通常后翅基部远较前翅为宽 (2)

2.中室为简单的四边形,前后翅中室形状显然不同……………间翅亚目Anisozygoptera 中室分为上三角室与三角室2个…………………………差翅亚目(异翅)Anisoptera

▲束Caenagrioidea与色蟌总科

常见。

2总科,6科,其中蜻科与蜓科最常见。

1.蜓科(蜻蜓科)Aeschnidae (Skimmer)

① 前后翅三角室(t)形状及其脉序相似;

② 前后翅三角室至弓脉的距离大致相等;

③ 上下两列结前横脉不相符合

2.蜻科(蜻蛉科)Libellulidae (Libellulids)

① 前后翅的三角室形状均不相似;

② 后翅的三角室较近于弓脉;

③ 上下两列结前横脉相符合。

第五章 直翅类群

直翅类:直翅目、螳螂目、蛩蠊目、蜚蠊目、襀翅目、纺足目、等翅目、革翅目、 缺翅目、竹节虫目。

Section 1 直翅目Orthoptera

Or-thop’ter-a Orthos 直pteron 翅 Locusts,Grasshoppers,

Crickets,Mole Crickets(英) 国内外专家:郑哲民(陕西师大),夏凯龄(中科院上海昆虫所)

印象初(河北大学)(“青藏高原的蝗虫”1984 科学出版社)

主要类群:蝗虫、蟋蟀、蝼蛄、螽蟖

一、形态特征

中大型、标准口、下口式,线状角;前胸大、翅胸合;前翅覆、后翅膜,翅脉直;

跳跃足,跗3、4;产卵器,形状异;腹听器,胫听器;发音器,翅或足。

auditory organ

蝗虫:后腿与翅部摩擦成音← stridulating organ

蟋蟀,螽蟖:翅部粗相互摩擦发音←

复眼发达,单眼2~3个或缺(螽斯科);蝼蛄科后足非跳跃足;♂发音器,♀♂有听器(凡发音种类均有听器存在)。

二、生物学特征

1.变态:渐变态Paurometabola

触角有增节现象,2令后出现翅芽,若虫5龄。

2.生殖方式

卵呈:圆柱形(蟋蟀),圆柱形略弯曲(蝗虫),扁平(螽蟖),长圆形(蝼蛄) 产卵方式属隐蔽式:→土中:蝼,蟋,蝗;

→植物组织中:螽蟖,树蟀。

3.生境

多数生活于地面,也有生活于地下和树上者,一般白天活动,但蟋蟀、蝼蛄夜间活动。 4.食性

植食性(多食性)——农业害虫

少捕食性 eg. 螽蟖科中某些种类

5.生活史

多以冬季以卵滞育,一年一代类型多。

(夏秋产卵→越冬→翌年4、5月孵化→6、7月→成虫→生殖)

但也有2~3代/年,有以若虫或(和)成虫越冬的。

6.性二型现象

eg.① ♂有发育器而♀无(蟋蟀、螽蟖等)

② ♀体大而♂体小(东亚飞蝗、中华蚱蜢等)

③ ♂有的种类具长翅,体细瘦,♀短翅,粗胖

7.防御习性

①保护色protective coloration

②拟态mimesis:大多为植物拟态 phytomimeses

eg.螩蝗科Proscopiidae模拟小枝状,拟叶螽科 Pseudophyllidae前翅模拟树叶,若干螽斯总科的昆虫常模拟蚁及瓢虫形状。

③自残:跳跃足腿节与转节之间的自行切断,很少能再生

④使用防御腺(repugnatorial gland ):粘性,乳状的酸性分泌物(有异味)

8.天敌

哺乳类,鸟类,蜘蛛类及肉食性昆虫等 eg.泥蜂等。能影响Orthoptera 繁荣昌盛的是寄生性昆虫,

鞘翅目幼虫(豆芜菁属Epicauta等)、蝇类、膜翅目(黑卵蜂属Scelio等)、螨类、红蝗螨属等、线虫、真菌、细菌等。

三、分类

(一)分类特征

→①头顶扁平或倾斜,与颜成直角或钝角

②额脊的宽或狭

1.头部 ③额顶窝(头侧窝)四角形或梯形

→④触角长短,节数,形状

→①前胸背板形状及变化

②前胸腹板间突有无及形状

2.胸部 ③复翅的形状、长、短

④ 后足腿节外侧两侧隆线间平行羽状纹之有无

→⑤跗式

3.腹部 →①听器的位置

→②产卵器形状

(二)分类体系

2亚目 3总科(传统),3亚目 6总科(周尧,1964年)

(三)分类

17科20000种

亚目及总科检索表

1 有听器,在前足胫节或腹部第1节上;前足步行足;雌性成虫产卵器外露 (2)

无听器,前足开掘式,成虫产卵器不外露(蝼蛄亚目) (5)

2 触角长于身体,产卵器刀剑状,听器在前足胫节上(螽蟖亚目) (3)

触角短于体长,产卵器凿状,听器在腹第一节两侧(蝗亚目) (4)

3 跗式4-4-4式;尾须短小。产卵器刀状…………………………螽蟖总科Tettigoniodea

跗式3-3-3或3-3-4;尾须长,产卵器剑状…………………………蟋蟀总科Grylloidea 4 前胸背板不盖住腹部,跗式3-3-3……………………………………蝗总科Locustoidea 前胸背板特发达,后伸盖住腹部甚至超过腹末;跗式2-2-3……菱蝗总科Tetrigoidea

5 大形种,后足腿节弱,不能跳跃,跗节2-3节………………蝼蛄总科Gryllotalpoidea 小形种,后足腿节特别膨大,善跳跃,后足跗节1节………蚤蝼总科Tridactyloidea

(四)重要科及种类介绍

A.螽蟖亚目Tettigoniodea: 螽蟖科 + 蟋蟀科

向植物上生活发展。多绿色。触角长于身体,以上适应空旷环境生活,前足常具有胫听器,跗节4或3节;产卵器刀状或剑状。

B.蝼蛄亚目Gryllotalpodea: 蝼蛄科 + 蚤蝼科

向土中生活发展。身体纺锤形,坚实;前足开掘式;触角短;产卵器退化,跗节1~3节。

C.蝗亚目Locustodea 蝗科 + 菱蝗科

向地面生活发展。短的触角适应草丛中活动。产卵器凿状,便于土中产卵;跗节3节;具腹听器。

1.螽蟖科 Tettigoniidae(long-horned grasshoppers)

触角比体长,30节以上,产卵器扁阔,刀状;跗式4-4-4;尾须短,不分节;♂发育器在左复翅之臀域,圆形,周围围以较强而弯形的翅脉,中横贯粗脉Cu2——音剉,右复翅基部有光滑透明的鼓膜,以便二翅相擦,共鸣发音;听器1对,位前足胫基两侧。

2.蟋蟀科 Gryllidae(crickets)

[形态]:触角细长,产卵器枪予状(剑状),跗式3-3-3,胫听器,发音器位翅基(由音剉、摩擦器或刮器及鼓膜或振动区构成),尾须长,不分节。

[生物学]:地栖,日息夜出,产卵泥土中。

→草食性:

→肉食性:被囚禁而饥饿时,同类相食

3.蝼蛄科Gryllotalpidae(mole crickets)

[形态]:触角短;前足开掘式,后足非跳跃足;发音器、听器均不发达;产并器不发达; 前翅短,后翅长如尾状,1对长尾须。

[生物学]:多食性地下害虫,1代/1~3年,以成、若虫于土壤中越冬。

[分类]:约50多种,我国常见3种。

4.蚤蝼科Tridactylidae

[形态]:小型,<10 mm。触角短,12节;单眼3个;覆翅短,后翅伸出腹末;前足开掘足,后足跳跃足;跗式2-2-1。无听器,无发音器。

[生物学]:近水面生活,分布极广。

[分类]:3属55种,我国5种左右。

5.蝗科Locustidae(Acridiidae)

[分类专家]:夏凯龄;印象初,《世界蝗科分类专着》

[概述]:为最著名之昆虫,常为世界各地农业大害,非迁移性种类,常称为“蚱蜢”grasshopper,具破坏性的迁移性种类,则称为“飞蝗”,二者在分类上无明显界限。 [形态特征]:体粗壮。复眼大,单眼3,触角短,不过体;前胸大,盖中胸;前中小,后足跳,跗节数,3-3-3;腹听器,在两侧;发音器,腿翅发。

[生物学特性]:

1.变态:渐变态Paurometabola

2.食态:植食性:能取食不同科的植物,非常贪食,食物大部分未消化即排体外。

取食不仅为获取营养,而且为了获取水分,因之,在干旱年份,取食特别多,为害尤重。 3.世代及生活史

①世代:1代/年

a.卵:土中产卵,卵长形,产卵时并分泌胶液,掺杂土粒,形成卵囊 20-100粒/块,20块/♀

b.若虫——蝻,通常5龄

②生活史

有些种类有两个明显的生态型:群居型gregaria

散居型 solitaria

以飞蝗为例:飞蝗 Locusta migratoria L.

a.生活史:北京以北:1代/年

渤海湾、黄河下游、淮河、长江流域:2代/年,干旱年份可能有3代

台湾、广西:3代/年

海南:4代/年

b.猖獗多在2代区,飞蝗为害季节,古称“蝗时”,多在夏季,一般称第1代为“夏蝗”,第2、3代为“秋蝗”。各地均以卵越冬。

飞蝗为历史性大害虫,我国自公元前707年到1935年止,在2642年间,共发生飞蝗危害796次,平均每三年发生一次,全国常年受害面积700万亩。

c.全世界有5亚种,我国境内分布的2亚种是:东亚飞蝗Locusta migratoria manilensis Meyen和亚洲飞蝗L.migratoria migratoria L.

[分类]

A.分类依据

①头顶与额形成的角度,颜中央之纵隆等。

②前胸背板之隆起线及横沟

③前胸腹板

④中、后胸腹板

⑤后足腿节“羽状隆线”

B. 分类

是一个大的类群,全世界已知万余种,分为若干亚科,其中已有很多亚科提升为科。 6.菱蝗科Tetrigidae

[形态特征]:体小,菱形。触角短,线状;前胸背板盖位整个腹部;跗式2-2-3;产卵器 短,锥状;无听器,无发音器。

[生物学特性]:活泼,以菌类、地衣、苔藓、杂草种子及其它植物或腐败物质为食,性喜 潮湿,常居地塘、水边。成虫春季卵产于土中。

Section 2 螳螂目 Mantodea

Man-to’de-a mantio 祈祷Mantids, Soothsayers, Praying Mantids (英)

Les mantides (法)

国内外分类专家:王天齐(上海所),(“中国螳螂目分类概要”1993 上海科技文献出版社)

一、形态特征

中大型;三角头,细长颈;复眼大,单眼3;咀嚼口,丝状角;捕捉足,5跗节。

二、生物学特性

1.变态:渐变态 paurometabola

卵——→若虫——→成虫

卵产于卵鞘——桑螵蛸内

2.食性:捕食性:前足——“捕捉机”

食谱:蜂、蝶、蛾、蝗虫、螽蟖、蝉等。

3.自我保护能力:保护色及拟态。

4.虫国霸王

螳臂挡车,不自量力——春秋战国时代,齐庄公出巡旅猎,路遇一只螳螂,昂首奋臂,阻拦庄公的车轮,庄公问驾车人为何物,曰“是个自不量力的螳螂”………

虫国一霸、虫国老虎:貌似“祈祷”,实厉害无比。

①善伪装:热带地区一种黑吉螳螂,伏树叶或花丛间,高举的螳臂酷似怒放的紫白相间的兰花。

②惯偷袭:有时埋伏在黄蜂的地下巢空出入要道一侧,遇有黄蜂出入,即挥臂猛击。

③讹诈、恐吓:面对猎物,突然双翅如帆地极度张开,捕捉足高高举起,“脖颈”左右扭摆,并发出类似眼镜蛇的咝咝声。

④卑鄙的自食其类者:♀交尾后吃掉♂,♂需格外谨慎,吃7只♂/♀。

5.药用价值——桑螵蛸

螳螂的卵块,中药上称为桑螵蛸,于二、三月间采集,沸水烫后,晒于即成。

桑螵蛸:性甘无毒,益精,补肾,利小便;能治虚损,伤中,阴痿,梦寐失精,小便不通等。

三、分类

仅螳螂科Mantidae 1科,分32亚科,约2000余种,我国有11亚科,已知约50种,多属螳螂亚科Mantinae

Section 3 等翅目 Isoptera

I-sop’ter-a Isos 相等 pteron 翅 White ants (英) Termites(法)

国内外专家:平正明、李桂祥等(广东昆虫所)(“白蚁及其防治:1979,科学出版社);

蔡帮华、黄复生、陈宁生(中动所)(“中国白蚁”1980 科学出版社);

夏凯龄 (上海昆虫所)。

白蚁是一种大害虫,解放前,上海砖木结构的住房约有52%被蛀坏。在南方危害尤为猖獗,广东开平一带的民房,几乎达到十室九蛀的程度。解放后,我国各地都成立了专业的白蚁防治中心,白蚁的危害基本得到控制,但因其深藏于地下,行动迅速、诡秘,目前危害仍相当严重,加之其危害不动声色,故待发现时,早已成千疮百孔,行将倒塌的危屋。

白蚁在国外热带地区曾有过一则白蚁吃掉整个城镇的报道:一盗墓者,偷盗埋于地下的古埃及法老的陵墓,不慎挖穿一巨大的白蚁穴,于是数以亿计的白蚁涌出地穴“偷袭”附近城

镇,不到半年,这座城镇的所有木结构的建筑全被毁掉,白蚁吞掉了整个城镇。

白蚁除了严重破坏住房建筑,还吃枕木、桥梁、堤坝、室内仓贮之物品,书库藏书等。有些地区甚至连田野正在生长着的芋艿、甘蔗、苎麻、桑树、芭蕉、百合以及各种果树、林木也都成了它们吞噬、危害的对象。

(美)国立大学研究中心生物学家吉梅曼研究白蚁认为,地球上约有24亿亿只白蚁。每年,地球上的植物有机物的1/3是被白蚁吃掉的。白蚁还能啃食橡胶、塑料乃至铅线。由于其猖獗危害,常造成塌屋、伤人、通讯受阻,车船遇险、堤坝溃决、物质蛀蚀,作物减产、林木夭折,所以,人们称其为无牙 “老虎”。

白蚁能食银:啃咬时分泌高浓度蚁酸(甲酸):白银+蚁酸→蚁酸银(粉末状)分解 黑色粉末状金属,滞留白蚁体内。 一、形态特征

中小型昆虫,体长略扁,母蚁长而膨大,可达60~70 mm,体白、苍白、黄白、琥珀色、褐或黑色等;

前口式,咀嚼式,复眼发达或退化或无(无翅型无)单眼2个或无;

触角念珠状,9或10节,有时达30节;

胸部(兵蚁、工蚁)缩小,2对翅大小、形状及脉序相同;

跗4或5节,2爪。

二、生物及特性

1.变态:渐变态

生活史:

卵→→幼虫→→{幼虫}→→补充母蚁、父蚁→→卵

若虫

→→→→兵蚁

→→→→职蚁

→→→→→若虫→→有翅成虫→→脱翅→→原始母蚁、父蚁→→卵

2.群栖性——社会性行为

习性:①土栖性;②木栖性;③土木两栖性。

筑巢于土下、或木中,一蚁群少则数千,多者达数百万只,组织严密,分工明确, 蚁王、蚁后、工蚁、兵蚁及补充型(长有翅芽)繁殖蚁等。

①生殖等——婚飞………………“小家庭”,“爱情专一”

第一批若虫由蚁后亲自照料,等到擅长搏杀的兵蚁及会筑巢、觅食、饲喂弟妹的工蚁长大后,蚁王、蚁后将工作移交给这批后代,迁于特筑的“王宫”中,深居简出,过“帝王”般“宫庭”生活了,由于后、王吃充足的美味食品,其体躯壮实,复眼发达,尤蚁后。

蚁后繁殖力惊人8000~10000粒卵/昼夜。

寿命:15~30年,甚至50年。生下的若蚁,3令后分化 工蚁、兵蚁:工蚁占 70~80% 少量有翅繁殖蚁

②建筑等——摩天大楼

蚁巢结构极富匠心——巧夺天工,分数层:外有“围墙”,很坚固,须用铁镐,斧才能敲碎,围墙里蚁道四通八达,尚有盘曲萦绕的梯道直达蚁冢顶部,建筑材料:岩土、木材、粪便和以工蚁的唾液。

蚁巢底层是坚壁厚墙的“王宫”,乃“女王”及其情侣之“寝宫”,此处有大队侍从,担负警卫、搀扶、献食工作。“女王”吃丰美异常的佳肴,故它的身上常分泌出味美可口的甜汁,“女王”常让其侍从、警卫舔食身上的甜汁作为对“部下”的赏赐。“寝宫”的四周有不少小室,住其侍从及卫队,另辟有专门贮存“女王”各种美食、植物胶质的贮藏室。蚁后产下的卵,立即由工蚁卸入育儿室;第二层是个大育儿室,室内成千上万小洞,似一块浮石,布满小窟窿,每窟里养大小不等的幼蚁;最高一层是宽敞的“角楼”——冒出地面的“城堡”(呈圆锥状、柱状的),非洲有种白蚁还会造出松菌状“角楼”,这种伞菌形的巢冠,可使暴雨向四周流去,有的白蚁巢冠可高出地面很多。澳洲,有的白蚁塔形“城堡”高达6米,非洲,有些白蚁的柱状巢冠,竟可高达数十米,堪称虫国“摩天大楼”。

白蚁,在寻找构筑自已“城堡”的材料时,常把地层深处的岩石颗粒搬上地面,无形中为人类做了件难得的好事:为地质工作者研究地下矿物成分取来了可靠的试样。津巴布韦有一矿业工程师,根据白蚁筑巢这一特点,仔细分析工蚁带到地面的地下矿物“样品”,竟发现一大金矿!

③御敌——化学“兵种”

兵蚁——“武士”:头部极度骨化,一对发达大颚(口器特殊,无法吃东西,需工蚁喂食),啃咬外敌。

有趣的是,有些种类的白蚁,其兵蚁大颚完全退化,此类兵蚁的额部向前突伸形成一根长管,这些缺锐颚的兵蚁岂不非兵了吗?非也,它们是战斗蚁中的历害无比的特种化学“兵种”,其额上的长管状物,是它们改进后的新式装备——“喷射枪”→→→大量粘液。与蚂蚁对峙时,使蚂蚁失去战斗力。据研究,一只大颚兵蚁只能杀死2只蚂蚁,而这种兵蚁一次击倒10~15只蚂蚁,且能连续喷5~6次。

3.食性

食材性Xylophagous

木头 = 主粮……………白蚁的“面包”

白蚁肠道里有共生原虫或超鞭毛虫——原生动物(原生动物门鞭毛虫纲:复鞭毛虫目、多鞭毛虫目)。 鞭毛虫→分泌→酶类,分解纤维素→→多糖→水解→糖类。

共生原虫经工蚁粪便食入幼蚁肠道。

4.天敌

白蚁是人类的大敌,各种鸟类、蜥蜴皆喜食白蚁,但不能威胁其群体的繁衍,对白蚁威胁最大的是食蚁兽与蚂蚁。

食蚁兽是吃蚂蚁的兽类,但吃起白蚁来,更对胃口,一餐可吃掉15万只白蚁。

蚂蚁也是白蚁最厉害的天敌,大举侵犯时,抢走成千上万只白蚁幼虫,夺走库存的食品,在热带国家(白蚁为害重的)法律规定不准破坏蚂蚁蚁穴。

尽管如此,食蚁兽、蚂蚁都不能给白蚁以致命的打击(彻底消灭),因为不能侵入“王宫”,蚁王、蚁后安然无恙,一段时间休整,补充又可恢复。

人类的宣战,给白蚁致命打击,人们掌握其习性及生活规律,用喷粉枪把灭蚁灵等药剂喷入蚁巢,利用白蚁互相舔食,清理身体之习性,将药物传遍整个蚁群达到杀害目的。

三、分类

分6科100属2600余种,我国已记载4科40余属100余种

科 检 索 表

1.各“型”跗节5节,后翅臀叶极大……………………………澳白蚁科Mastotermitidae

网络爬虫工作原理

网络爬虫工作原理 1 聚焦爬虫工作原理及关键技术概述 网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题: (1) 对抓取目标的描述或定义; (2) 对网页或数据的分析与过滤; (3) 对URL的搜索策略。 抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。 2 抓取目标描述 现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。 基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为: (1)预先给定的初始抓取种子样本; (2)预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等; (3)通过用户行为确定的抓取目标样例,分为: a) 用户浏览过程中显示标注的抓取样本; b) 通过用户日志挖掘得到访问模式及相关样本。 其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。现有的聚焦爬虫对抓取目标的描述或定义可以分为基于目标网页特征,基于目标数据模式和基于领域概念三种。 基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。具体的方法根据种子样本的获取方式可以分为:(1)预先给定的初始抓取种子样本;(2)预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;(3)通过用户行为确定的抓取目标样例。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。 基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。

昆虫分类学基础知识(一)教案资料

昆虫分类学基础知识(一) 昆虫分类学基础知识 昆虫是自然界中最昌盛的动物类群,其种类及数量极多。据报道,全世界现有昆虫1000万种,已描述的昆虫种类约110万种,约占整个已知动物种类总数的60%以上,并且每年仍以7000种的速度增加。 我国地域辽阔,环境复杂多样,生物资源极为丰富,是世界上昆虫种类最多的国家之一。据报道,我国的昆虫种类约占世界昆虫种类的1/10,按这个比率,我国昆虫种类应超过100万种,可是我国目前已记载鉴定的昆虫种类不超过8万种,还有更多的昆虫尚未被发现和开发,而且,有不少种类在未被我们认识之前就已灭绝。因此,查清自然界昆虫资源及区系是当代科学上一项重要的内容和任务。在这方面,我国的任务尤为繁重。 昆虫不仅种类繁多,数量庞大,而且分布范围之广也是惊人的,地球上的每个角落几乎都有它们的踪迹,其中有很多种类与人类有着极为密切的利害关系。人类在生产活动和科学实验中,不但有许多害虫和益虫要认识,而且有许多在生产上迫切需要解决的近似种类或易混淆的种类要区别。 昆虫分类学(insect taxonomy)是昆虫学(entomology)的一个分支学科,是研究昆虫种的鉴定(identification)、分类

(classification)和系统发育(phylogeny)的科学。在数以百万计的昆虫种类中,存在着血缘的远近和亲疏关系。亲缘关系越近,其形态特征和对环境的要求、生活习性以及发生发展规律也愈相近。而昆虫分类就是在这种亲缘关系的基础上,运用“分析、比较、综合、归纳”的科学方法,对地质年代中的化石昆虫与现存的昆虫种类之间,现存昆虫彼此之间以及近缘生物间进行对比研究,以了解种与种、类与类间的异同,反映不同类型昆虫间的亲缘关系,进而阐明昆虫的起源和进化,以及各类昆虫的系统发生,探讨种及种群的形成与变异,从而建立一个客观完整的分类系统来反映自然谱系的一门基础学科,其最终的目标是建立一个高度预见性的分类系统和丰富的信息存取系统,为人类开发和利用益虫(包括资源昆虫及天敌昆虫),测报及控制害虫,提供基础理论知识和科学依据。 第一节昆虫分类的基本原理 一、分类的阶元 昆虫分类的阶元(也称单元)和其它生物分类的阶元相同。分类学中有7个主要阶元:界(Kingdom)、门(Phylum)、纲(Class)、目(Order)、科(Family)、属(Genus)、种(Species)。为了更详细地反映物种之间的亲缘关系,还常在这些主要阶元加上次生阶元,如“亚”“总”级阶元等。例如在“门”下添加“亚

网络爬虫技术(新)

网络爬虫技术 网络机器人 1.概念: 它们是Web上独自运行的软件程序,它们不断地筛选数据,做出自己的决定,能够使用Web获取文本或者进行搜索查询,按部就班地完成各自的任务。 2.分类: 购物机器人、聊天机器人、搜索机器人(网络爬虫)等。 搜索引擎 1.概念: 从网络上获得网站网页资料,能够建立数据库并提供查询的系统。 2.分类(按工作原理): 全文搜索引擎、分类目录。 1> 全文搜索引擎数据库是依靠网络爬虫通过网络上的各种链接自动获取大量 网页信息内容,并按一定的规则分析整理形成的。(百度、Google) 2> 分类目录:按目录分类的网站链接列表而已,通过人工的方式收集整理网 站资料形成的数据库。(国内的搜狐) 网络爬虫 1.概念: 网络爬虫也叫网络蜘蛛,它是一个按照一定的规则自动提取网页程序,其会自动的通过网络抓取互联网上的网页,这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然,更为高级的技术是把网页中的相关数据保存下来,可以成为搜索引擎。 搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告诉它,也可以到一些网址列表网站上获取。

现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。 基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为: (1)预先给定的初始抓取种子样本; (2)预先给定的网页分类目录和与分类目录对应的种子样本,如Y ahoo!分类结构等; (3)通过用户行为确定的抓取目标样例,分为: a) 用户浏览过程中显示标注的抓取样本; b) 通过用户日志挖掘得到访问模式及相关样本。 其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。 一些算法的介绍 1> 网页分析算法

八爪鱼爬虫原理详解

https://www.wendangku.net/doc/0f11498645.html, 八爪鱼爬虫原理详解 大家都知道八爪鱼采集器可以抓取网页数据,云采集还可以有加速的效果,但是你知道八爪鱼的爬虫云加速的原理是什么吗?下面就跟随小八了解一下强大的云采集爬虫原理吧! 对于旗舰版以上的用户,可以通过云采集实现多任务并发和单任务加速的采集效果,以便用户快速的收集整理互联网公开数据。本教程主要讲八爪鱼爬虫云采集原理、规则加速设置。 一、云采集原理 A.一个规则任务进行云采集最少占用一个云节点,最多可以占满所有云节点 B.一个规则任务满足可拆分成子任务的情况下,最多拆成199个子任务 C.一个子任务占用一个节点,子任务全部执行完成意味着任务完成 D.一个规则任务拆成多个子任务分配到不同云节点就达到加速采集的效果 E.如果云节点被占满,那么新启动的任务或被拆分的子任务会进入等待队列,直到用户某个云节点执行完用户的某个任务释放出节点资源,

https://www.wendangku.net/doc/0f11498645.html, 图 1 云采集运行中 如图红线处任务分配到云节点,多任务并发采集数据,如图红框处,由于节点被占满,只能进入等待队列,等待某个云节点执行完成后释放资源。 二、云采集加速设置 由云采集原理D可知,如果要一个任务加速采集的效果,那么这个任务要满足拆分条件或者将任务改成满足拆分条件的任务,这样才能达到单任务加速的效果。 满足拆分条件的任务分别为: A.URL列表循环 B.文本列表循环

https://www.wendangku.net/doc/0f11498645.html, C.固定元素列表循环 1、URL列表循环、文本循环 示例网址:https://www.wendangku.net/doc/0f11498645.html,/search/category/15/30 对于非AJAX网站,以大众店铺为例,假设我要采集该网站所有分类下的店铺,那么我们可先采集分类的URL,然后做URL循环进行采集店铺信息,具体步骤如下: 步骤1 :以先将所有具体分类采集下来,如图2 采集点评分类URL 图 2 采集点评分类URL 小贴士采集完分类的URL后,我们就可以将这个URL作为URL循环进行数据提取,这样的话,通过八爪鱼自动拆分任务,就可以将不同的URL拆分成不同的子任务分配给不同的云节点进行数据采集,达到单任务加速的采集效果

昆虫分类学笔记

第五篇 昆虫分类学 第一章 概 述 一、分类学的意义、任务及历史发展 1.意义 分类学是适应生活和生产实践的要求而产生的科学。分类是认识客观事物的最基本的方法。分类不仅是对世界上浩如繁星的物种进行分门别类列成系统,而且探索各个分类阶元之间的内在联系,目的是能够更好地反映生物界中的自然关系。此外,昆虫分类在生产实践上也有极其重要的意义:在益虫利用和害虫防治工作中,对某些具有重要经济意义的种类,因形态近似而易混淆,若忽视分类鉴别,可能给工作带来巨大损失。 ●在卫生害虫方面。区别能传播疾病的种类,对划分疫区及制订防治措 施均有重要意义。e.g.我国按蚊共40多种,但能传播疟疾的主要是中华按蚊Anophehes hycanus sinensis Wiedemam等10余种。弄清了这一基本情况。我们可根据这些传疟种类的分布进行重点防治。 ●在植物检疫方面。正确鉴定害虫种类并查明分布区,有助于准确划分 疫区和确定对外对内植树物检疫对象名单。eg.棉红铃虫在新疆尚未发现。 ●在国防上。昆虫分类工作也很重要。eg.美国侵朝战争中曾空投大量 携带细菌的昆虫,查明空投下来的大量带菌昆虫,对揭露敌人罪行,迅速扑灭病菌害虫,保障中、朝人民的健康与生命安全都有巨大意义。 当时前往现场工作的有: 刘崇乐, 马世骏(东北地区);1952年9月5日,中国昆虫学会作出(第一届理事长,解放初主席) 《关于抗议并扑灭美帝撒布细菌毒虫的决议》。 何琦, 陈世骧,朱弘复(赴朝鲜前线) (第二届理事长) (第三届理事长) ●在农业上。对于农业害虫的防治更是不言而喻进行农作物,果树,蔬菜等方面害虫的科学研究工作,首先必须正确的鉴别种名。 2.分类学工作的基本任务 ①鉴定和描述物种 ②在种类鉴定准确的基础上,按物种的亲疏关系建立系统关系,研究并 阐明其进化过程。 ③预见该系统范围内尚未发现的新物种。 原则:共同性和特殊性的对立统一。 方法:分析特性与归纳共生的综合运用,是分类的基本方法。 3.昆虫分类学的历史发展 ①古代至林奈时期 在古代,由于受分类学知识的限制,昆虫常易同其它节肢动物、甚至和其它动物混淆。故追溯古代昆虫分类学的历史时,就自然联系到动物分类学的历史发展。

网络爬虫详解

网络爬虫详解 一、爬虫技术研究综述 引言 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如: (1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。 (2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 (3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。 (4) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。 为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(general purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 1 聚焦爬虫工作原理及关键技术概述 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件,如图1(a)流程图所示。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,如图1(b)所示。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题: (1) 对抓取目标的描述或定义; (2) 对网页或数据的分析与过滤; (3) 对URL的搜索策略。 抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。

昆虫分类学

第四章昆虫分类学 第一节基本原理和方法 一、研究内容 (一)定义和研究内容 昆虫分类学insect taxonomy是研究昆虫种的鉴定identification,分类classification 和系统发育phylogeny的科学。这一定义是根据昆虫分类学研究的任务、内容、发展历史和现状确定的。 众所周知,昆虫是世界上最昌盛的动物类群,个体和种类繁多,分布广。据英国自然历史博物馆1988年提出的报告,全世界现有昆虫1,000万种,现巳描述约90万种,并且每年仍以大约7000种的速度递增。这就是说昆虫中90%的种还是未知种,它们还未被科学家记述和命名,缺乏鉴定用的科学资料。我国的昆虫种类约占世界昆虫种类的1/10,按这个比率,我国昆虫应超过100万种,可是我国已记载的昆虫约45,000种,已知种仅占3%,说明我国昆虫种类的未知数太大了。这就充分表明,研究昆虫、确定种类、描述识别特征、予以命名、提供正确认识和鉴定昆虫种的科学资料,仍然是当代科学上一项重要的内容和任务。在这方面,我国的任务尤为繁重。 如此繁多的昆虫,我们要认识它们,需要有一个正确的科学方法,这就是分类classification的方法。昆虫分类实践的过程是:先把看到的昆虫个体individuals按照形态特征的相似性similarity,即共同性,归为同形体phenon(phena),再根据生物种的科学概念和知识,把同形体鉴定到种species,进一步把种按照亲缘关系的远近归入高级分类单元 higher taxonomic taxon(taxa),属,科、目等,这样就成为一个有序的分类系统classification system。现在一些昆虫分类单元,如昆虫纲的分目,有些目的分科,有些科的分属分种,已有分类系统,即有了由高级分类单元逐级向属、种鉴定认识的基本科学资料。但是很多昆虫科以下的分类还缺乏细致研究,没有科下的分类系统和认识属,种的科学资料,这就为分类认识和鉴定昆虫种类,研究害虫防治和益虫利用带来极大困难。鉴于此,研究和建立尚未研究或研究不充分的昆虫类群的分类系统,也是当代昆虫分类学的重要内容和任务。 分类学家的研究,绝不是以提出种名和以实际应用为目的的分类系统而满足,最终目的是建立符合进化实际的分类系统,因为这样的系统是一个信息存取系统,又是一个历史总结系统,具有最大的科学预见性。例如人们能够从昆虫一个科的分类地位上,取得这个科的昆虫种类的基本信息,如成、幼期的生活习性,有关特性,和人的关系等,另一方面能够反映系统发育的亲缘关系和进化历史,搞清这些种类的进化和宗谱关系。以现代科学技术为手段,综合研究各个分类单

网络爬虫工具如何爬取网站数据

https://www.wendangku.net/doc/0f11498645.html, 网络爬虫的基本原理是什么 目前网络爬虫已经是当下最火热的一个话题,许多新兴技术比如VR、智能机器人等等,都是依赖于底层对大数据的分析,而大数据又是从何而来呢?其中最常用的手段即是使用网络爬虫工具去获取。提起网络爬虫工具,很多小伙伴还可能没这么接触过。本文将解决以下问题:网络爬虫是什么,基本原理是什么;网络爬虫工具是什么;八爪鱼采集器是什么;三者的关系是什么。 先上重点:八爪鱼是一个网页采集器,网页采集器是一种专门的爬虫工具。 爬虫、网页采集器、八爪鱼关系图

https://www.wendangku.net/doc/0f11498645.html, 一、网络爬虫是什么,原理是什么 爬虫是什么:网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。又被称为网页蜘蛛,聚焦爬虫,网络机器人。在FOAF社区中间,更经常的称为网页追逐者,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 爬虫工作原理:网络爬虫系统一般会选择一些比较重要的、出度(网页中链出超链接数)较大的网站的URL作为种子URL集合。以这些种子集合作为初始URL,开始数据抓取。 其基本工作流程如下: 1)将这些种子URL集合放入待抓取URL队列。 2)从待抓取URL队列中,取出待抓取URL,解析DNS,并且得到主机的ip,并将URL 对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。3)分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL 队列,从而进入下一个循环。如此反复进行,直到遍历了整个网络或者满足某种条件后,才会停止下来。

https://www.wendangku.net/doc/0f11498645.html, 爬虫工具原理 二、网页采集器是什么八爪鱼采集器是什么 网页采集器:这里讲的网页采集器,专门指会根据用户的指令或者设置,从指定的网页上获取用户指定内容的工具软件。严格来讲,这里说的网页采集器也是爬虫的一种。 八爪鱼采集器:八爪鱼采集器就是一种网页采集器,用户可以设置从哪个网站爬取数据,爬取那些数据,爬取什么范围的数据,什么时候去爬取数据,爬取的数据如何保存等等。 八爪鱼采集的核心原理是:模拟人浏览网页,复制数据的行为,通过记录和模拟人的一系列上网行为,代替人眼浏览网页,代替人手工复制网页数据,从而实现自动化从网页采集数据,然后通过不断重复一系列设定的动作流程,实现全自动采集大量数据。 八爪鱼采集器可应对各种网页的复杂结构(AJAX页面、瀑布流等)和防采集措施(登录、

昆虫分类学

昆虫分类学 一、名词解释 1.种:能够相互配育的自然种群的类群,这些类群与其他近似的类群有质的差别,并在生 殖上相互隔离着,它是生物进化过程中连续性与间断性统一的基本间断形式。 2.模式标本:在发表新种时,第一次用于描述和记载新种所用的标本叫模式标本。 3.正模:在一批同种新种标本中,选出的一个最为典型的标本称为正模。 4.配模:在一批同种新种标本中,另选出一个与正模性别不同的标本。 5.副模:在一批同种新种标本中,选出正模和配模后,同时所参考的其余同种标本,统称 为副模。 6.双名法:昆虫和其他动物一样采用双名法,就是以两个拉丁文作为一个种的学名,这个 学名是全世界通用的,拉丁文的第一个词是属名,第二个词是种名。 7.命名法:就是以两个拉丁文作为一个种的学名,这个学名是全世界通用的,拉丁文的第 一个词是属名,第二个词是种名,通常还有第三个词:命名人的姓氏。 命名规则: 1)属名第一个字母大写,种名第一个字母不大写,学名印刷体时常用斜体。 2)学名中如果引用亚属名,可将亚属名加“()”放于属名和种名的中间 8.并胸腹节:膜翅目昆虫常常第一腹节并入后胸,成为后胸的一部分,叫做并胸腹节。 9.拟3节:跗节是4节,第3节小,包藏于第4节形成的槽内,看似3节。 10.通常用的检索表有三种:包孕式、连续式、两项式。 11.昆虫分类的形态学依据: 1)翅的有无和类型 2)口器的类型 3)触角的类型 4)跗节的类型 5)变态的方式 12.鳞翅目成虫的形态特征: 1)体型有小有大,颜色变化很大,有的非常美丽,雌雄形态和颜色常有区别。 2)身上和膜质的翅上密被扁平细微的鳞片,组成不同颜色的斑纹 3)触角丝状、栉齿状、羽毛状 4)复眼发达,单眼2个或无,口器虹吸式。 13.鞘翅目的形态特征: 1)体小型到体大型,体壁坚硬,前胸背板发达,常露出三角形的中胸小盾片 2)前翅加厚,合起来盖住胸腹部的背面和折叠的后翅,后翅膜质 3)口器咀嚼式,触角变化大:线状、锯齿状、锤状、棒状、膝状、鳃叶状 4)腹部末节常退化,缩在体内。 二、各目区分 ?口器:咀嚼式口器:直翅目、鞘翅目、膜翅目、蜻蜓目、蜚蠊目;舐吸式口器:双翅目虹吸式口器:鳞翅目;刺吸式口器:半翅目、双翅目;嚼吸式口器:膜翅目 ?翅:直翅目:前翅复翅;半翅目:前翅半鞘翅、复翅或膜翅 鳞翅目:前翅鳞翅;鞘翅目:前翅鞘翅 双翅目:前翅膜翅;膜翅目:前翅膜质 蜻蜓目:前翅膜质;蜚蠊目:若有翅、前翅为革质 ?触角:直翅目:丝状;鳞翅目:丝状、栉齿状、羽毛状 双翅目:丝状、念珠状、具芒状膜翅目:膝状、丝状

网络爬虫论文

网络爬虫 摘要随着互联网的日益壮大,搜索引擎技术飞速发展。搜索引擎已成为人们在浩瀚的网络世界中获取信息必不可少的工具,利用何种策略有效访问网络资源成为专业搜索引擎中网络爬虫研究的主要问题。文章介绍了搜索引擎的分类及其工作原理.阐述了网络爬虫技术的搜索策略,对新一代搜索引擎的发展趋势进行了展望。 关键词网络爬虫;策略;搜索引擎 概念: 网络爬虫也叫网络蜘蛛,它是一个按照一定的规则自动提取网页程序,其会自动的通过网络抓取互联网上的网页,这种技术一般可能用来检查你的站点上所有的链接是否是都是有效的。当然,更为高级的技术是把网页中的相关数据保存下来,可以成为搜索引擎。 搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。网络爬虫总是要从某个起点开始爬,这个起点叫做种子,你可以告诉它,也可以到一些网址列表网站上获取。 网络爬虫的构成及分类 网络爬虫又被称为做网络蜘蛛、网络机器人,主要用于网络资源的收集工作。在进行网络舆情分析时,首要获取舆情信息内容,这就需要用到网络爬虫(蜘蛛程序)这个工具,它是一个能自动提取网页内容的程序,通过搜索引擎从互联网上爬取网页地址并抓取相应的网页内容,是搜索引擎(Search Engine)的重要组成部分。 一个典型的网络爬虫主要组成部分如下: 1. URL 链接库,主要用于存放爬取网页链接。 2. 文档内容模块,主要用于存取从Web 中下载的网页内容。 3. 文档解析模块,用于解析下载文档中的网页内容,如解析PDF,Word,HTML 等。 4. 存储文档的元数据以及内容的库。 5. 规范化URL 模块,用于把URL 转成标准的格式。 6. URL 过滤器,主要用于过滤掉不需要的URL。 上述模块的设计与实现,主要是确定爬取的内容以及爬去的范围。最简单的例子是从一个已知的站点抓取一些网页,这个爬虫用少量代码就可以完成。然而在实际互联网应用中,可能会碰到爬去大量内容需求,就需要设计一个较为复杂的爬虫,这个爬虫就是N个应用的组成,并且难点是基于分布式的。 网络爬虫的工作原理 传统网路爬虫的工作原理是,首先选择初始URL,并获得初始网页的域名或IP 地址,然后在抓取网页时,不断从当前页面上获取新的URL 放入候选队列,直到满足停止条件。聚焦爬虫(主题驱动爬虫)不同于传统爬虫,其工作流程比较复杂,首先需要过滤掉跟主题不相关的链接,只保留有用的链接并将其放入候选URL 队列。然后,根据搜索策略从候选队列中选择下一个要抓取的网页链接,并重复上述过程,直到满足终止条件为止。与此同时,将所有爬取的网页内容保存起来,并进行过滤、分析、建立索引等以便进行性检索和查询。总体来讲,网络爬虫主要有如下两个阶段: 第一阶段,URL 库初始化然后开始爬取。

网络爬虫的设计与实现(完整版)

网络爬虫的设计与实现

摘要 网络爬虫将下载的网页和收集到的网页信息存储在本地数据库中以供搜索引擎使用,它是一个专门从万维网上下载网页并分析网页的程序。随着网络的快速发展,人们对搜索引擎的要求也越来越高,而网络爬虫的效率直接影响着搜索引擎的质量。 本课题研究的是通用网络爬虫,它是从一个或若干个初始网页的链接开始进而得到一个链接队列。伴随着网页的抓取又不断从抓取到的网页中抽取新链接放入到链接队列中,直到爬虫系统满足了停止条件。该课题主要涉及到了缓冲池技术,多线程技术,套接字技术,HTTP和SSL协议,正则表达式,Linux网络编程技术,PHP+Apache的使用等相关技术。 本说明书叙述的网络爬虫是以Linux C实现的,加以PHP语言编写的界面使用户更加方面的操作,利用Shell脚本和Apache服务器使得爬虫系统和界面很好的结合在一起。 关键词:网络爬虫缓冲池正则表达式 SSL协议多线程

目次 1 引言 (1) 1.1 课题选题背景 (1) 1.2 课题研究的意义 (2) 2 需求分析 (3) 2.1 功能需求分析 (3) 2.2 系统性能分析 (4) 3 系统设计 (5) 3.1 系统工作流程图 (5) 3.2 数据结构设计 (6) 3.3 系统各功能流程图 (7) 4 系统实现 (10) 4.1 相关技术分析 (10) 4.2 系统功能模块的实现 (11) 5 测试与结果 (17) 结论 (23) 致谢............................................................................................ 错误!未定义书签。参考文献. (24)

昆虫生产学

第一节昆虫生产学原理基本概念 昆虫生产学原理(The principles of Insect production)主要论述经济资源昆虫生产技术的基本理论体系,它的任务是研究具有某种预定经济性状特点的昆虫始祖种源群体(实验种群)及生产群体(或称目标昆虫培养物、昆虫培养物)建立和再生产的理论、技术和实践问题。 昆虫始祖种源群体的建立是昆虫生产的物质基础,是自然野生昆虫种质资源(原始物质基础)向昆虫生产过渡的必经阶段;目标昆虫培养物是指为了某种经济目的而在人工管理条件下大量生产培养的昆虫及其各种副产物,既可包括人工生产培养的益虫,也包括人工生产培养的某些害虫,同时涉及不断发现和发掘其经济价值的新种类以及具有潜在市场前景的土著资源昆虫。比如,人工大量生产培养的家蚕、紫胶虫、蜜蜂、白蜡虫、五倍子蚜虫、赤眼峰等益虫可视为传统经济昆虫;蝗虫本是著名农业害虫,但为用于食用或生物防治目的而进行生产养殖时,则成为一个具有很大市场发展空间的特色经济项目;蚱蝉、豆天蛾、蜻蜓、木蠹蛾、鱼蛉、松毛虫、甘蔗龟等在一些地区具有历史的应用;黄粉虫、蝇蛆、蛴螬等虫粉已经成为新型的常规饲料蛋白源,如此等等。一旦某种昆虫被列入生产培养计划,即可称之为产业昆虫(Industrial Insect)。 昆虫生产学是促进虫业发展的关键理论与技术领域。自20世纪90年代以来,利用昆虫生产饲料、食品、保健品,利用授粉昆虫作为农业增产的措施,发展很快。目前除家蚕、柞蚕、蜜蜂等可作食用外,新开发的昆虫有家蝇、黄粉虫、豆天蛾、蝗虫、蚱蝉等,其中家蝇、黄粉虫、土元、东亚飞蝗等工厂化生产养殖技术已获成功。在生产昆虫源蛋白饲料的基础上,进一步生产高蛋白食品和保健食品以及运用高科技手段开发高利润附加值产品,是昆虫资源产业化开发的主导方向。目前以饲用、食用、鉴赏昆虫等为代表的十二个虫业领域逐步形成了明晰的轮廓。 “虫业”发展可以分为三个历史阶段,传统虫业、近代虫业与现代虫业发展阶段。传统虫业最为著名的有“养蚕业”(图1-1,图1-2)和“养蜂业”(图1-3),近代虫业的代表种是白蜡虫、紫胶虫、五倍子蚜等工业原料昆虫,现代虫业的发展以天敌的繁殖利用为主体(图1-4),逐步扩大至各个领域;以黄粉虫为代表的饲用昆虫发展最为迅速(图1-5,图1-6)。 第二节昆虫生产学的发展历史时期 昆虫生产学的发展是建立在人们对经济昆虫资源以及昆虫的全面认识发展基础上的。在长期的传统农业生产状态下,大多数的昆虫由于取食植物的各个组织而造成全球每年20%~30%农产品的损失,此外,在热带,每年有成千上万人死于由昆虫传播的疟疾、睡眠病及其它疾病。因此,人们过多地重视了昆虫有害的一面,导致昆虫学长期进行害虫防治学的研究与生产实践应用,对于昆虫的资源功能和生态转化功能的认识失之偏颇,利用极少。 虽然中国古代就有益虫利用,如养蚕、养蜂、生物防治(天敌昆虫黄猄蚁、瓢虫的利用)等,但在昆虫学的研究和应用中,仍是害虫防治占主导地位,即以“害虫防治学或植保昆虫学”的局部内容代替了昆虫学的整体。随着科学技术的发展,人类对自然的认识不断深化,经济昆虫资源学的研究异军突起,引起国内外昆虫学界、农业界和科技界的广泛关注。经济昆虫资源学的研究又促进了昆虫学科更全面的发展,一改长期以来占主导地位的“害虫防治学或植保昆虫学”发展方向,自2000年以来,对昆虫资源的发掘和产业化推进已经成为各国昆虫学者关注的热点之一。目前,昆虫学已经明显地表现出“理论昆虫学与昆虫技术学”、“害虫防治学”和“经济昆虫资源学与昆虫生产学”三个发展方向。昆虫生产学是实现昆虫资源产业化利用的技术基础。 昆虫生产学既是一门生机勃勃的新兴学科领域,也具有悠久的历史基础。我国是世界蚕业的发源地,桑蚕生产利用已有近8000年的悠久历史,公元前一世纪就以“丝国”而闻名世界。公元四世纪永嘉地区(即今浙江温州一带)农民发明了人工低温催青制取生种,一年能养八批蚕。我们的祖先在长期的生产实践中,积累了丰富的蚕业生产知识,许多古农书都曾对这些丰富多彩的实践经验作过总结。列有专章论述蚕业生产的重要农书有:后魏的《齐民要术》,北宋的《秦观农书》,南宋的《陈敷农书》,元代的《农桑辑要》、《士农必用》、《务本新书》、《王祯农书》,明代的《农政全书》,清代的《湖蚕述》、《蚕桑辑要》、《蚕桑萃编》、《广蚕桑说》等。我国的养蜂史至少在3000年以上,早在两千年前就有养蜂酿蜜和蜂蜜用于医药治病的记载。记载养蜂的古农书有:春秋时代的《致富全书》,战国时代及西汉初年的《山海经》,晋代的《博物志》,宋代的《蜂说》、《尔雅翼》,元代的《琅环记》、《农桑辑要》、《农书》、《农桑衣食撮要》,明代的《郁离子》、《明兴记》、《本草纲目》、《农政全书》,明末清初的《物理小识》,清代的《蜂衙小记》等。 我国是生物防治历史最久的国家,也是世界上第一个推进生物防治产业化的国家。早在公元304年,晋代嵇含所著的《南方草木状》一书中就有利用黄猄蚁(Oecophylla smaragdina)的记载:“交趾人以席囊贮蚁鬻(yu) 街市者,其巢如薄絮,囊皆连枝叶,蚁在其中,并巢同卖。蚁赤黄色,大于常蚁。南方柑桔若无此蚁,则其实皆为群蠹所伤,无复一完者矣”。 养蚕、养蜂和生物防治中的天敌昆虫利用对昆虫生产学做出巨大贡献并提供经验和技术支撑。 18世纪从动物学范围内分出一门独立学科——昆虫学,19-20世纪末从昆虫学中分出应用昆虫学,首先是农业昆虫学、森林昆虫学,后来又形成卫生昆虫学和兽医昆虫学等。 昆虫生产学经历了起源、成长和成熟的发展阶段。 昆虫生产学理论与技术体系的形成和发展主要是在近60-80年期间,为了生物防治(包括遗传防治)目的培养昆虫和昆虫人工饲料(培养基)的研究取得了成就,促进了这一学科的发展。培养节肢动物,其中包括昆虫,从20世纪30年代开始,在国内外生物防治范围内的会议上不止一次地讨论过。后来在20世纪60年代它被分为一个独立范围,但主要服从生物防治。1963年世界卫生组织在美国盖总斯维尔召开了培养节肢动物的第一次会议。20世纪80年代昆虫生产学的问题和任务迅速扩大。1982年国际有害动植物防治组(IOBC)在美国召开了第一届大量培养昆虫优质管理会议。1985年在瑞士召开了第二届会议,此届会议主要讨论大量饲养天敌昆虫与无脊椎动物

网络爬虫基本原理

网络爬虫基本原理 网络爬虫根据需求的不同分为不同种类: 1. 一种是爬取网页链接,通过url链接得到这个html页面中指定的链接,把这 些链接存储起来,再依次以这些链接为源,再次爬取链接指向html页面中的链接……如此层层递归下去,常用的方法是广度优先或者深度优先,根据爬取层次需求不同而选择不同的方法达到最优效果,爬虫的效率优化是一个关键。搜索引擎的第一个步骤就是通过爬虫得到需要索引的链接或数据,存放于数据库,然后对这些数据建立索引,然后定义查询语句,解析查询语句并利用检索器对数据库里的数据进行检索。 2. 一种是爬取数据信息,如文本信息、图片信息等,有时需要做数据分析,通 过某种手段来获取数据样本以供后续分析,常用的方法是爬虫获取指定数据样本或利用现有的公共数据库。本文的微博爬虫和新闻数据爬取都属于第二种类,根据自定义搜索关键字爬取微博信息数据。 3. 对于网络爬虫原理,其实并不复杂。基本思路是:由关键字指定的url把所 有相关的html页面全抓下来(html即为字符串),然后解析html文本(通常是正则表达式或者现成工具包如jsoup),提取微博文本信息,然后把文本信息存储起来。 重点在于对html页面源码结构的分析,不同的html需要不同的解析方法;还有就是长时间爬取可能对IP有影响,有时需要获取代理IP,甚至需要伪装浏览器爬取。(主要是针对像新浪等这些具有反扒功能的网站,新闻网站一般不会有这样的情况)。 对于微博,通常情况下是必须登录才能看到微博信息数据(比如腾讯微博),但是有的微博有搜索机制,在非登录的情况下可以直接通过搜索话题来查找相关信息(如新浪微博、网易微博)。考虑到某些反爬虫机制,如果一个账号总是爬取信息可能会有些影响(比如被封号),所以本文采用的爬虫都是非登录、直接进入微博搜索页面爬取。这里关键是初始url地址。 网络爬虫是搜索引擎抓取系统的重要组成部分。爬虫的主要目的是是将互联网上的网页下载到本地形成一个活互联网内容的镜像备份。这篇博客主要对爬虫及抓取系统进行一个简单的概述。 一、网络爬虫的基本结构及工作流程 通用的网络爬虫的框架如图所示:

网络爬虫(Spider)Java实现原理

“网络蜘蛛”或者说“网络爬虫”,是一种能访问网站并跟踪链接的程序,通过它,可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”,我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”,并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。 Java语言在此非常适合构建一个“蜘蛛”程序,其内建了对HTTP协议的支持,通过它可以传输大部分的网页信息;其还内建了一个HTML解析器,正是这两个原因使Java 语言成为本文构建“蜘蛛”程序的首选。 文章后面例1的示例程序,将会扫描一个网站,并寻找死链接。使用这个程序时需先输入一个URL并单击“Begin”按钮,程序开始之后,“Begin”按钮会变成“Cancel”按钮。在程序扫描网站期间,会在“Cancel”按钮之下显示进度,且在检查当前网页时,也会显示相关正常链接与死链接的数目,死链接将显示在程序底部的滚动文本框中。单击“Cancel”按钮会停止扫描过程,之后可以输入一个新的URL;如果期间没有单击“Cancel”,程序将会一直运行直到查找完所有网页,此后,“Cancel”按钮会再次变回“Begin”,表示程序已停止。 下面将演示示例程序是如何与可复用“Spider”类交互的,示例程序包含在例1的CheckLinks类中,这个类实现了ISpiderReportable接口,如例2所示,正是通过这个接口,蜘蛛类才能与示例程序相交互。在这个接口中,定义了三个方法:第一个方法是“spiderFoundURL”,它在每次程序定位一个URL时被调用,如果方法返回true,表示程序应继续执行下去并找出其中的链接;第二个方法是“spiderURLError”,它在每次程序检测URL导致错误时被调用(如“404 页面未找到”);第三个方法是“spiderFoundEMail”,它在每次发现电子邮件地址时被调用。有了这三个方法,Spider类就能把相关信息反馈给创建它的程序了。 在begin方法被调用后,“蜘蛛”就开始工作了;为允许程序重绘其用户界面,“蜘蛛”是作为一个单独的线程启动的。点击“Begin”按钮会开始这个后台线程,当后台线程运行之后,又会调用“CheckLinks”类的run方法,而run方法是由Spider对象实例化时启动的,如下所示: spider = new Spider(this); spider.clear(); base = new URL(url.getText()); spider.addURL(base); spider.begin(); 首先,一个新的Spider对象被实例化,在此,需要传递一个“ISpiderReportable”对象给Spider对象的构造函数,因为“CheckLinks”类实现了“ISpiderReportable”接口,只需简单地把它作为当前对象(可由关键字this表示)传递给构造函数即可;其次,在程序中维护了一个其访问过的URL列表,而“clear”方法的调用则是为了确保程序开始时URL列表为空,程序开始运行之前必须添加一个URL到它的待处理列表中,此时用户输入的URL则是添加到列表中的第一个,程序就由扫描这个网页开始,并找到与这个起始URL相链接的其他页面;最后,调用“begin”方法开始运行“蜘蛛”,这个方法直到“蜘蛛”工作完毕或用户取消才会返回。 当“蜘蛛”运行时,可以调用由“ISpiderReportable”接口实现的三个方法来报告程序当前状态,程序的大部分工作都是由“spiderFoundURL”方法来完成的,当“蜘蛛”发现一个新的URL时,它首先检查其是否有效,如果这个URL导致一个错误,就会把它当作一个死链接;如果链接有效,就会继续检查它是否在一个不同的服务器上,如果链接在同一服务器上,“spiderFoundURL”返回true,表示“蜘蛛”应继续跟踪这个URL并找出其他链接,如果链接在另外的服务器上,就不会扫描是否还有其他链接,因为这会导致“蜘蛛”不断地浏览Internet,寻找更多、更多的网站,所以,示例程序只会查找用户指定网站上的链接。 构造Spider类 前面已经讲了如何使用Spider类,请看例3中的代码。使用Spider类及“ISpiderReportable”接口能方便地为某一程序添加“蜘蛛”功能,下面继续讲解Spider类是怎样工作的。 Spider类必须保持对其访问过的URL的跟踪,这样做的目的是为了确保“蜘蛛”不会访问同一URL一次以上;进一步来说,“蜘蛛”必须把URL分成三组,第一组存储在“workloadWaiting”属性中,包含了一个未处理的URL列表,“蜘蛛”要访问的第一个URL也存在其中;第二组存储在“workloadProcessed”中,它是“蜘蛛”已经处理过且无需再次访问的URL;第三组存储在“workloadError”中,包含了发生错误的URL。 Begin方法包含了Spider类的主循环,其一直重复遍历“workloadWaiting”,并处理其中的每一个页面,当然我们也想到了,在这些页面被处理时,很可能有其他的URL 添加到“workloadWaiting”中,所以,begin方法一直继续此过程,直到调用Spider类的cancel方法,或“workloadWaiting”中已不再剩有URL。这个过程如下:cancel = false; while ( !getWorkloadWaiting().isEmpty() && !cancel ) { Object list[] = getWorkloadWaiting().toArray(); for ( int i=0; (i processURL((URL)list[i]); } 当上述代码遍历“workloadWaiting”时,它把每个需处理的URL都传递给“processURL”方法,而这个方法才是真正读取并解析URL中HTML信息的。 读取并解析HTML Java同时支持访问URL内容及解析HTML,而这正是“processURL”方法要做的。在Java中读取URL内容相对还比较简单,下面就是“processURL”方法实现此功能的代码: URLConnection connection = url.openConnection(); if ( (connection.getContentType()!=null) &&!connection.getContentType().toLowerCase().startsWith("text/") ) { getWorkloadWaiting().remove(url); getWorkloadProcessed().add(url); log("Not processing because content type is: " + connection.getContentType() );

普通昆虫学

《普通昆虫学Ⅱ》课程教学大纲 第一章昆虫分类学基本原理 The Principles of Insect Taxonomy 基本内容: (1)物种概念Species concept(2)分类阶元Category(3)分类特征Characters (4)学名Scientific names(5)模式标本Type specimens(6)异名与同名Synonymy and homonymy 基本要求: (1)掌握昆虫分类学的基本原理和方法2)了解动物命名法的主要原则(3)学习检索表的原理与制作 教学重点: (1)物种概念(2)学名与俗名 教学难点: (1)模式标本(2)同物异名 第二章六足总纲的系统发育 The Phylogeny of Haxapoda 基本内容: (1)系统发育学Phylogenetics(2)现生六足总纲Extant Hexapoda 基本要求: (1)了解六足总纲的分类和系统发育(2)掌握各目的识别特征 教学重点:各目的识别特征教学难点:各目之间的亲缘关系 第三章直翅目Orthoptera 基本内容: (1)识别特征Diagnosis(2)生物学特性Biology(3)经济重要性Economic significance (4)娱乐性Recreation(5)分类Systematcis 基本要求: (1)掌握剑尾亚目Ensifera和锥尾亚目Caelifera的特征 (2)识别螽斯科Tettigoniidae、蟋蟀科Gryllidae、蝼蛄科Gryllotalpidae、蝗科Acrididae、锥头蝗科Pyrgomorphidae、癞蝗科Pamphagidae、菱蝗科Tetrigidae 教学重点: (1)亚目的识别(2)重要科的识别 教学难点:系统发育 第四章缨翅目Thysanoptera 基本内容: (1)识别特征Diagnosis(2)生物学特性Biology(3)经济重要性Economic significance (4)分类特征Taxonomic characters(5)分类Systematcis 基本要求: (1)掌握锯尾亚目Terebrantia和管尾亚目Tubulifera的特征(2)识别管蓟马科Phlaeothripidae、纹蓟马科Aeolothripidae、蓟马科Thripidae 教学重点: (1)亚目的识别(2)重要科的识别 教学难点:系统发育 第五章同翅目Homoptera 基本内容: (1)识别特征Diagnosis(2)生物学特性Biology (3)经济重要性Economic significance(4)分类Systematcis

相关文档
相关文档 最新文档