文档库 最新最全的文档下载
当前位置:文档库 › 文献计量学实务

文献计量学实务

文献计量学实务
文献计量学实务

第三章文献计量学实务 (1)

第一节Web of Science (1)

第二节运用Excel (2)

No.1 文章类型 (5)

No.2 语言 (6)

No.3 期刊 (6)

No.4文章页数 (6)

参考文献数 (6)

No.5国家分析 (6)

No.7国家分析 (9)

No.6作者分析 (11)

No.7成长趋势 (12)

影响因子 (13)

作者关键词 (13)

研究领域 (14)

文献计量模式分析 (14)

被引用率 (14)

第三节 (14)

第四节 (15)

第五节 (15)

第三章文献计量学实务

第一节Web of Science

进行搜索:

在search框内敲入所需要查找的关键词,不同关键词间用and或or连接。如通常格式可为:(XX or XX or XX)and XX*。*可要可不要,表示后续内容可任意。点击search。

(如:搜索吸附领域粘土的文献,可敲入:(adsorption or sorption) and clay*。点击Refine your results下的Subject Categories从众多领域中选出所需要关注的领域内的文章,点击VIEW RECORDS。对所有文献进行了初步筛选。

Add to marked list

在网页右下方Output Records:下的Records选择所需要输出的文献序号,ISI一词输出可以最多500篇,

所以我们通常选1-500,依次501——1000,等等。点击右下Add to marked list。此时网页整上方会出现有红勾的Add to marked list,点击。

Step 1. Select the fields to include in the output下选择所需要输出的数据项。通常我们做分析时候应选上除cited references和abstract外的所有项。这两项是由于内容较多,EXCEL 处理起来不便,所以通常不选。

Step 2. Select an option.我们需要选择的是Tab Delimited(Windows).

接下来很重要的一步是我们应在“Automatically delete selected records from the Marked List after output is complete.”前打勾,否则在后续输出时候会因对前面输出项目的记忆造成干扰。

点击SAVE TO FILE。在下个网页中会输出一个记事本(.txt)格式的文档,对其内容全选复制贴贴入新建EXCEL中,便自动输出各项数据。

此时可进行下一查找:直接点击BACK,然后RETURN 即可。需要注意的是在后续贴入EXCEL时,每次再贴入EXCEL的第一行都是标题,应该删除。

重复执行,最终便可得到我们所需领域的文献数据。

如果我们在电脑里安装有软件Reference Manager或者 EndNote,也可直接将文献输出其中进行管理。前面的操作基本雷同,只是再Add to marked list后Step 1. Select the fields to include in the output后所选项重点可变为选择Author(s),Title,Title,abstract*,keywords及times cited等所需项。Step 2. Select an option.我们需要选择的是 Field Tagged.然后在下面小方框打勾,再点击SAVE TO FILE。

第二节运用Excel

通过第一节我们对所需查找领域文献全部已经输出为EXCEL形式数据,接下来可对其进行整理分析。

(一)前期处理步骤:

1.首要的工作是保存好原始数据,在EXCEL里将其所在sheet命名为OD (original data的缩写),方便我们在后续处理工作中进行核对。

2.数据的初步处理,包括:

(1)先从原始数据库中找到我们想要进行分析的部分保留,其它意义不大的可直接删除。新建一个sheet,将OD的全部数据复制过来,将其命名为D。可删除的列有:CA,SE,AB,EM,CR,PU,PI,PA,J9,JI,PD,VL,IS,PN,SU,SI,BP,EP,AR,DI,GA 。(注:各列title所代表的含义见附二。)

(2)可将年份PY进行排列,如从按Z→A降序排序得2006→1995,按A→Z则相反。因为我们从WOS中所下当年的文献只是一部分,数据不完全,所以在分析

的时候,通常删去当年的文献。快捷方法举例:选定年份PY列,查找2005,找到第一个的上面所有行即为2006年的文献,对其全选删除(鼠标右键+D)即可。(3)因为我们通常只分析的文章类型为article,所以对DT列可进行同(2)操作,排序后删除除article外的所有文献所在的行。

(4)将最左边第一列改为排列序号:标题PT变为No.;在单元格A2敲入1,A3敲入2,选住A2,A3,双击即得1,2,3,4……依次排列序号。(小提示:在此步骤前可将所有数据按年份排列,再加序号)

3.进一步处理:为方便后续操作,如在国家分析时,EXCEL会把“USA”与“ USA”识别为两个不同的国家,所以之前我们可先进行处理。

用ctrl+ F查找替代功能,将D中的所有“,”换成“,”;“;”换成“;”。还有在整个EXCEL处理中注意标点都要用英文的标点。这一步极其重要。!!!附一常用快捷键:

ctrl+↑or↓or ← or →

快速到达所在列/行的最上or下/ 左or右一个单元格;

(小提示:查找时若从某行或列的有内容单元格选起,则到达位置为最后一个有内容单元格;若即从空白格选起,则到达位置为最后一个空白格相邻的下个有内容单元格。下面2),3)同,一定要注意操作的连续性)

2)shift+↑or↓or ← or →

向上or下or左or右选住连续的几列/行;

3)ctrl+ shift+↑or↓or ← or →

分别向上or下or左or右全选;

4)ctrl+ F查找(查找功能默认为大小写不做区分);ctrl+ C 复制;ctrl+ V 粘贴;ctrl+ S保存;ctrl+ Z撤销;

5)F4固定;

6)Delete 将单元格中内容去除为空白;

鼠标右键+D 完全将单元格删除。

附二小技巧

1若对某列进行数据透视,其第一行应为标题行,否则EXCEL便把内容的第一行自动作为标题,最简单的是敲入0;

2 当某区域有非常多内容(如国家或作者)需处理时,可全选贴入WORD进行处理,可加快运行速度。

3.EXCEL的单元格标准宽度设为8.38。

附二标题的含义:

AB Abstract

AD Address地址

AU Author作者

BP Beginning page

BS Book series subtitle

C1 Research addresses

CI City 城市

CP Cited patent

CR Cited references

CU Country国家

DE Author keywords

DT Document type

EP Ending page

ER End of record

FN File type

GA ISI document delivery number

GP Group Author团体作者

ID KeyWords Plus

IS Issue

J9 29-character source title abbreviation

JI ISO source title abbreviation

LA Language

NR Cited reference count

OG Organization组织

PA Publisher address

PD Publication date

PG Page count

PI Publisher city

PN Part number

PS Province/State省/州

PT Publication type (e.g., book, journal, book in series) PU Publisher

PY Publication year

RP Reprint address

SA Street Address街道地址

SE Book series title

SG Suborganization次级组织

SI Special issue

SN ISSN

SO Source (journal title)来源(刊名)

SU Supplement

TC Times cited

TI Title (article title)标题(文章标题)

TS Topic专题

UT ISI unique article identifier

VL Volume

VR File format version number

WP Publisher web address

ZP Zip/Postal Code邮政编码

(二)具体分析

No.1 文章类型

常见的文献类型有Article,Correction,Editorial Material,Letter,Note,Review几种。可在OD中,对DT进行数据透视。(注意这里是在原始表格OD中分析,以下其他都是在新的表格D中分析)

1.在菜单“数据”下选择“数据表和数据透视图”:指定待分析的数据源类型为:Microsoft Office Excel数据列表或数据库;所需创建的报表类型选:数据透视表。点击“完成”。

2.出现一个sheet:在提示框“数据透视表字段列表”中选择DT,点击“添加到”;再据提示“请将数据项拖至此处”将DT拖入。

3.结果示例如下:

新建一个sheet,命名为Da。将数据透视表内容复制过去,计算各项比例。可按文章数P从大到小进行排序。结果示例如下:

DT P %

Article 1148 97.12352

Review 14 1.184433

Editorial

9 0.761421

Material

Letter 6 0.507614

Note 4 0.338409

Correction 1 0.084602

1182

5.百分比有效位数处理(注:后续数据分析中若涉及数据百分比,根据需要同此操作,不再重述):通常保留两位有效数字,使用工具“减少小数位数”,可分批处理,如97.12352→97,再1.184433→1.2,再0.338409→0.34等。No.2 语言

同前“No.1 文章类型”操作,对LA进行数据透视,所得新的sheet命名为LA。No.3 期刊

同前“No.1 文章类型”操作,对SO进行数据透视,所得新的sheet命名为SO。No.4文章页数

同前“No.1 文章类型”操作,对PG进行数据透视,所得新的sheet命名为PG。参考文献数

同前“No.1 文章类型”操作,对NR进行数据透视, 所得新的sheet命名为NR。No.5国家分析

首先区分两种作者联系方式。RP: 通讯地址,只有一个作者;C1:研究地址,多个作者。示例RP:Acemioglu,B(作者),Kahramanmaras Sutcu Imam Univ(机构),Fac Sci & Arts,Dept Chem,TR-46100 Maras,Turkey(国家)

Ⅰ通讯作者(RP1),所在机构(RP2)

将RP列排序, copy入新的sheet。(排序原因是考虑到后续处理如合并函数的操作连贯性要求);

对RP

在RP列前插入新的一列,命名为RP1。在A2中键入“fx”中的“全部函数”中选择):

Text1:B2

Text2:,

Text3:C2

Text4:,,

完成后点回车键,即在A2中可显示公式有:=CONCATENATE(B2,",",C2",,")。再双击两次A2,于是A列全列便可得。

(小提示1:Tab键会经常用到,如由Text1按Tab键一次到Text2,两次即到Text3。后续处理中在对较多单元格使用合并函数时,如可首先从Text1起依次左手按两次Tab键,右手选择单元格B2,C2,D2,E2……;然后再从Text2起依次左手按两次Tab键,右手连续按,或;,即得用,或;合并单元格的效果。结果示例如:=CONCATENATE(B2,",",C2,",",D2,",",E2,",",F2,",",G2)。需要注意的是,根据需要在最前一个或最后一个考虑是否加入,或;,以及加几个的问题。)(小提示2:在C2后加,,的原因——因为RP列可能为空白格,若不加合并后则会出现有的格为,的情况,补充两个,后则变成有“,,,”,而以前的非空白格则会在后面有“,,”,于是我们再进行取代操作,见步骤5,就可以了。)

将A列整列点右键进行复

.制,再选择性粘贴(选择“数值”粘贴)。此步也很重要,以后会经常用到!!!取代,,,为无,取代,,为无。至此A列即完成了RP1。可删除B,C列。

现在的B列即为机构。将其命名为RP2。可删除后面多余的其他列。

对RP1,RP2分别进行数据透视,得到我们想要的分析。

Ⅱ通讯作者所在国家(RP3)

考虑到国家问题处理稍微复杂,故区分开来作处理。这里的方法可作为模板应用,接下来后续国家处理时不再详述。

1.查找*Hong Kong,Peoples R China取代成Hong Kong(香港问题先处理);2.查找*,取代为无。因为RP的最后一个是国家,此操作便可将其前的内容全部去掉。

3.处理美国,将其统一为USA(USA原本有四种形式存在:USA; NC 27695 USA;CA 90807;CA):

⑴*USA取代成USA;

⑵*0取代成USA;*1取代成USA;*2取代成USA;……;*9取代成USA;

⑶取代两个字母结尾的:这里要用到查找字母个数的函数LEN,并进行数据筛选。

①插入新的一列,在A2中键入fx”中的“全部函数”中选择):Text:B2

完成后点回车键,再双击两次A2,于是A列全列便可得。

②选住A1,A1格下拉,便可看到A列有的各数字。如果有2,则选定,会出现所有含两个字母的行,可依次将其对应单元格修改为USA。

⑷将*USAUSA取代为USA。可多点“全部替换”两次,确保把可能出现的有三个USA的情况都替换完全。

此时可把A列删除,并取消自动筛选。

4.处理英国,将其统一为UK。(UK原本有四种形式存在: North Ireland; Scotland; Wales;England)。

5.至此以上四步完成国家取代的基本工作,为防止遗漏,可对整列进行自动筛选检查,及时纠正遗漏。然后可运用数据透视表对RP3进行处理分析。

6.国家的其他处理,可根据需要选择:

更改更合适的大小写,将全列复制贴入WORD

然后贴回EXCEL。另外,WORD文档里有快捷键shift+F3可对全部字母改大(小)写;EXCEL有公式LOWER可对全部改小写。

又如可换Peoples R China为China等等。

附三处理以美国以数字结尾情况的另外方法

根据结构CA 90807思考新的替代法。

在处理完香港后,取代“,”为“, ”(如果国家多时则要在分列前就进行取代);查找*,取代为无;*USA取代成USA;

查找 ?? ?????取代为USA;

对应查找两个字母的要改为查找三个字母,取代为USA;(因此时各国家前加入了空格)

*USAUSA取代成USA;

将USA取代成 USA,此时得到结果为所有国家前都有一个空格。(因在上步操作中USA前没有了空格,为一致所以要再加上)。

No.7国家分析

Ⅲ通讯与研究合并地址(C1+RP)

No. + RP贴到新的Sheet,先去除RP中的作者(为方便后续分析)。方法为:分列:在分列时选择最左边两列不导入,或者分列后直接删除左边两列;

自动筛选,最远的字段第一行打0,在单元格右下方以实心的十字时拖动向左,第一行所有横列都变成0(防止在合并时遗漏后面的列);

用,合并。注意最后一列后加“,,”,取代“,,,”为“,,”,再取代“,,”为无。可多取代几次至完全。(很多的逗号取代越来越少)

(小提示:什么时候对国家需要排序呢?一种是合并函数使用时,连续性的要求。但若是连序号一起复制过来,则不需。这是最重要一个原因;另外就是再后面处理许多国家,将后续列依次前贴至第一列时很必要;还有就是删除重复国家时很有用,尤其是出来开始较少国家时等)

2.在RP前贴入C1,插入新一行用;合并。注意C之前和D之后一列都要加“;;”。取代“;;;”为“;;”,再取代“;;”为无。(存在有5,3,2个分号的情况)。3.至此完成了C1+RP的操作,在原数据库D中的C1前贴入此列。一定要注意在贴回的时候对应序号一致,在后续操作中都要重视此问题,不再重述。

Ⅳ无重复的通讯与研究合并地址的国家(CC1+RP)

No.+ C1 + RP贴到新的Sheet,用;分列,自动筛选,标0;

对国家进行处理;

国家处理完毕后,由于同一栏勿有重复的国家名称,所以用同一行每个国家只留下一个名称。

⑴在序号(A列)跟国家(B列与之后的列)之间插入一系列新的字段,成为作为MATCH函数处理的字段。插入方法为ctrl+shift全选国家部分,右键菜单选择插入即可。在B1插入函数中选择MATCH:

lookup_value 选择你要比对那栏的国家所在格(如H1)

lookup_array 所查对格后面整行作为比对出,是否有与其有重复(如可按I1右拖即可)

Match_type 输入0(表示H列作为第0列,则I为第1列)

B列第一栏框中,以实心的十字点向右拖至G1,再整行双击两下使往下整栏函数设定格式相同;

⑵对B至G列进行自动筛选。如C列会有#N/A与1,2,3,4,5……等数字出现:

#N/A代表同一横列中没有与I列相同的国家字段;

数字2代表同一横列中从J列数第2列,即K列有与I列相同的国家。

⑶在B列中筛选数字:可先将H列冻结,把与H列国家相同的第1列整栏用Delete 键删除,再删除第2,3……列等等,所有数字处理完毕后注意切记要再B列选择“全部”打开,并将H列解冻。

⑷依此类推到C,D,E……所有列字段比对完毕,即处理完所有同一笔数据中重复的国家名称。一定要注意对应列关系。

小提示:比对时可发现G列,即插入的最后一列全部为#N/A,可直接删除。

⑸全部完成后,发现都变成了#N/A,将其删除即可。

4.以,把同一横列所有国家合并到同一栏。还是注意在最后一个TEXT里为两个逗号。选择性粘贴后,把,,,取代成无,把,,取代成无即完成。

5.把处理完逗号问题的国家复制贴回D sheet开设一个新的column名称叫CC1+RP。

Ⅴ分析国内合作与国际合作

单一国家:

No.+ CC1 + RP贴到新的Sheet,用,分列,自动筛选,标0;

2.然后从B列开始 C ,D……依此类推,连续排序至最后字段,所有空白格即在下方了;

3.在C列用找到C列最下面的位置,其所在行之下的行的即为单一国家;

4.按B列国家,复制贴到新的sheet

SP与计数P)。

合作国家:

1.回到处理所有国家的sheet,扣除刚才复制到新Sheet的B列单一国家部份,其余从B列至最后面的所有列即为合作国家(可以看到同一横列的数据有两个以上的国家);

2.全选复制至一个新的sheet,去掉序号No.列和第一行。

3.把合作国家各个列从B开始一列一列剪贴到A列下面,也就是全部贴成一列国家。刚开始列比较多时可采取的操作为:将A行复制,在A列的最下方选择性粘贴(注意这里要选择“转置”),再删除A行。依次做几行,至列较少为止。

最后将A CP与计数P)

单一与合作国家一起分析:

1.在一个新的sheet中,贴入SP,CP及各自计数项P。

2

⑴将单一国家及合作国家贴到同一列A

知此DATA中所有国家名称);

⑵把所有国家的名称贴到新的sheet,此列命名为C/T(即Country/Territory),该sheet可命名为Country%;

⑶将上述已分析过的单一与合作国家贴到此sheet,在列C/T右边插入新的一列,

运用lookup的字段中】Lookup_value A2

Table_array SP,P(或CP,P)两列,且用F4固定

Col_index_num 2

Range_lookup false

⑷分别找到SP与CP对应的P,把找到的#N/A值单元格(代表找不到)皆改为0。

⑸再分别算单一国家、合作国家、所有国家的百分比等,对其按大小排序可得到想要的结论。对小数点的处理:有效位数两位数。

最后得到结果格式如下:

C/T SP P % CP P % TP % IP% 其中TP=SP+CP;IP=SP/TP*100

No.6作者分析

作者人数(No.AU)

1.No. + AU贴到新的Sheet,对AU进行排序。将Anoy排在上面(表示作者不

详)。

2.用;对其分列,自动筛选,打入0。

3.在列AU前插入一列,运用

Value1:按住C1,ctrl+shift向右

再对B1以为实心的十字点双击便得整列的值。选择性粘贴入数值。

4.便得No.AU,可将其贴入原sheet D中。对其进行数据透视。得到不同作者数对应的文章数。

个人文章数排名

这是很有益的操作,可以使我们得知该领域谁发表的文章最多,在下面的分析中

我们还可得知谁以第一作者发表的文章数最多,从而了解大师何在。

1.将AU复制至新的sheet,排序去除不明作者。分列;自动筛选,第一行全打

0。

2.依次对每一列进行排序,完成后同前操作,依次从B开始一列一列剪贴到A

列下面。全部贴成一列后,进行数据透视。

第一作者文章数排名

1.将AU复制至新的sheet。查找;*变成无,便得到第一作者。或者对其用;

进行分列,保留最前面的列即是第一作者。

2.对第一作者列FAU进行数据透视。

No.7成长趋势

这里仅用数据说明,更清晰的表示可用EXCEL图表功能来描述趋势。大体为

暂不作详述。主要

仍是运用数据透视表功能,在数据sheet 中作数据透视。为描述每年所发表文

章的趋势,可首先选PY项,点击“添加到”。

1.据提示“请将数据项拖至此处”将PY拖入。PY,P;

2.从左上角将PY拖出,再据提示“请将数据项拖至此处”将No.A拖入。注意这里的No.A为求和项而非计数项。得到作者个数No.A,P;

3.从左上角将No.A拖出,再据提示“请将数据项拖至此处”将NR拖入。得到参考文献数NR,P;

4.从左上角将NR拖出,再据提示“请将数据项拖至此处”将PG拖入。得到文章页数PG,P;

5.其他更多分析雷同。所得结果大体格式为:

NO.AU/P NR/P PG/P

8.8

9.363636

10.01818

8.961538

11.03175

9.5

9.060606

10.00962

9.276316

9.115607

2005 199 659 3.311558 5078 25.51759 1655 8.316583 总和/平

1038 3314 3.192678 24967 24.05299 9608 9.256262 均

小提示:是求和项还是计数项由分析需要决定,只需要双击左上角单元格两次,

在弹出提示框中将汇总方式选择为“数值计数”或是“求和”。通常我们这里分

析除了No.AU外都选择的是计数。

影响因子

1.查找得到某年的期刊影响因子,将SN+IF与我们要分析的数据D中的No.+SN

一起贴入新的sheet中,IF,贴回sheet中,位于SN之前一列。

2.对IF进行分析:

对IF进行排序,粘贴至新的sheet中。分别查找对应不同范围IF的文章数

有几篇(根据对应序号)。结果示例如下:

IF P %

IF<1 439 42

1

2

? 82 7.9

3

>4 23 2.2

1038

作者关键词

ISI的关键词有两种,其大体区分如下:

keyword(DE):本领域内引用的关键词;

keyword plus(ID):表示该文献可能被其他领域也引用,关键词范围扩大。

1.将DE进行排序,复制至新的sheet。

2.用;分列,自动筛选,各自打0。

3.依次各列进行排序后,再均贴至第一列下,完成后进行数据透视,得到DE,P,%。

4.ID方法相同。

研究领域

对SC用;分列;筛选等等;依次贴至同一列;数据透视。即可得到某一领域的page 数。

文献计量模式分析

被引用率

此操作相对较复杂。

1.需要对每一篇文献的每年引用次数进行查找。点击Times Cited(如3)后,若较多,可运用Analyze Results的功能,再进一步选择“Rank the records by:”

——Publication Year, “Set display options:”——show the top 500 results,再点击ANALYZE即可;若较少可直接数出每年个数。

2.在EXCEL中打开一个新的sheet, title的大体格式如下:

No. TI PY C0 C1 C2 ……TC0 TC1 TC2 ……

其中Cx为发表后第x年的引用次数,TCx发表后第x年连同之前年的总引用次数。

新建一个sheet,输入数据分析,title的大体格式如下:

Life C P Article

对这些引用次数进行总体平均,运用数据透视表进行分析,

即可得知该领域一篇文章发表后引用次数的总体趋势,可用图表趋势线很清楚地显示。

3.拓展:

若得知了CPP,则可将其结合其他项(如AU,国家等)一起,进行数据透视表分析。具体操作时,如以前的一列列剪贴至最左边一列下面,至完成成一列;加入CPP后可以两列两列一起剪贴,至完成成两列。

第三节

拓展2 对研究机构使用数据透视表进行分析

对可能出现的问题——不同国家具有同样的研究机构名称,使得分析混乱,现在可将机构与国家之间的内容查找去掉,只剩下“机构,国家”方法为取代”,*,”为”,”。只是需要多取代几次至完全。然后再做进一步的分析。

第四节

第五节

文献计量学综述演示教学

文献计量学综述

文献计量学综述 一、起源及发展 早在20世纪初,人们已经开始对文献进行定量化研究,但是当时文献计量学并没有作为一门独立的学科而存在。直到1969年,英国著名情报学家阿伦.普理查德首次提出术语“Bibliometrics”,这一术语的出现标志着文献计量学的正式诞生。 三阶段:萌芽、发展和分化 萌芽(1917-1933)这一时期文献研究人员首创文献统计方法,并在一些学科领域解剖学和化学专业进行了文献计量分析的大胆尝试,取得了一定的成果。这些研究都为文献计量学的诞生与后期的发展奠定了基础 发展(1934- 1960)年注重理论研究与规律发现,著名的文献计量学的三大基本定律中的布拉德福定律以及齐普夫定律就是在这一时期发现的到成熟与分化阶段全面发展与分化时期(1960年至今) 这一时期文献计量学已由狭隘的理论研究发展到了广阔的应用研究和指标的研究,同时涉及的领域和主题也越来越多。 迁移衍生: 专利计量学 文献计量学网络计量学 政策计量学 二、概念界定 文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法,研究文献信息的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。可以定量地揭示某一学术领域的发展历程、研究重点以及未来的研究方向。目前,文献计量分析已被看作总结历史研究成果、揭示未来研究趋势的一种重要工具。学科交叉使得文献计量研究内容体系日益丰富。数学中的图论、社会学中的社会网络分析、物理学中的复杂网络等理论与方法均被移植到文献计量学的研究体系中。 三、三大定律 布拉德福定律该定律描述文献分布规律,利用刊载某专业论文的数量来确定该专业的核心期刊,应用于指导文献情报工作和科学评价。 齐普夫定律该定律用以统计文献中的词频,通过文献的词频分析可确定学科或行业的研究热点和研究趋势。 洛特卡定律该定律描述著者人数与所著论文之间的关系。探讨了科学论文著者分布平衡的规律,在宏观的科学著作活动中,少数作者写出了大量文章,大多数人的著作还是很少的。依此定律推论出“杰出科学家数目仅是科学家数目的平方根”。

文献计量学综述

文献计量学综述 一、起源及发展 早在20世纪初,人们已经开始对文献进行定量化研究,但是当时文献计量学并没有作为一门独立的学科而存在。直到1969年,英国著名情报学家阿伦.普理查德首次提出术语“Bibliometrics”,这一术语的出现标志着文献计量学的正式诞生。 三阶段:萌芽、发展和分化 萌芽(1917-1933)这一时期文献研究人员首创文献统计方法,并在一些学科领域解剖学和化学专业进行了文献计量分析的大胆尝试,取得了一定的成果。这些研究都为文献计量学的诞生与后期的发展奠定了基础 发展(1934- 1960)年注重理论研究与规律发现,著名的文献计量学的三大基本定律中的布拉德福定律以及齐普夫定律就是在这一时期发现的到 成熟与分化阶段全面发展与分化时期(1960年至今) 这一时期文献计量学已由狭隘的理论研究发展到了广阔的应用研究和指标的研究,同时涉及的领域和主题也越来越多。 迁移衍生: 专利计量学 文献计量学网络计量学 政策计量学 二、概念界定 文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法, 研究文献信息的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。可以定量地揭示某一学术领域的发展历程、研究重点以及未来的研究方向。目前,文献计量分析已被看作总结历史研究成果、揭示未来研究趋势的一种重要工具。学科交叉使得文献计量研究内容体系日益丰富。数学中的图论、社会学中的社会网络分析、物理学中的复杂网络等理论与方法均被移植到文献计量学的研究体系中。 三、三大定律 布拉德福定律该定律描述文献分布规律,利用刊载某专业论文的数量来确定该专业的核心期刊,应用于指导文献情报工作和科学评价。 齐普夫定律该定律用以统计文献中的词频,通过文献的词频分析可确定学科或行业的研究热点和研究趋势。 洛特卡定律该定律描述著者人数与所著论文之间的关系。探讨了科学论文著者分布平衡的规律,在宏观的科学著作活动中,少数作者写出了大量文章,大多数人的著作还是很少的。依此定律推论出“杰出科学家数目仅是科学家数目的平方根”。 从表面上三大定律的统计对象各异,其结论也不尽相同,但是它们的研究方法存在着某些相似之处,事实上它们属于同一个分布体系。该体系被称为布-齐-洛体系。如果把期刊、字词、书籍、文章等称为信息发生源,将作品、论文、字词的出现、书籍的使用、文章的被引等称为产物,那么文献计量学的规律可认为是发生源数量与产物数量之间存在的函数关系。

文献计量学复习要点

《文献计量学》复习要点(初稿) 一、题型 1、填空题(共10分,每空1分) 2、选择题(共20分,每空2分)(不定项) 3、问答题(共50分,每题10分) 4、计算题(共20分,每题10分) 二、复习要点 1、文献计量学、统计目录学各是谁提出来的。 文献计量学起源于英国学者休姆(E .W .Hulme)于1923年提出的统计书目学(statistical bibliography )。1969年,英国学者普里查德(A .Pritchard)提出用文献计量学命名这个领域的研究,以替代统计书目学。 2、科学文献数量增长的规律是由科学发展的客观过程决定的,而科学发展的实际过程主要受哪两种因素的制约? 科学文献数量增长的规律是由科学发展的客观过程决定的,而科学发展的实际过程主要受两种因素的制约:一是科学自身固有的发展规律,二是科学所处的环境条件。 3、半衰期的定义。比较普赖斯指数和半衰期。普赖斯指数的计算。 物理学中的半衰期:任何放射性物质都以这样的方式衰变:在相等的时间间隔内它按相同的比率减少。减少到一半量的时间间隔就是“半衰期”,也是表示这种物质的放射性特性。 文献半衰期:某学科(专业)现时正在被利用的全部文献中的一半的出版年限。它是衡量文献老化的指标之一。 “普赖斯指数”和“半衰期”是既有联系又有区别的两个衡量科学文献老化的指标。半衰期是指某一学科或专业领域的文献总和而言的;而普赖斯指数既可用于某一领域的全部文献,也可用于评价某种期刊、某一机构、甚至某一作者的文章的老化特点。一般而言,如果某一学科或专业的文献的普赖斯指数越大,则半衰期就越短,说明其老化速度就越快。 “普赖斯指数”:就是在某一个知识领域内,把对年限不超过5年的文献的引文数量与引文总量之比当作指数,用以量度文献的老化速度和程度。其计算公式为: 5P 100%= ?出版年限不超过年的被引文献数量 被引文献总量 4、从文献利用的角度来说,科学文献的老化有以下哪几种情形? 有五种情形: ① 献包含的信息失效。如被证明是不可靠的、或者是错误的。②文献包含的知识已经被人 们广泛接受而不再被提及③文献被新的文献取代④研究兴趣的下降及研究转移⑤信息不通而不被引用致使老化。 5、文献信息老化的影响因素。 文献的老化要受到许多因素的影响,其机理可从以下5个方面来分析: (1) 文献的增长 在文献的动态规律中,增长与老化是一个事物的两个方面,它们从不同的方面来阐述

信息计量学

1.文献计量学:是采用数学统计方法,对各类文献的诸计量特征进行统计分析,进而揭示、研究文献情报规律,文献情报科学管理以及科学发展趋势的一门学科。 2.质量牵制原则:出版物的增长数量与其质量有关,不同质量的出版物有不同的出版速度;质量高的文献增长速度慢。 3.文献老化:科学文献随着其年龄的增长,逐渐失去了作为科学情报源的价值,越来越少的被用户利用的过程。 4.半衰期:某学科现在尚在被使用的全部文献中,较新的一半是在多长时间内发表的。 5.普赖斯指数:指在某一领域内,出版年龄不超过5年的被引证文献与被引证文献总数之比。 6.文献耦合:是指引用文献通过参考文献建立起来的耦合,如果A、B两篇文献共同引用了一篇或多篇相同的论文,则A、B两篇论文的关系即为耦合关系,也叫文献合配。 7文献信息流:文献所含情报的汇流称文献信息流。 8文献老化:科技文献随着其"年龄"的增长,其内容日益变得陈旧过时,失去了作为科学情报源的价值,以及因此越来越少被科学工作者和专家们利用的过程。 9科学生产率:个体科研人员在一定时期内所撰写的论文数量。 10引文分析:利用各种方法对科学期刊、论文、著者等分析对象的引证和被引证现象进行分析,以揭示其特征和内在规律。 11影响因子:即某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论文总数。 12信息计量学:是以信息作为对象进行计量研究的学问,采用数学、统计学等定量方法,对信息基本循环图式所描述的社会化的信息交流过程中的信息组织,存储,分布,传递,相互引用和开发利用等进行定量描述和统计分析,以便揭示社会信息交流过程的数量特征和内在规律。 13网络信息计量学是采用数学、统计学等定量分析方法,对网上信息的组织、存储、分布、传递、相互引证和开发利用等进行定量描述和统计分析,以揭示七数量特征和内资规律的一门新兴学科。 文献信息老化的主要度量指标有哪两个?两者有何异同? 文献信息老化的主要度量指标是半衰期和普赖斯指数。两者既有联系又有区别。它们都是从文献被利用的角度出发,但以不同的方式来反映文献老化的情况。普赖斯认为,“有现时作用”的引文数量与“档案性”引文数量的比例,是比引文的“一半寿命”更为重要的特征。文献的“半衰期”只能笼统地衡量某一学科领域全部文献的老化情况,而“普赖斯指数”既可用于某一领域的全部文献,也可用于评价某种期刊、某一机构,甚至某一作者或某篇文章的老化特点。半衰期概念可以适用于一般情报老化,而普赖斯指数只适用于文献情报。 简述布拉德福定律的基本内容。 布拉德福定律的文字表述为:如果将科学期刊按照其登载某个学科论文载文率的大小,按渐减顺序排列,那么可以把期刊分为专门面向这个学科的核心区和包含着与核心区同等数量论文的几个区。这时,核心区期刊的数量与相继各区期刊数量的关系将是1:a:a 2 ……。 a 为布拉德福常数,或称比例系数。图象描述:如果取上述登记排列的期刊序号(级数)的对数1gn为横坐标,以相应的论文累积数R(n)为纵坐标进行图象描述,可得到一条曲线。

关于SCI中的科学计量指标

关于SCI中的科学计量指标 科学技术是第一生产力。科技成果和科技人材的重要评价工具——科学引文索引(SCI),是学术界众人皆知的,SCI(Science Citation Index )作为“中国看世界,世界看中国”的权威性科学引文分析工具和独特的文献检索工具,在我国科学研究和科技管理活动中已得到了广泛的应用。为了使我校科研人员进一步了解和认识SCI,我中心将有关引文分析法的知识概念介绍给广大师生,便大家参考。 A.科学引文索引 SCI 科学引文索引(Science Citation Index)简称SCI,创刊于己于1963年,是由美国人E.加菲尔德创立的美国科学情报研究所(Institute for Scientific Information,简称 ISI )编辑出版的。是一种国际性的、多学科的综合性索引,涉及的学科有数、理、化、农、林、医、生物学、生命科学、天文、地理、环境、材料、工程技术等自然科学等各学科。SCI从来源期刊数量来看可分为SCI和SCI-E。SCI是指来源期刊为3600种左右的SCI 印刷版和SCI光盘版。SCI-E的全称是 SCI-Expanded, 又称SCI Search,是SCI的扩展库,有来源期刊5600种,可通过国际连联机和国际互联网进行检索。书本式SCI分双月刊,年度累积本和多年度累积本等三种形式,内容都包括五部分:引文索引,专利引文索引.来源索引.机构索引和轮排主题索引。SCI不仅是一种大型的文献检索工具,而且是引文分析的极为重要的工具之一。 B.中国科学引文数据库 中国科学引文数据库(Chines Science Citation Database)简称CSCD,是国家自然科学基金委员会和中国科学院共同资助,由中国科学院文献情报中心研制的一个多功能的建大型数据库。CSCD 收录了国内出版的中英文科技术核心期刊582种,涉及数学、物理学、力学、化学、天文学、地球科学、生物科学、 农林科学、医药卫,生、工程技术、环境科学等领域。CSCD始建于1989年,目前已经累计了50万条来源数据库和30万条引文数据。该数据库可提供论著(期刊论文、专著、会议论文、学位论文、专利文献等)被引情况、期刊被引情况、机构或个人在核心期刊上发表论文情况的检索,是目前国内唯一能与 SCI接轨的数据库。 C.科学指标 科学指标是衡量科学实力的量化规定项目。目前各国有关科学事业的统计指标虽不尽相同,但通常的科学指标都包括:科学出版物的数量和类型、出版物的施引和受引的数量、授予各级学位的人员数量、政府科学基金的金额与力度、科学出版物使用语种的数量、申请与批准的专利数量、聘任工作的科学家数量等。上述这些指标常用来评价科学成果和科学生产能力等。 D.文献计量学

文献计量学

文献计量学 一.科技文献的增长规律 什么是科学指标 科学指标(Scientific indicators)是指人类科研活动的数量研究首先应确定的定量对象。 科学指标的类型 - 人员与机构的数量。其中人员数量包括科学工作者、工程师、教师和学生的数量等。机构数量是指各类科研院所、学会及高等学校的数量。 - 科研成果的数量。其中主要有:重大理论问题突破的次数以及理论在实际应用中获得重要成果的次数等。 - 科研过程及成果记录载体的数量。其中主要有:科技期刊及其刊载论文的数量;专利文献的数量;科技书籍的数量等。 - 科研资金投入的数量。主要指直接投入于理论与应用研究的资金数量。 文献指标使用最为频繁,主要原因: - 绝大部分人类科研活动及其成果都是以文献方式记录和贮存。其它三者都没有与科研活动和成果有如此直接密切的数量关系,单纯的成果数量不能详尽的反映人类取得成果的整个科研过程。 - 与其他指标相比,科技文献数量巨大、易于收集。这对于主要依靠数学统计方法来揭示存在于科学发展过程中的数学规律的研究人员来说,无疑是一个极大的优点。 - 与其他指标相比,科技文献易于统计分类,可以对各类科研过程进行有选择的定量研究。 文献量度指标 1)绝对值指标,是表示文献数量多少的指标。 2)相对值指标,是表示不同部分文献的数量比例的。 3)累计数指标,以文献累积数为依据,因为,各年出版的文献逐年相加而得到的文献累积数总是增加的,就有可能趋于某种、固定的规律,所得到的结果,往往是较为 规则的曲线,能用一个较为准确的函数来描述,因而有利于进行文献的定量分析研 究。 4)非累积数指标,即一年出版的文献数量,易于受到各种复杂的社会因素的影响,一般来说是波动的,很难确定它是否近似的趋于某种固定的规律,结果往往是一些非 规则曲线,难以用某种函数来描述。 文献指数增长模型 文献指数增长规律 文献指数增长规律的局限性 (1)科学文献并不总是按指数函数关系增长。普赖斯指数增长模型与所研究的文献的学科和时间有关。所研究的学科范围越广泛,符合指数规律的时间就越长。 (2)指数增长规律不能预测文献的未来增长趋势。这就是说,随着时间的推移,科学文献的增量会趋向无穷大。这显然是不符合客观规律的。 文献指数增长规律存在局限的原因:

科学计量学 综述

2005 - 2010年我国网络计量学研究现状浅析 摘要 本文通过对中国知网全文数据库和万方数据资源系统收录的近六年国内关于网络计量学研究文献的统计,从文献数量、主题分布、期刊分布等角度进行了分析,并对网络计量学基础理论、方式方法以及应用方面的相关问题进行简单总结说明。 关键词:网络计量学统计分析 网络计量学是在传统文献计量学的基础上发展起来的,是对网络信息资源进行分析研究的一门新兴学科,是信息计量学的一个新的发展方向和重要的研究领域。它主要采用数学、统计学等各种定量研究方法,对网上信息的组织、分布、传递、相互引用和挖掘利用等进行统计分析和定量描述,以揭示其数量特征和存在规律,从而为网络信息资源的有序化组织、合理化配置和有效的利用提供必要的依据。 “网络计量学”的概念最早是在1997年,由丹麦皇家图书情报学院的Almind T. C和Peter Ingwersen提出;在我国,最早引用此概念的是武汉大学的邱均平教授,他在2000 年发表了《信息计量学(一) 》一文,在这篇文章中对网络计量学的产生和发展做了深入的分析。其后我国学者纷纷对网络计量学展开了探讨,这些探讨对网络计量学理论和实践的发展具有积极的指导意义。为能了解网络计量学研究的现状,笔者对2005—2010年国内网络信息计量学研究成果进行统计,以期能对网络计量学的基本知识有简单的认识。 1 研究方法与数据统计 1.1 研究方法 本文采用内容分析法。笔者选择中国知网全文数据库和万方数据资源系统作为本次研究数据的来源。由于这两个数据库数据来源广泛,收录齐全,因此基本上能够满足笔者的研究要求。在这两个数据库中分别选择检索时间跨度为2005—2010年,篇名或标题中含有“网络计量学”或“网络信息计量学”的学术文献。共检索出论文159篇,去重、剔除会议通知、不符合本文研究要求的文章,剩余文献90篇。将数据导入NoteExpress软件,用该软件进行数据统计。

文献计量学专业复习资料

信息计量学复习预测参考 一.名词解释信息论:采用数理统计方法来研究信息的度量,传输和变换规律的一门学科。 信息计量学:采用定量方法来描述和研究情报(信息)的现象,过程和规律的一门学科。 期刊载文量:在给定时间内,期刊发表的全部论文数量。 期刊引证率:在给定时间内,期刊引证的全部参考文献数量。 期刊被引率:在给定时间内,期刊被引证的全部次数。平均引文率:反映期刊平均引文水平的统计量,以修正由于载文量大小不同带来的偏差。 知识发现:对数据中隐含的,以前不知道的,潜在的有用的信息的有价值的提取。 聚类:利用论文间的同被引关系把本来无外部联系的论文“聚”在一起而形成“类”的过程。引文聚类:引文之间都具有一定程度的学科专业相关性,根据专业属性,引文可聚集成为一个个聚类群体。 引文耦合:引证文 献通过其参考文献 (被引证文献)建 立的耦合关系。 文献同被引:指两 篇(或多篇)文献 同时被后来的一篇 或多篇论文所引 证,则称这两篇论 文具有“同被引“关 系。 期刊同被引:以期 刊为基本单元而建 立的同被引关系。 普赖斯定律:撰写 全部论文一半的高 产作者的数量,等 于全部科学作者总 数的平方根,这就 是普赖斯定律. 普赖斯指数:普赖 斯指数等于(出版 年限不超过5年的 被引文献数量/ 被引文献总量) X100% 文献信息流:在信 息计量学中,通常 把文献所含信息的 汇流称为文献信息 流。由于文献是信 息的最基本的载体 形式,文献信息流 是具有一系列主题 特征的科学文献的 集合,所以有时将 文献信息流简称为 文献流。 文献信息老化:科 学文献随其“年龄” 的增长,其内容日 益变得陈旧过时, 作为情报源的价值 不断减小,甚至完 全s丧失其利用价 值。过程观认为文 献老化是一种过 程,状态观认为文 献老化是一种状 态,过程状态辩证 观认为文献老化既 是一种过程又是一 种状态。 半衰期:某学科(专 业)现时尚在利用 的全部文献中较新 的一半是在多长一 段时间内发表的 (共时半衰期);该 学科一半文献失效 所经历的时间(历 时半衰期)。 引文分析法:就是 利用各种数学及统 计学的方法和比 较,归纳,抽象, 概括等逻辑方法, 对科学期刊,论文, 著者等各种分析对 象的引证与被引证 现象进行分析,以 便揭示其数量特征 和内在规律的一种 文献计量分析方 法。 核心期刊:指针对 某一学科或专业领 域来说,刊载大量 专业论文和利用率 较高的少数重要期 刊,就称为该学科 (专业)的核心期 刊。 影响因子:评价和 比较一种期刊相对 于同学科中其他期 刊影响力和重要性 的指标。影响因子 等于某刊前两年发 表论文在该年的被 引证次数除以该刊 前两年发表论文总 数。 即年指标:评价期 刊中的论文被引证 的速度,或者在同 一年内期刊中的论 文被引证的频率。 即年指标等于该刊 某年发表的论文在 当年的被引次数除 以当年发表论文的 篇数。 科技预测:根据预 测学的基本原理以 及科技发展的历史 和现状,对科学技 术的发展前景及其 对社会进步的影响 程度进行分析和推 测,从而得出预见 性的结论。 网络信息计量学: 是综合采用文献计 量,信息计量,统 计学方法,计算机 技术和网络技术等 对网络信息规律进 行计量分析的一门 科学。 格鲁斯下垂:布拉 德福曲线在进入直 线部分后,并非无 休止的直伸下去, 后来总要弯曲下 垂,因而使得布拉 德福的图形变为明 显的三个部分:上 升的曲线部分—直 线部分—弯曲下垂 部分。

基于文献计量分析的新生代农民工研究综述

基于文献计量分析的新生代农民工研究综述 运用文献计量学的方法,通过中国知网(CNKI)提供的文献和数据,对2000年以来“新生代农民工”的研究文献从时间、空间、期刊、著者、主题四个方面进行统计分析,对“新生代农民工”研究的现状特征、存在问题和发展趋势进行探讨,并为今后的“新生代农民工”问题研究提出四点启示。 标签:新生代农民工;文献计量;研究发展趋势 2001年,中国社会科学院王春光研究员首次提出了“新生代农村流动人口”的概念,并将其定义为“20世纪90年代外出务工经商、年龄在25岁以下、与第一代农民工在社会阅历上有着明显差距的农村流动人口”[1]。这一研究引发了人们对改革开放以后形成的“农民工”这一特殊群体代际分化问题的关注。近年来,随着大量“80后”“90后”农村人口走出学校进入城市就业,农民工中代际分化的特征显得越发明显。学者们对此也给予了极大的关注,经过初步的文献检索我们发现最早使用“新生代农民工”这一术语的是上海市房地产科学研究院,2005年以后学者和媒体开始较为广泛地使用,发表的学术文献也逐年增多。2010年1月,随着国务院发布的2010年中央一号文件《关于加大统筹城乡发展力度进一步夯实农业农村发展基础的若干意见》中正式使用“新生代农民工”的提法,表达了中央对逐渐成为进城务工人员主体的新生代农民工的高度关注后,引起了社会各界对新生代农民工的热烈讨论和研究[2]。那么,经过几年的研究和探索,对新生代农民工这一较为特殊的群体究竟形成了怎样的认识,学者们又是从哪些角度进行探讨的,新生代农民研究的未来发展趋势又是什么样的?对此,我们采取文献计量分析的方法,对2000年至今公开发表的有关新生代农民工学术文献进行分析,对这些问题进行逐一的梳理。 一、研究方法 (一)研究方法和数据分析原理 本文研究采用文献计量学的方法对新生代农民工问题的研究进行分析和总结。文献计量学是运用数学和统计的方法,定量分析一切知识载体的交叉学科,它集数学、统计、文献学为一体,注重量化的综合性知识体系[3]。文献计量学计量分析的主要内容包括文献数量、时空分布、作者数量、核心作者、核心期刊、主题分布、词汇数量等内容。运用该方法对新生代农民工问题研究的文献进行计量分析,有利于发现新生代农民工研究方面的规律性内容,对今后新生代农民工问题的研究能够起到一定的指导作用。 (二)数据和文献来源 本文研究使用的数据和文献来自中国知网(CNKI)的《中国学术期刊网络出版总库》。该数据库是目前世界上最大的连续动态更新的中国学术期刊全文数据库,收录的期刊种类多、数量大、覆盖学科范围广、更新及时,因此从中获取

文献计量学实务

第三章文献计量学实务 (1) 第一节Web of Science (1) 第二节运用Excel (2) No.1 文章类型 (5) No.2 语言 (6) No.3 期刊 (6) No.4文章页数 (6) 参考文献数 (6) No.5国家分析 (6) No.7国家分析 (9) No.6作者分析 (11) No.7成长趋势 (12) 影响因子 (13) 作者关键词 (13) 研究领域 (14) 文献计量模式分析 (14) 被引用率 (14) 第三节 (14) 第四节 (15) 第五节 (15) 第三章文献计量学实务 第一节Web of Science 进行搜索: 在search框内敲入所需要查找的关键词,不同关键词间用and或or连接。如通常格式可为:(XX or XX or XX)and XX*。*可要可不要,表示后续内容可任意。点击search。 (如:搜索吸附领域粘土的文献,可敲入:(adsorption or sorption) and clay*。点击Refine your results下的Subject Categories从众多领域中选出所需要关注的领域内的文章,点击VIEW RECORDS。对所有文献进行了初步筛选。 Add to marked list 在网页右下方Output Records:下的Records选择所需要输出的文献序号,ISI一词输出可以最多500篇, 所以我们通常选1-500,依次501——1000,等等。点击右下Add to marked list。此时网页整上方会出现有红勾的Add to marked list,点击。

Step 1. Select the fields to include in the output下选择所需要输出的数据项。通常我们做分析时候应选上除cited references和abstract外的所有项。这两项是由于内容较多,EXCEL 处理起来不便,所以通常不选。 Step 2. Select an option.我们需要选择的是Tab Delimited(Windows). 接下来很重要的一步是我们应在“Automatically delete selected records from the Marked List after output is complete.”前打勾,否则在后续输出时候会因对前面输出项目的记忆造成干扰。 点击SAVE TO FILE。在下个网页中会输出一个记事本(.txt)格式的文档,对其内容全选复制贴贴入新建EXCEL中,便自动输出各项数据。 此时可进行下一查找:直接点击BACK,然后RETURN 即可。需要注意的是在后续贴入EXCEL时,每次再贴入EXCEL的第一行都是标题,应该删除。 重复执行,最终便可得到我们所需领域的文献数据。 如果我们在电脑里安装有软件Reference Manager或者 EndNote,也可直接将文献输出其中进行管理。前面的操作基本雷同,只是再Add to marked list后Step 1. Select the fields to include in the output后所选项重点可变为选择Author(s),Title,Title,abstract*,keywords及times cited等所需项。Step 2. Select an option.我们需要选择的是 Field Tagged.然后在下面小方框打勾,再点击SAVE TO FILE。 第二节运用Excel 通过第一节我们对所需查找领域文献全部已经输出为EXCEL形式数据,接下来可对其进行整理分析。 (一)前期处理步骤: 1.首要的工作是保存好原始数据,在EXCEL里将其所在sheet命名为OD (original data的缩写),方便我们在后续处理工作中进行核对。 2.数据的初步处理,包括: (1)先从原始数据库中找到我们想要进行分析的部分保留,其它意义不大的可直接删除。新建一个sheet,将OD的全部数据复制过来,将其命名为D。可删除的列有:CA,SE,AB,EM,CR,PU,PI,PA,J9,JI,PD,VL,IS,PN,SU,SI,BP,EP,AR,DI,GA 。(注:各列title所代表的含义见附二。) (2)可将年份PY进行排列,如从按Z→A降序排序得2006→1995,按A→Z则相反。因为我们从WOS中所下当年的文献只是一部分,数据不完全,所以在分析

文献计量学六大规律

文献计量学:文献分布定律,布拉德福定律,词频分布定律,齐普夫定律,科学论文作者分布定律,洛特卡定律,文献增长,科学文献老化,引文分析,情报冗余等。 文献信息源的定量研究开始于20世纪初。在20世纪70年代末,就形成了布拉德福定律、齐普夫定律、洛特卡定律、文献增长规律、文献老化规律、文献引用规律等六大规律,并在后来的研究中得到不断的完善与发展。 布拉德福定律:也称文献分散定律。是由英国文献学家布拉德福(S.C.Bradford)1934 年首先提出。它是定量描述科学论文在相关期刊中集中——分散状况的一个规律。经过后来的许多研究者的修正和研究,发展成为著名的文献分布理论。布氏定律的文字描述为“如果将科学期刊按其刊载某个学科领域的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文量最多的…核心?区和包含着与核心区同等数量论文的随后几个区,这时核心区和后继各区中所含的期刊数成1:a:a 2 …… 的关系(a>1)。”布氏定律主要反映的是同一学科专业的期刊论文在相关的期刊信息源中的不平衡分布规律。布氏定律的应用研究也获得了许多切实有效的成果,应用于指导文献情报工作和科学评价,选择和评价核心期刊,改善文献资源建设的策略,确立入藏重点,了解读者阅读倾向,评价论文的学术价值以节约经费、节约时间,切实提高文献信息服务和信息利用的效率和科学评价的科学性。 洛特卡定律:是由美国的统计学家、情报学家洛特卡(A.J.lotka)研究出来的描述科学论文作者动态的最早的量化规律。在科研活动中,不同人的科研能力及其成果著述数量肯定是不同的。那么,在同样的一段抽样时间内,不同的科技工作者的论著数量分布有没有什么规律呢?1926 年,洛特卡发表了论文“科学生产率的频率分布”。他在文中统计分析了化学和物理学两大学科中一段时间内科学家们的著述情况,提出了定量描述科学生产率的平方反比分布规律,又被称为“倒平方定律”。其经典公式为:f(x) =(C为常数)上式的意义为:设撰写X 篇论文的作者出现频率为f(X) ,则撰写X篇论文的作者数量与他们所写的论文数量呈平方反比关系。如撰写了2篇论文的作者数量大约是撰写了一篇论文的作者数量的1/4 (即1/2 2 ),写3篇论文的作者数量大约是一篇论文作者数量的1/9(即1/32),写n篇论文的作者数量大约是写一篇论文作者数量的1/n 2。洛特卡定律,探讨了科学论文著者的不平衡分布规律。通过他的研究成果,我们可以明确:在宏观的科学著述活动中,少数作者写出了大量的文章;反之,而大多数人的著述则是不多的。研究科技工作者及其论著间的数量关系有很重要的现实意义。在信息资源管理和信息利用过程中,可以用它来预测著者数量和文献数量,掌握作者的研究动态,提示不同领域中文献现状和趋势,便于对文献信息源进行有效的选择,搜集和科学管理。在科学学中,还可用它来研究科研工作者的创造活动规律,研究人才及其成果分布规律。如普赖斯就从洛特卡定律推论出“杰出科学家数量仅仅是科学家数量的平方根”。 齐普夫定律:是由美国语言学家齐普夫(G.K.Zipf)于1935年研究发现的关于文献中的词频分布规律。其具体表述如下:如果将一篇达到一定长度的文章中的词按其出现频率递减排序,根据频率高低编上相应的等顺序号,次最高的为 1 级,其次为2 级…… ,这样一直到若干级,如果用 f 表示词在文章中出现的频率,用r 表示词的等级序号,则有: fr = c (c 为常数) 应用词频分布规律及其参数,可以预测关键词的数量,计算各词汇的重要程度,对于文献标引与词汇控制、词表的编制、文献信息检索等方面都具有重要的应用价值。文献增长规律:随着科学的不断发展,科学文献的增长也成为一种客观的社会现象。对于这一现象人们在20 世纪初就已注意到。但一直到20 世纪40 年代后,由于当时图书馆管理的需要,特别是科学史研究以及科技情报工作发展的需要,文献增长规律才被研究者重视,取得了一系列研究成果。其中最具代表性的是普赖斯(D.Price )提出的科学文献的指数增长规律。普赖斯在其著作《巴比伦以来的科学》中考察统计了科学期刊的增长情况,发现科学期刊的数量大约每50 年增长10 倍。他以科技文献量为纵轴,以历史年代为横轴,不同

基于文献计量的大数据研究综述_李贺

收稿日期:2013-12-10 基金项目:国家科技支撑计划(课题编号:2013BAH21B05)作者简介:李 贺(1964-),女,吉林长春人,教授、博士生导师,主要从事知识管理、竞争情报分析、信息系统开发与设计 研究. 基于文献计量的大数据研究综述 李 贺,袁翠敏,李亚峰 (吉林大学管理学院,吉林长春130022) 摘 要:本文通过检索Web of Science 中有关大数据的论文,采用文献计量分析法、可视化分析法 和内容分析法等对文献进行梳理,分析了该领域的研究现状和发展趋势,并从大数据基本理论、大数据存储与分析处理技术和大数据应用研究三个角度说明当前研究热点,对未来研究进行展望。关键词:大数据;Web of Science ;文献计量;综述中图分类号:G250.2 文献标识码:A 文章编号:1007-7634(2014)06-148-08 A Review of Big Data Research Based on Bibliometrics LI He,YUAN Cui-min,LI Ya-feng (School of Management,Jilin University,Changchun 130022,China) Abstract:The paper analyzes related literatures in the field ofbig data retrieved from Web of Scienceus ?ing methods of bibliometric analysis,visualization analysisand content analysis,and analyzes the research status and development trends.The paper shows the current research focus of big data from three angles: basic theory,technology of big data storage,analysis and processing,as well as big data applied research,and gives prospects of the future research. Key words:big data;Web of Science;bibliometrics;review 1大数据概述 1.1大数据定义 从学术角度来讲,大数据一词最贴切的概念最早出现在2008年《Nature 》杂志所设立的“Big Data ”专刊中,该专刊所发表的文章分别从互联网、数据管理及生物医药信息等角度介绍大数据所带来的机遇与挑战【1】。自此以后,大数据研究在各国兴起。2011年5月,大数据的概念由信息存储资讯科技公司EMC (易安信)在“云计算相遇大数据”大会 正式提出。同年6月,IBM 及麦肯锡等著名研究机构也相继发布大数据研究报告,掀起了大数据研究的浪潮。然而,各界对大数据的定义尚未统一。Gartner 结合其特征将大数据定义为数据量大、高运转速率和多样性的信息集合,它需要新的处理形式以加强决策支持、深入发现和优化处理【2】。我国学者孟小峰【3】通过将大数据与数据库的概念进行对比,并将两者分别比喻为“大海捕鱼”和“池塘捕鱼”,从数据规模、数据类型、模式和数据的关系、处理对象以及处理工具几个方面分析了大数据这一概念,较为准确、形象。总体上讲,大数据不仅指数据量巨大,且数据主要是以半结构化和非结构化形 - -148

文献计量指标与学术地位3

南京农业大学学报 1996,19(4):95~101 J ou rna l of N anj ing A g ricu ltu ra l U n iversity 文献计量指标与学术地位3 ——八所重点农业院校论文被国内外数据库收录情况的统计分析Ξ包 平 何建新 唐惠燕 卢朝晖 (南京农业大学图书馆信息咨询部,南京210095) 摘要 对SC I、CAB等6种国外权威数据库以及中国农业文献数据库等2种国内中文数据库收录的8所部属重点农业院校的学术论文情况进行了统计分析,并深入分析了SC I和CAB的文献来源,讨论了发文量、被摘率、被引率等文献计量指标与各校学术地位的关系。 关键词 农业院校;文献计量指标;学术评估 中图分类号 G35311 B IB L I OM ETR IES IND EX AND ACAD E M I C POSIT I ONS —STAT IST I CAL ANALY SIS ON THE NU M BER OF PAPERS FROM E IGHT KEY AGR I CUL TURAL UN IVERSIT IES COLL ECTED B Y DATABASES AT HOM E AND ABROAD B ao P ing,H e J ianx in,T ang H u iyan and L u Zhaohu i (D ep t of Info rm ati on Service,N an jing A gric U n iv L ib rary,N an jing210095) ABSTRACT A statistical analysis w as carried ou t on the num ber of papers from the eigh t key agricu ltu ral un iversities in Ch ina,co llected by six fo reign and tw o Ch inese au tho ritative databases.D eep analyses w ere m ade on the docum en t resou rses of SC I and CAB.T he relati on sh i p betw een the b ib li om etries index,such as the num ber of papers pub lished,the percen tage of being co llected and cited,and the academ ic po siti on s of these schoo ls has been discu ssed. Key words agricu ltu ral co llege;b ib li om etrics index;academ ic evaluati on 利用文献计量学的计量指标来统计评价一个科研机构或一所大学的科研学术水平,己成为世界各国普遍采用的科学计量方法之一。自1987年以来,中国科技信息研究所(前中国科技情报研究所)根据国内外发表论文量与论文被摘录情况进行年度统计分析。其中,国外发表论文量主要依据SC I(科学引文索引)、E I(工程索引)、IST P(科技会议录索引)和ISR (科学评论索引)4种检索刊物或数据库,国内发表论文量则根据国内出版的1200种左右核心科技期刊进行统计(不包括社会科学)。统计结果得到了国家科委和有关部门的认可,并受到中国学术界的高度重视,由此而产生的“学术榜”在海内外也产生了极大的反响。 Ξ校青年基金资助 收稿日期:1996201202

学术期刊的文献计量指标及提升其数值的途径探求

学术期刊的文献计量指标及提升其数值的途径探求 方志蓉. 学术期刊的文献计量指标及提升其数值的途径探求[J].出版发行研究.2005(4):66-68 1969年,英国学者普里查德提出了“文献计量学”概念,它是借助文献的各种特征数量,采用数学和统计学的方法,来指出、评价和预测科学技术的现状和发展趋势的图书情报学科的分支学科。借助文献计量学的统计数据,可以在一定程度上了解学术期刊的质量。近几年来,国内越来越多的科研管理和研究部门,都在利用文献计量指标来评价学术期刊的质量。因此,可以合理提升文献计量指标的数值在一定程度上达到提高学报质量的目的。 一、用于学术期刊评价的文献计量指标 国内常用的文献计量指标有总被引频次、影响因子、即年指标、他引率、自引率、参考文献(引文)量、平均引文量、基金论文比等。这些指标都是针对期刊影响力和期刊学术水平进行评估,反映了期刊的有用性(被利用程度)和显示度。 1. 总被引频次 总被引频次是指期刊自创办以来所刊登的全部论文在统计当年被引用的总次数。总被引频次指标较有利于载文量大和历史长的期刊。期刊在保证刊载论文质量的基础上,应尽量增加刊物的载文量,以提高被引频次。 2. 影响因子和即年指标 影响因子是国际上衡量科学刊物水平常用的客观指标,也是SCI(科学引文索引)选用期刊的三大标准之一。影响因子是指某刊平均每篇论文的被引用数,它是某刊在某年被全部源刊物引证该刊前两年发表论文的总次数与该刊前两年所发表的全部源论文数之比。即年指标是反映期刊即时反应速率的指标,指某刊当年发表论文的被引用次数与该刊当年发表论文总数之比。影响因子越大,表明期刊的被引用的程度越高,其学术影响力和作用也越大。 3. 他引率和自引率 他引率是指期刊全部被引次数中被其他刊物引用次数所占的比例。自引率是指期刊全部被引用次数中被该刊本身引用次数所占的比例。自引率的高低反映了期刊内容的连续性和读者的稳定性。 4. 参考文献量和平均引文率 引文是组成论文的有机部分。通常情况下,可以从一篇论文后所列出的参考文献判断该论文在学术上是否具有科学性、独创性和前瞻性,提供的实验数据是否真实可靠,所得到的结论是否合理。因此,引文质量的高低与论文水平密切相关。参考文献量是指期刊论文引用的全部参考文献数。平均引文率是指期刊每篇论文平均引用的参考文献数。期刊刊登的每篇论文所引用的参考文献越多,该两项指标就越高。 5. 基金论文比 基金论文比是指各类基金资助的论文占全部刊发论文的比例。基金论文所涉及的项目基本上是前瞻性的理论和技术。一般认为,基金论文比例越高,刊物的学术水平也越高。 二、提高文献计量指标的途径 1. 提高学报的载文量和信息量 从总被引频次和影响因子等指标可以看出,学报应尽可能地提高载文量和信息量,即通过扩大学报刊发论文的基数,来提高论文的引用率。既可以通过增加学报页码来刊发更多的论文,也可以通过控制每篇论文的篇幅,压缩论文版面来增加信息量,还可以通过版面合理的设计和编排,在不影响版式美观的前提下,使学报每期固定的页码上刊发尽可能多的论文,以提高每期学报的载文量。 2. 缩短学报的出版时滞 从影响因子和既年指标的含义可知,它们对刊登论文的出版时效有较高的要求。出版时滞是期刊的一个重要的评价指标。为了缩短出版时滞,有条件的学报应尽量缩短刊期,可以由季刊改为双月刊,双月刊改为月刊。还可以采取加快审稿流程的办法。学报编辑部在送市稿件时,应选择专业对口的审稿专家,尽量避免稿件因与审稿人专业不对口而被退回的现象,否则会延长审稿时间。在平时送市稿件时,应注意审稿专家的筛选,对于那些审稿认真负责而且所需时间较少的审稿专家,可以选进学报固定的审稿专家队伍;对于审稿所需时间过长的专家,则不宜选入。近几年发展迅速的网络审稿,可以极大地缩短审稿时间,从而缩短出版时滞,有条件的学报编辑部可以采用网络审稿的形式。 3. 注重刊发能被更多引用的论文 有关研究人员的研究结果表明,被作者引用较多的论文主要有三种,一是原创性论文,即含有经典的理论、新颖的设计和实验方法,具有当前某一学科领域的研究热点的论文;二是争鸣性论文,论文能引起争鸣,自然能吸引更多读者的关注,产生更大的影响,被引用的概率就大大提高;三是综述性论文,了解和掌握本专业最新的研究动态和研究趋势,是每位科研工作者所关注的。在科技文献数量庞大、种类繁多的今天,科研工作者不可能也没有时间一一阅读,如果有人能把这些文献进行综述,突出其主要的观点和方法,科研人员通过阅读这些文献综述,既可以及时了解和掌握本专业最新研究动态,又可以节省时间和

相关文档
相关文档 最新文档