文档库 最新最全的文档下载
当前位置:文档库 › SATI简介

SATI简介

SATI简介
SATI简介

SATI定义

文献题录信息统计分析工具(Statistical Analysis Toolkit for Informetrics, SATI),旨在通过对期刊全文数据库题录信息的处理,利用一般计量分析、共现分析、聚类分析、多维尺度分析、社会网络分析等数据分析方法,挖掘和呈现出美妙的可视化数据结果。通过免费、共享软件功能及开源、增进代码实现,旨在为学术研究提供期刊文献数据统计与分析的辅助工具。

软件界面如下图1所示:

图1 SATI软件主界面

技术方法

国外关于文献信息统计分析的技术方法和应用软件相对较为成熟,已有社会网络分析软件Ucinet (嵌入开源软件Pajek, Netdraw 和Mage)、科学计量学研究软件Bibexcel、文献可视化信息分析软件Citespace等,但这些软件都主要针对Web of Science (WoS)等国外数据库平台开发,需要专门的数据输入格式,对于国内期刊全文数据库题录数据不能直接处理。为兼顾处理国内期刊题录数据和国际WoS题录数据,本文尝试设计开发对国内外期刊数据库进行文献题录信息统计分析的统一软件。

技术方法的关键在于对国内和国际期刊全文数据库所导出题录数据的兼顾处理,设计思路是先将不同来源的数据格式统一转换为SATI处理的XML格式,抽取指定字段信息得出条目元素(即

词条,本文“词条(Term)”指语句元素的最小单元,可以是字、词或短语,包括关键词、主题词、文本预处理后的分词等受限词或自然词)的频次统计文档,再分析知识单元间的共现关系和频率分布,生成共现矩阵、分布矩阵和文档词条矩阵,继而实现对海量文献信息的定量分析和可视化呈现。

按此思路,我们首先对国内三大期刊全文数据库知网、万方和维普的题录数据格式进行细致的分析,找出了三大主流输出格式EndNote格式、NoteExpress格式和NoteFirst格式题录数据的字段信息特征;然后分别提取用于区别不同字段的标识符和词条的分隔符(如NoteExpress格式题录数据中,关键词字段的标识符是“{Keywords}:”,关键词之间的分隔符是“;”或“;;”,但不同数据库平台和期刊会稍有不同,需进行特殊处理),利用同样的方法再同时对WoS导出的HTML 格式题录进行特征分析,通过编程实现抽取不同字段信息,转换生成为SATI软件专用的XML 格式文件;在自动导入转换后的XML文件后,基于抽取出的相应字段信息,再利用频次统计算法得出词条频次统计文档;然后将频次降序排列表中相应数量的条目元素作为知识单元按照适当的算法模型构建出共现矩阵、分布矩阵和文档词条矩阵。设计思路如图2所示。

图2 SATI设计思路

为便于后期数据的进一步处理和可视化呈现的需要,软件可同时生成Excel格式矩阵和.txt文本格式全矩阵。只要将共现矩阵文档导入相应的数据分析软件(如Ucinet、SPSS等),即可构建出知识单元聚类图、多维尺度分析图、共现关系网络知识图谱和战略坐标图等。

功能实现

目前软件主要实现了以下四大功能:

1.题录格式转换:支持输入WoS数据库平台导出的HTML格式、国内期刊全文数据库导

出的EndNote格式、NoteExpress格式和NoteFirst格式题录数据。对英文题录关键词、主题词、标题和摘要字段进行文本预处理(Tokenization, Stop Words & Stemming )操作,中文题录标题、摘要进行中文分词和停用词处理后,将其自动转化为XML格式SATI专用数据文件,以为后期题录数据的存储、交换和分析提供便利。SATI专用数据文件(XML格式)采用简洁的三层树状结构,实例如图2所示。用户可将期刊全文数据库导出的题录文件导入SATI自动生成XML格式专用文件,或根据实际需要将相关数据文件自行转换为SATI处理所需格式。

图3 SATI自动转换生成的专用数据格式实例

2.字段信息抽取: 在“Options”面板可以选择抽取标题、作者、第一作者、文献来源、出版

年、关键词、主题词、摘要、机构、地址、文献类型、引文、语种、DOI和URL等字段信息,并可保存为.txt文本文件。还可利用“Refine”面板按照出版年和文献来源进行数据集合的限定,并在此基础之上进行下一步的统计分析。

3.词条频次统计: 根据抽取到的字段信息对条目元素(包括:关键词、主题词、作者、引

文、机构、发表年、期刊、文献类型等)的频次进行统计和降序排列,同样可以按照时间和期刊对数据进行限定,生成相应频次统计文档,并可保存为.txt文本文件。

4.知识矩阵构建: 软件可生成三类共八种矩阵。

o词条共现矩阵。可自行设定共现矩阵输出行列数,将频次降序排列表中的相应数量条目元素作为知识单元进行运算,以构建知识单元共现关系矩阵(分相似矩阵、相异矩阵、

多值矩阵和二值矩阵四种,包括关键词共现矩阵、主题词共现矩阵、引文共现矩阵、作者共现矩阵和机构共现矩阵等);其中,为消除多值共现矩阵中频次悬殊对统计结果造成的影响,软件采用Equivalence系数(公式一所示)将多值矩阵转化为[0,1]区间取值的相似矩阵,在此基础之上再生成二值矩阵和相异矩阵。相似矩阵中的数字代表矩阵元素间的相似性,数值越大关联程度越强。又因相似矩阵中的0值过多,统计时容易造成误差过大,软件在此基础之上自动生成相异矩阵,即相似矩阵值与-1的和为相异矩阵元素的值。

o频率分布矩阵。可自行设定条目元素(词条)数,生成词条的逐年分布矩阵(分频次矩阵和频率矩阵两种)。分布矩阵的行与词条元素对应,列与发表年相对应。其中,频次矩阵元素值为词条在某年出现的频次,频率矩阵元素的值(公式二所示)为词条在某年的频次与当年所有词条频次总和的商);

o文档词条矩阵(Document-Term Matrix):依据文本预处理结果,生成文档——词条矩阵(分多值矩阵和二值矩阵两种,包括文档——标题词矩阵、文档——关键词矩阵、文档——主题词矩阵和文档——摘要词矩阵)。多值矩阵元素的值为词条在文档中出现的频次,二值矩阵元素的值为其布尔值。文档词条矩阵的行与文档ID相对应,列与词条相对应,文档词条矩阵可用于文本向量的构建,利用向量空间模型(VSM)做进一步数据挖掘。

待生成Excel格式和.txt文本格式的知识矩阵数据后,可将相应矩阵文档导入数据分析软件(如SPSS、Ucinet、Netdraw等)以生成各种基本图表、聚类图、多维尺度分析图、共现网络知识图谱等。

相关文档