当前位置：文档库 › 社会网络中心性度量

社会网络中心性度量

“中心性”是社会网络研究的重点，个人或者组织在社会网络中具有什么样子的权力，或者说居于什么样子的中心地位，对于信息在整个网络中如何传播，以及传播效果都有十分重要的意义。

社会网络中心性分析的三种方法：

在社会网络“中心性”的描述中，有两种重要的度量方法：中心度与中心势。

中心度指的是一个节点在网络中处于核心地位的程度，

中心势则描述整个图的紧密程序或一致性，也就是一个图的中心度。

而社会网络的中心性又可分为三种：点度中心性，中间中心性，接近中心性。其中每一种中心性都有中心度和中心势两种指数描述。

1.点度中心性（Point centrality）。

点度中心度：在社会网络中，一个行动者与其他很多行动者有直接联系，该行动者就处在中心地位。即朋友越多，越显示出来节点的重要性。可以节点的入度（度）

表示点度中心度。

点度中心势：考察一个图而不是一个点。表示一个图的一致性或总体整合度。

2.中间中心性（between centrality）

如果一个行动者处在许多交往网络的路径上，可以认为此人处于重要地位，因为该人具有控制他人交往的能力，其他人的交往需要通过该人才能进行。因而中

心度测量的是行动者对资源信息的控制程度。如果一个点处在其他点的交通路径上，则该点的中间中心度就越高。

3.接近中心性（整体中心性）（closeness centrality）.

接近中心度：考察一个点传播信息时不靠其它节点的程度。当行动者越是离其他人接近，则在传播信息的过程中越是不依赖其他人。因为一个非核心成员必须

通过其它人才能传播信息，容易受制于其它节点。因而，如果一个节点与网络中其

它各点的距离都很短，则该点事整体重心点。

此外还有特征向量中心性（eigenvector centrality）: 把与特定行动者相连结的其他

行动者（节点）的中心性考虑进来进而度量一个行动者（节点）的中心性指标。例

如。一个节点A其三个朋友都有很多连结对象，另一个及节点B其三个朋友没有什

么连结的对象，二者相比，A的特征向量中心性较高。

实际选择中心性的测量方法时要根据具体的研究背景：

关注交往活动（通讯活动），采用以度数为基础的测度。

如果研究对交往或对信息的控制：可以利用中间中心度。

如果研究信息传播的独立性和有效性：可以利用接近中心性。

Dij 表示i与j之间的短线距离。

Source：基于社会网络中心性分析的微博信息传播研究_以Sina微博为例.pdf 基于社会网络中心性分析的虚拟团队知识共享促进策略.pdf

企业社会责任评价指标研究

企业社会责任评价指标研究 ① 郭京福　张　欣　王　可 (大连民族学院经济管理学院,辽宁大连　116605) 摘　要:企业社会责任是指企业在追求自身利益发展的同时应当承担的社会义务,是一种道德责任。分析了企业社会责任的内涵和国内外研究现状,阐述了评价企业社会责任指标体系的原则,探讨了完善评价第二产业企业社会责任的评估指标体系,使社会责任评价更符合实际,更具有效性。关键词:企业社会责任;评价指标;商业道德中图分类号:F270 文献标识码:A 文章编号:1009-315X (2007)06-0027-03 一、企业社会责任上世纪中期,Bowen [1] 出版论著《企业家的社会责任》,从此开始了企业社会责任(C orporate S o 2cial Responsibility ,CSR )的探讨和研究,有关的研究不断深入,产生了许多相关概念、方法和理论观点。Friedman ,M.是20世纪经济自由主义的代表人物,在上世纪70年代就提出:“企业的唯一责任就是追求盈利”[2]。Carroll [3] 对企业社会责任的实践内容进行了归纳和总结,在其关于“组织社会行为模型”的论述中把社会责任归纳到伦理责任之中。Frederick [4] 分别从哲学的角度、社会责任的管理行为以及伦理和社会价值的角度对企业社会责任的概念进行了分析和研究。E lisabet [5] 等对有关企业社会责任的研究进行归纳总结,提出了四种论断,即工具论、政治论、整合观和伦理观,还提出了企业社会责任的六项关键因素,包括良好的企业利益相关者管理及社会责任在企业各部门的活动中与公司政策的融合等。企业社会责任实质上是一种道德责任,没有明确的责任范围,也不具有强制性,是企业除经济责任、法律责任之外的“第三种责任”,其本质特征在于它的“内生性”,而非任何外在压力推促下的企业义务。目前,学界公认的企业社会责任有六项内容:股东、雇员、消费者、政府、社区和环境。随着市场经济的发展,企业与股东的关系渐渐演变为企业与社会的关系,企业对股东的责任也具有了社会性;企业与员工之间既有劳动和雇佣关系,也有相互尊重、信任以及企业对雇员的发展和成长负有一定的责任;企业对消费者的责任集中体现在对消费者权益的维护,特别是产品及服务质量的保证,消费者自由选择的权利和听证的权利保证;企业对政府的责任表现为“合法经营、照章纳税”,这是企业作为“社会公民”应尽的最基本的社会责任。此外,企业还应支持政府的社会公益活动、福利慈善事业、社会服务等;企业与社区之间是一种相互交叉的你中有我,我中有你的关系,建立和谐的企业与社区关系对企业的生存发展和社区的文明繁荣具有重要意义;企业与自然环境的关系如同鱼水关系,环境保护成为人类面临的迫切而严峻的问题。二、企业社会责任评价指标设计原则传统的自由主义经济学观点认为,企业唯一的社会责任是为股东创造利润,企业应该是为股东实现利润的经济实体。企业社会责任支持者对该观点提出了批评,最有代表性的、目前影响最大的是利益相关者(Stakeholders )理论,这种理论认为企业除了股东(shareholder )以外,还有很多很重要的其他利益相关者,利益相关者们的利益是同企业的利益相关的,所以企业应关注这些利益会更有利于实现企业的利润最大化目标。但是,资本不过是企业投资元素的一部分,除资本以外,企 ? 72?①收稿日期:2007-07-10. 作者简介:郭京福(1965— ),男,山东平阴人,大连民族学院经济管理学院教授,博士.研究方向:信息化与企业管理变革. 2007年第6期(总第41期)郭京福,等:企业社会责任评价指标研究 11月15日出版

基于数据挖掘的符号序列聚类相似度量模型

—178 — 基于数据挖掘的符号序列聚类相似度量模型郑宏珍，初佃辉，战德臣，徐晓飞 (哈尔滨工业大学智能计算中心，264209) 摘要：为了从消费者偏好序列中发现市场细分结构，采用数据挖掘领域中的符号序列聚类方法，提出一种符号序列聚类的研究方法和框架，给出RSM 相似性度量模型。调整RSM 模型参数，使得RSM 可以变为与编辑距离、海明距离等价的相似性度量。通过RSM 与其他序列相似性度量的比较，表明RSM 具有更强的表达相似性概念的能力。由于RSM 能够表达不同的相似性概念，从而使之能适用于不同的应用环境，并在其基础上提出自组织特征映射退火符号聚类模型，使得从消费者偏好进行市场细分结构研究的研究途径在实际应用中得以实现。关键词：符号序列聚类；数据挖掘；相似性模型 Symbolic Sequence Clustering Regular Similarity Model Based on Data Mining ZHENG Hong-zhen, CHU Dian-hui, ZHAN De-chen, XU Xiao-fei (Intelligent Computing Center, Harbin Institute of Technology, Harbin 264209) 【Abstract 】From a consumer point of the sequence of preference, data mining is used in the field of symbolic sequence clustering methods to detect market segmentation structure. This paper proposes a symbolic sequence clustering methodology and framework, gives the similarity metric RSM model. By adjusting RSM model, parameters can be changed into RSM and edit distance, Hamming distance equivalent to the similarity metric. RSM is compared with other sequence similarity metric, and is more similar to the expression of the concept of capacity. As to express different similarity, the concept of RSM can be applied to different applications environment. Based on the SOM annealing symbol clustering model, the consumer preference for market segmentation can be studied in the structure, which means it is realized in practical application. 【Key words 】symbolic sequence clustering; data mining; similarity model 计算机工程Computer Engineering 第35卷第1期 V ol.35 No.1 2009年1月 January 2009 ·人工智能及识别技术·文章编号：1000—3428(2009)01—0178—02文献标识码：A 中图分类号：TP391 1 概述在经济全球化的环境下，面对瞬息万变的市场和技术发展，企业要想在国内外市场竞争中立于不败之地，必须对客户和市场需求做出快速响应。目前，通过市场调研公司或企业自身的信息系统，收集来自市场和消费者的数据相对容易，而如何理解数据反映的市场细分结构和需求规律却是相当困难的。为解决这一问题，许多研究者选择消费者的职业、收入、年龄、性别等特征数据作为细分变量，利用统计学传统聚类方法得到市场细分结构[1-2]。在实际应用中，不同的细分变量会导致不同的市场细分结果[3]。为此，本文从用户偏好序列数据对市场进行细分。通过对符号序列数据相似性的研究，给出一个可形式化的RSM 相似性度量模型和算法概要。该度量模型考虑了2对象之间相似与相异2个方面的因素，通过参数的调整，可以根据问题的具体性质表达不同的相似性概念。并在此基础上，将在数值型数据领域表现良好的SOM 神经网络引入到符号序列数据的聚类问题上，给特征符号序列的机器自动识别提供了可能性。 2 符号序列聚类问题序列聚类问题作为发现知识的一种重要的探索性技术，受到数据挖掘与知识发现研究领域的极大重视。企业决策者在进行市场和产品相关战略时，迫切需要某些技术手段来理解序列数据，这也正是本文研究的序列聚类问题的工程背景。下面给出符号序列的相关定义。定义1 设12{,,,}n A a a a ="为有限符号表，A 中的l 个符号12,,,l a a a "构成的有序集称为符号序列，记为s = 12{,,,}l a a a "，并称l 是s 的长度，记为s 。A 上所有有限长度符号序列集合记为A *。例如：符号表{a , b , c , d , e , f , g }，则, 是符号序列。定义2 设12{,,,,,}t n P S S S S =""，S t 是A *上的某个符号序列。符号序列聚类是指寻找P 上的划分P 1, P 2,…, P k ，使属于同一划分的符号序列间的相似性尽量大，而属于不同划分的符号序列间相似性尽量小。 3 符号序列的正则相似度量模型相似性度量往往与问题的应用背景具有紧密联系，并影响符号序列聚类结果。为此建立符号序列形式化的相似性度量模型，并在此基础上研究符号序列的聚类问题。 3.1 正则相似度量模型下面给出形式化的相似度量模型——正则相似度量模型基金项目：国家“863”计划基金资助项目“CIMS 模型驱动的智能化软构件与软件生成技术”(2006AA01Z167) 作者简介：郑宏珍(1967－)，女，副教授，主研方向：数据挖掘，智能计算；初佃辉，副教授、硕士；战德臣、徐晓飞，教授、博士收稿日期：2008-06-24 E-mail ：hithongzhen@https://www.wendangku.net/doc/d610727542.html,

相似性和相异性的度量

相似性和相异性的度量相似性和相异性是重要的概念，因为它们被许多数据挖掘技术所使用，如聚类、最近邻分类和异常检测等。在许多情况下，一旦计算出相似性或相异性，就不再需要原始数据了。这种方法可以看作将数据变换到相似性（相异性）空间，然后进行分析。首先，我们讨论基本要素--相似性和相异性的高层定义，并讨论它们之间的联系。为方便起见，我们使用术语邻近度（proximity）表示相似性或相异性。由于两个对象之间的邻近度是两个对象对应属性之间的邻近度的函数，因此我们首先介绍如何度量仅包含一个简单属性的对象之间的邻近度，然后考虑具有多个属性的对象的邻近度度量。这包括相关和欧几里得距离度量，以及Jaccard和余弦相似性度量。前二者适用于时间序列这样的稠密数据或二维点，后二者适用于像文档这样的稀疏数据。接下来，我们考虑与邻近度度量相关的若干重要问题。本节最后简略讨论如何选择正确的邻近度度量。 1)基础 1. 定义两个对象之间的相似度（similarity）的非正式定义是这两个对象相似程度的数值度量。因而，两个对象越相似，它们的相似度就越高。通常，相似度是非负的，并常常在0（不相似）和1（完全相似）之间取值。两个对象之间的相异度（dissimilarity）是这两个对象差异程度的数值度量。对象越类似，它们的相异度就越低。通常，术语距离（distance）用作相异度的同义词，正如我们将介绍的，距离常常用来表示特定类型的相异度。有时，相异度在区间[0, 1]中取值，但是相异度在0和之间取值也很常见。 2. 变换通常使用变换把相似度转换成相异度或相反，或者把邻近度变换到一个特定区间，如[0, 1]。例如，我们可能有相似度，其值域从1到10，但是我们打算使用的特定算法或软件包只能处理相异度，或只能处理[0, 1]区间的相似度。之所以在这里讨论这些问题，是因为在稍后讨论邻近度时，我们将使用这种变换。此外，这些问题相对独立于特定的邻近度度量。通常，邻近度度量（特别是相似度）被定义为或变换到区间[0, 1]中的值。这样做的动机是使用一种适当的尺度，由邻近度的值表明两个对象之间的相似（或相异）程度。这种变换通常是比较直截了当的。例如，如果对象之间的相似度在1（一点也不相似）和10（完全相似）之间变化，则我们可以使用如下变换将它变换到[0, 1]区间：s' = (s-1)/9，其中s和s'分别是相似度的原值和新值。一般来说，相似度到[0, 1]区间的变换由如下表达式给出：s'=(s-min_s) / (max_s - min_s)，其中max_s和min_s分别是相似度的最大

相似度测度总结汇总

1 相似度文献总结相似度有两种基本类别：（1）客观相似度，即对象之间的相似度是对象的多维特征之间的某种函数关系，比如对象之间的欧氏距离；（2）主观相似度，即相似度是人对研究对象的认知关系，换句话说，相似度是主观认知的结果，它取决于人及其所处的环境，主观相似度符合人眼视觉需求，带有一定的模糊性[13]。 1.1 客观相似度客观相似度可分为距离测度、相似测度、匹配测度。它们都是衡量两对象客观上的相近程度。客观相似度满足下面的公理，假设对象 A 与B 的相似度判别为(,)A B δ，有: (1) 自相似度是一个常量：所有对象的自相似度是一个常数，通常为 1，即 (,)(,)1A A B B δδ== (2) 极大性：所有对象的自相似度均大于它与其他对象间的相似度，即 (,)(,)(,)(,)A B A A A B B B δδδδ≤≤和。 (3) 对称性：两个对象间的相似度是对称的，即(,)(,)A B B A δδ=。 (4) 唯一性：(,)1A B δ=，当且仅当A B =。 1.1.1 距离测度这类测度以两个矢量矢端的距离为基础，因此距离测度值是两矢量各相应分量之差的函数。设{}{}'' 1212,,,,,,,n n x x x x y y y y == 表示两个矢量，计算二者之间距离测度的具体方式有多种，最常用的有： 1.1.1.1 欧氏距离：Euclidean Distance-based Similarity 最初用于计算欧几里德空间中两个点的距离，假设 x ，y 是 n 维空间的两个点，它们之间的欧几里德距离是： 1/221(,)()n i i i d x y x y x y =??=-=-????∑（1.1）

社会网络中心性度量

社会网络中心性度量 “中心性”是社会网络研究的重点，个人或者组织在社会网络中具有什么样子的权力，或者说居于什么样子的中心地位，对于信息在整个网络中如何传播，以及传播效果都有十分重要的意义。社会网络中心性分析的三种方法：在社会网络“中心性”的描述中，有两种重要的度量方法：中心度与中心势。中心度指的是一个节点在网络中处于核心地位的程度，中心势则描述整个图的紧密程序或一致性，也就是一个图的中心度。而社会网络的中心性又可分为三种：点度中心性，中间中心性，接近中心性。其中每一种中心性都有中心度和中心势两种指数描述。点度中心性中间中心性接近中心性中心度点度中心度中间中心度接近中心度绝对中心度标准化中心度绝对中心度标准化中心度 1.点度中心性（Point centrality）。点度中心度：在社会网络中，一个行动者与其他很多行动者有直接联系，该行动者就处在中心地位。即朋友越多，越显示出来节点的重要性。可以节点的入度（度）表示点度中心度。点度中心势：考察一个图而不是一个点。

表示一个图的一致性或总体整合度。 2.中间中心性（between centrality）如果一个行动者处在许多交往网络的路径上，可以认为此人处于重要地位，因为该人具有控制他人交往的能力，其他人的交往需要通过该人才能进行。因而中心度测量的是行动者对资源信息的控制程度。如果一个点处在其他点的交通路径上，则该点的中间中心度就越高。 3.接近中心性（整体中心性）（closeness centrality）.接近中心度：考察一个点传播信息时不靠其它节点的程度。当行动者越是离其他人接近，则在传播信息的过程中越是不依赖其他人。因为一个非核心成员必须通过其它人才能传播信息，容易受制于其它节点。因而，如果一个节点与网络中其它各点的距离都很短，则该点事整体重心点。此外还有特征向量中心性（eigenvectorcentrality）：把与特定行动者相连结的其他行动者（节点）的中心性考虑进来进而度量一个行动者（节点）的中心性指标。例如。一个节点A其三个朋友都有很多连结对象，另一个及节点B其三个朋友没有什么连结的对象，二者相比，A的特征向量中心性较高。图的中间中心势图的接近中心势图的点度中心势实际选择中心性的测量方法时要根据具体的研究背景：关注交往活动（通讯活动），采用以度数为基础的测度。如果研究对交往或对信息的控制：

社会网络分析方法(总结)

社会网络分析方法 SNA分析软件 ●第一类为自由可视化SNA 软件，共有Agna 等9 种软件，位于图1 的右上角，这类软件可以自由下载使用，成本低，但一般这类软件的一个共同缺点是缺乏相应的如在线帮助等技术支持； ●第二类为商业可视化SNA 软件，如InFlow 等3种，这类软件大都有良好的技术支持；（3）第三类为可视化SNA 软件，如KliqFinder 等4 种，这类软件一般都是商业软件，但他们都有可以通过下载试用版的软件，来使用其中的绝大部分功能 ●第四类为自由非可视化SNA 软件，如FATCAT 等7 种，这类软件的特点是免费使用，但对SNA 的分析结果以数据表等形式输出，不具有可视化分析结果的功能； ●第五类为商业非可视化SNA 软件，只有GRADAP 一种，该软件以图表分析为主，不具有可视化的功能。在23 种SNA 软件中，有16 种SNA 软件，即近70%的SNA 软件，具有可视化功能。 SNA分析方法使用SNA 软件进行社会网络分析时，一般需要按准备数据、数据处理和数据分析三个步骤进行。尽管因不同的SNA 软件的具体操作不同，但这三个步骤基本是一致的。 1.准备数据，建立关系矩阵准备数据是指将使用问卷或其他调查方法，或直接从网络教学支撑平台自带的后台数据库中所获得的用于研究的关系数据，经过整理后按照规定格式形成关系矩阵，以备数据处理时使用。这个步骤也是SNA 分析的重要的基础性工作。SNA 中共有三种关系矩阵：邻接矩（AdjacencyMatrix）、发生阵（Incidence Matrix）和隶属关系矩阵（Affiliation Matrix）。邻接矩阵为正方阵，其行和列都代表完全相同的行动者，如果邻接矩阵的值为二值矩阵，则其中的“0”表示两个行动者之间没有关系，而“1”则表示两个行动者之间存在关系。然而我们

企业社会责任评价指标及考核办法

企业社会责任评价指标及考核办法 1、指标：是否使用童工考评标准：年龄未满16岁者为童工，企业不得使用童工。考评办法：未有使用童工情况，记为100分；发现有使用童工的情况，记为0分。考评结果：经核查用工档案，该公司所在员工年龄均为18周岁以上，未存在使用童工现象，并且在劳动合同上已经明确规定不得招用未满18周岁的未成年人，故此项考核为满分。 2、指标：未成年工占职工比例考评标准：年龄末满18岁者为未成年工，企业不得大量使用未成年工，不得安排到重体力岗位。考评办法：本项指标得分=（１－未成年人占职工比例）×100（分）。考评结果：经核查用工经核查用工档案，该公司所在员工年龄均为18周岁以上，故未成年工比例为零，故此项考核为满分。 3、指标：有无用工歧视考评标准：企业不得因种族、国籍、宗教等各种因素对员工在聘用、报酬、培训机会、升迁、解职或者退休等方面有歧视行为，也不得干涉员工在涉及种族、国籍、宗教、政治归属等方面的权利。考核办法：随机抽取企业在生产、经营、服务和管理岗位上工作的部分员工，进行问卷调查，本项指标得分＝问卷调查满意率×100（分）。考评结果：经核查企业员工档案，未存在用工歧视现象，故此项考核为满分。3、指标：女工权益保护考评标准：企业应当遵守劳动法、妇女权益保障法等法律法规的规定，实行男女同工同酬，在晋职、晋级、评定职称等方面坚持男女平等，并列女工实行特殊劳动保护。考核办法：随机抽取企业在生产、经营、服务和管理岗位上工作的部分员工，进行问卷调查，本项指标得分＝问卷调查满意率×100（分）。

考评结果：经核查用工档案，工资标准，晋级标准等资料，该公司十分重视女工的权益保护，并签订了女职工特殊权益保护专项集体合同，故结项考核为满分。 4、指标：签订劳动动合同考评标准：企业必须与员工签订劳动合同，清楚标明企业员工的权利、职责、义务及下岗、解聘、处罚等规定。考核办法：本项指标得分＝劳动合同签订率×100（分）。考评结果：经核查用工档案，该公司均与员工签订了劳动合同，并且对工作时间，劳动报酬及社会保险、劳动纪律、劳动合同的解除和终止、经济补偿与赔偿均进行了明确规定，合同签订率为100%，故此项考核为满分。 5、指标：执行最低工资标准考评标准：以当地政府公布的最低月工资标准为准；市级政府未公布此标准的，以省级政府部门公布的标准为准。考核办法：本项指标得分＝（企业员工近12个月的人均月平均工资/最低月工资标准）×100（分）。本项指标最高得分100分，超过100分的按100分计。企业员工人均月平均工资，不包括部门经理以上的人员。没有执行最低工资标准的，记为0分。考核结果：经核查用工档案及员工工资发放情况，该公司员式在看家12个月人均月工资都已达到最低月工资标准，并且该公司在劳动合同中已经规定，支付劳动者的工资不得低于本地最低工作标准，故此项考核为满分。 6、指标：按时发放工资和津贴考评标准：企业应公布发放工资和津贴的具体日期，并认真遵守，节假日应提前发放，否则即为未能按时发放工资和津贴。考核办法：查验企业员工近12个月工资和津贴按时发放的情况，按时发放的，记为100分，有不按时发放工资和津贴行为的，记为0分。考评结果：经核查员工工资均按时发放，故此项考核为满分。 7、指标：重大安全事故发生率考评方法：本项指标得分=（1-第1个月重大安全事故发生率一第2个月重大安全事故发生率一第12个月重大安全事故发生率）×100（分）。获得省级、省级以上安全生产先进单位称号加1 0分。

数据挖掘期末

（一）概述为什么要数据挖掘（Data Mining）？存在可以广泛使用的大量数据，并且迫切需要将数据转转换成有用的信息和知识什么是数据挖掘？数据挖掘（Data Mining）是指从大量数据中提取或“挖掘”知识。对何种数据进行数据挖掘？关系数据库、数据仓库、事务数据库空间数据超文本和多媒体数据时间序列数据流数据（二）数据预处理为什么要预处理数据？为数据挖掘过程提供干净、准确、简洁的数据，提高数据挖掘的效率和准确性，是数据挖掘中非常重要的环节；数据库和数据仓库中的原始数据可能存在以下问题：定性数据需要数字化表示不完整含噪声度量单位不同维度高数据的描述度量数据的中心趋势：均值、加权均值、中位数、众数度量数据的离散程度：全距、四分位数、方差、标准差基本描述数据汇总的图形显示：直方图、散点图度量数据的中心趋势集中趋势：一组数据向其中心值靠拢的倾向和程度。集中趋势测度：寻找数据水平的代表值或中心值。常用的集中趋势的测度指标：均值：缺点：易受极端值的影响中位数：对于不对称的数据，数据中心的一个较好度量是中位数特点：对一组数据是唯一的。不受极端值的影响。众数：一组数据中出现次数最多的变量值。特点：不受极端值的影响。有的数据无众数或有多个众数。

度量数据的离散程度反映各变量值远离其中心值的程度（离散程度），从另一个侧面说明了集中趋势测度值的代表程度。常用指标：全距（极差）：全距也称极差，是一组数据的最大值与最小值之差。 R=最大值-最小值组距分组数据可根据最高组上限-最低组下限计算。受极端值的影响。四分位距 (Inter-Quartilenge, IQR)：等于上四分位数与下四分位数之差（q3-q1）反映了中间50%数据的离散程度，数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。四分位数：把顺序排列的一组数据分割为四（若干相等）部分的分割点的数值。分位数可以反映数据分布的相对位置（而不单单是中心位置）。在实际应用中四分位数的计算方法并不统一（数据量大时这些方法差别不大）。对原始数据： SPSS中四分位数的位置为(n+1)/4， 2(n+1)/4， 3 (n+1)/4。 Excel中四分位数的位置分别为(n+3)/4， 2(n+1)/4，（3 n+1)/4。如果四分位数的位置不是整数，则四分位数等于前后两个数的加权平均。方差和标准差：方差是一组数据中各数值与其均值离差平方的平均数，标准差是方差正的平方根。是反映定量数据离散程度的最常用的指标。基本描述数据汇总的图形显示直方图(Histogram)：使人们能够看出这个数据的大体分布或“形状” 散点图如何进行预处理定性数据的数字化表示：二值描述数据的数字化表示例如：性别的取值为“男”和“女”，男→1，女→0 多值描述数据的数字化表示例如：信誉度为“优”、“良”、“中”、“差” 第一种表示方法：优→1，良→2，中→3，差→4 第二种表示方法：

社会网络中心性度量

“中心性”是社会网络研究的重点，个人或者组织在社会网络中具有什么样子的权力，或者说居于什么样子的中心地位，对于信息在整个网络中如何传播，以及传播效果都有十分重要的意义。社会网络中心性分析的三种方法：在社会网络“中心性”的描述中，有两种重要的度量方法：中心度与中心势。中心度指的是一个节点在网络中处于核心地位的程度，中心势则描述整个图的紧密程序或一致性，也就是一个图的中心度。而社会网络的中心性又可分为三种：点度中心性，中间中心性，接近中心性。其中每一种中心性都有中心度和中心势两种指数描述。 1.点度中心性（Point centrality）。点度中心度：在社会网络中，一个行动者与其他很多行动者有直接联系，该行动者就处在中心地位。即朋友越多，越显示出来节点的重要性。可以节点的入度（度）表示点度中心度。点度中心势：考察一个图而不是一个点。表示一个图的一致性或总体整合度。 2.中间中心性（between centrality）如果一个行动者处在许多交往网络的路径上，可以认为此人处于重要地位，

因为该人具有控制他人交往的能力，其他人的交往需要通过该人才能进行。因而中心度测量的是行动者对资源信息的控制程度。如果一个点处在其他点的交通路径上，则该点的中间中心度就越高。 3.接近中心性（整体中心性）（closeness centrality）. 接近中心度：考察一个点传播信息时不靠其它节点的程度。当行动者越是离其他人接近，则在传播信息的过程中越是不依赖其他人。因为一个非核心成员必须通过其它人才能传播信息，容易受制于其它节点。因而，如果一个节点与网络中其它各点的距离都很短，则该点事整体重心点。此外还有特征向量中心性（eigenvector centrality）: 把与特定行动者相连结的其他行动者（节点）的中心性考虑进来进而度量一个行动者（节点）的中心性指标。例如。一个节点A其三个朋友都有很多连结对象，另一个及节点B其三个朋友没有什么连结的对象，二者相比，A的特征向量中心性较高。实际选择中心性的测量方法时要根据具体的研究背景：关注交往活动（通讯活动），采用以度数为基础的测度。如果研究对交往或对信息的控制：可以利用中间中心度。如果研究信息传播的独立性和有效性：可以利用接近中心性。 Dij 表示i与j之间的短线距离。 Source：基于社会网络中心性分析的微博信息传播研究_以Sina微博为例.pdf 基于社会网络中心性分析的虚拟团队知识共享促进策略.pdf

社会网络分析报告的应用

7、社会网络分析的应用一、国外的应用社会网络分析萌芽于20世纪30年代，形成于60年代，从1980年以后，关于社会网络分析的论文显著增长。国外的应用研究主要集中在社会科学、家庭关系、交通运输、健康和医疗以及传染病传播机制等方面。在情报学领域，国外的研究主要集中在两个方面:合著网络的研究和引文网络的研究。 (一)合著网络研究 1.Liuxiaoming，BollenJohan等人利用ACM和IEEE的数字图书馆会议文献建立了作者合著网络，利用中心性分指标析该合著网络，研究表明了PageRank和AuthorRank在合著网络研究中的重要性和优势。 2.M.E.J.Newman利用社会网络分析法对物理学、生物学和计算机科学三种学科的作者建立起了论文合著网络，分析了不同学科作者合著网络类型的区别和特点。 3.Logan和Pao则致力于研究如何使用社会网络分析法寻找出某一个领域的最核心作者。 (二)引文网络研究主要应用于信息资源研究中，对文献之间的引用、共引的研究。 1.HENRY KREUZMAN进行了哲学学科62位代表作者的引文网络研究，揭示了哲学科学和认知论之间的联系。 2.HowardD.white专门探讨了社会网络结构和引文网络之间的在联

系。 3.学者们提出了二值矩阵和赋值矩阵，还构建同被引网络的研究方法，用来分析同被引情况。二、.国的应用国的社会网络分析己被运用到合著和引文网络研究、竞争情报、知识管理、网络信息资源评价以及图书馆资源配置等众多领域。（一）合著网络研究 1.亮，朱庆华等选取《情报学报》1998一2005年之间的合著者为研究对象，对合著网络进行中心性分析、凝聚子群分析和核心--边缘分析的实证研究。 2.蓓，袁毅等选取中国期刊网里情报学、情报工作栏目下的所有作者为研究对象，进行社会网络分析，并做了团队合作的时序变化研究。 3.鲍，朱庆华等选取了CSSCI数据库里近十年以来的全部情报学领域的论文进行社会网络分析研究，在合著网络分析中，对“小团体”的形成机制进行了研究。 (二)引文网络研究社会网络引文分析方法与引文分析家所使用的方法是一致的并扩展了它的研究方法，主要分为作者引文研究和期刊引文研究。 1.徐媛媛，朱庆华以参考咨询领域的32名高被引作者为研究对象，运用社会网络分析法从密度、中心度和凝聚子群方面进行研究。 2.邱均平教授对编辑出版类期刊进行引文网络分析，结果说明期刊同被引方法应用于确定核心期刊是有效的。他在后来对图书馆学情报学

社会指标体系

第一节社会指标概述一、社会指标的基本涵义对于究竟什么是社会指标，人们的看法不尽一致。最早使用这一概念的鲍尔和比德曼等人在《社会指标》一书中指出：社会指标是一种“量的数据，用来作为具有普遍社会意义的社会状况的指数”。大体上，社会指标是指反映一定社会过程之数量与质量特征的工具，它便于人们对社会主要方面的状况作出简明的、综合的和公平的判断。二、社会指标的特点社会指标具有如下特点：(1)具体性，即社会指标在再现社会现象、社会规律时，必须十分明确地落到实处；(2)定量性，即社会指标将复杂的社会现象变成了可以量度的数据；(3)易于解释性，即社会指标在反映社会现象时，注重于解释和说明，让人一目了然；(4)时间性，指社会指标所提供的数据只是反映特定时期，甚至是某个时间的情况；(5)综合性，即社会指标一般是反映社会的或社会某一方面的总体特征，而不是个体的特征； (6)理论与实际的结合性，即，一方面，社会指标往往是人们根据某种理论设计出来的，另一方面，指标又是对社会现象的最直接的反应三、社会指标运动兴起的基本背景自从1966年美国社会学家鲍尔编辑出版《社会指标》一书以来，社会指标迅速成为一个非常重要的社会学概念。并且，在 60年代中期到70年代，世界范围内掀起了一场“社会指标运动”，大量有关社会指标的著作纷纷出版。 “社会指标运动”的兴起主要有两个方面的原因：(1)随着现代社会的发展，人们普遍认识到仅仅用经济指标并不能反映社会的真实情况，仅仅制定经济发展计划也远远不能满足人们日益广泛的社会需求，所以，必须关注对非经济现象的测量，并制定相应的社会发展计划；(2)在现代社会中，社会的政策、决策以及发展计划所起的作用越来越大，人们普遍要求对之进行比较准确的判断或预测，而以往的统计指标并不能满足这一要求，因此，社会指标应运而生，并迅速产生重要影响。第二节社会指标的类型与功能一、社会指标的类型依据不同的标准和根据不同的研究目的，人们通常将社会指标区分为不同的类型。比较重要的有以下几种区分： (一)描述性指标与评价性指标描述性指标是对社会现象的客观描述；评价性指标则能反映出社会发展、社会效果、社会影响在某方面的利弊得失。 (二)观察性指标与计划性指标观察性指标是对现状的描述或评价；计划性指标是对未来状况的预测。 (三)投入指标、生产量指标与产出指标产量指标通常指工作量或承担的次数；产出指标主要是用来评价

零售企业社会责任评价指标体系研究_以苏宁电器为例

于企业社会责任的理解远远没有西方学者成熟，但目前已做了大量研究，并形成了各种不同的观点。王明洋 [ 4 ] 最早将企业社会责任定义为：企业为了所在社会全面且长远的利益必须关心并全力履行的义务，表现为对社会的适应以及发展的参与。周祖城 [ 5 ] 认为：企业社会责任是指企业应该承担的，以利益相关者为对象的，包含经济责任、法律责任和道德责任在内的一种综合责任。高勇强 [ 6 ] 认为，要对企业社会责任的定义达成一致是很困难的事，企业社会责任可以比作一个连续的光谱，光谱的一端是股东利益最大化，是最低的社会责任；光谱的另一端是社会利益最大化，代表最高的社会责任；光谱的中间是股东与其利益相关者之间利益的均衡，是接近现实的社会责任观点。从企业社会责任的定义来看，所包含的实质内容并无本质差别，仅是研究出发点有所不同，有狭义和广义之分，有同级观和层级观之分，而本文展开的研究是基于广义的企业社会责任，从利益相关者的角度阐述零售企业的社会责任，并建立与其相关的社会责任评价指标体系。 2. 国内外主要的社会责任评价体系 DOI:10.14089/https://www.wendangku.net/doc/d610727542.html,11-3664/f.2015.01.010 一、问题的提出文章编号：1007-8266（2015）01-0068-09 文献标识码：A 中图分类号：F 279.23 摘要：企业核心竞争力不仅取决于其所获得的利润，品牌形象、社会责任等软实力也成为决定企业发展的重要影响因素。零售企业社会责任包括经济责任、法律责任、环境责任、伦理责任、慈善责任五个基本方面，它们同时交叉存在于零售企业的经营活动当中。零售企业社会责任评价，以具体的利益相关者为维度，可将其对投资者、员工、消费者、供应商、政府、环境、社区和公众的责任细化为 21 个具体指标。关键词：零售企业；社会责任；利益相关者；评价指标（1.中央财经大学信息学院，北京市 100081；2.北京工商大学商学院，北京市 100048）波 2 黄益方 1 ，孙永零售企业社会责任评价指标体系研究 ——以苏宁电器为例

企业社会责任评价指标体系研究

企业社会责任评价指标体系研究摘要：文章评析了企业社会责任评价的研究现状，并提出企业社会责任指标体系设计的原则与方法，构建了三级指标体系的企业社会责任评价模型。关键词：企业社会责任评价指标体系与权重一、引言与文献回顾企业社会责任（csr）是近年来企业理论研究的热点，而如何选择评价指标，如何形成指标体系，如何运用指标进行评价等问题也成为csr的核心问题。对此国内外许多专家学者都提出了自己的观点。（一）国外企业社会责任评价的研究国外企业社会责任的评价研究开始于csr的制度化或组织化、社会化阶段以及企业社会责任的标准化、系统化阶段，来源于一些非政府的民间组织和协会。 1.在csr的制度化或组织化、社会化阶段，对csr的内容有了进一步的拓展和明确。在这个阶段，社会责任商业联合会（bsr）、欧洲委员会和世界银行都提出了csr内容、与利益相关者的互动等方面。在这个过程中，企业社会责任逐步走上制度化的发展轨道。一些国际组织的csr倡议和活动，呼吁和敦促跨国公司带头履行企业社会责任。2003年，世界经济论坛提出企业公民的社会责任包括四个方面。一是好的公司治理标准，二是对人的责任，三是对环境的责任，四是对社会发展的广义贡献。还有一些主要集中在欧美等发

达国家的两种民间组织的倡议和活动，以改变跨国公司利益形成机制。 2.在企业社会责任的标准化、系统化阶段，csr的评价通过各种认证体现。在这个阶段，出现了社会责任sa8000、全球报告倡议、iso14001、sigma、赤道原则和aa1000等几个为社会各界认可的评价体系。 sa8000是全球首个道德规范国际标准，适用于世界各地，任何行业，不同规模的公司。sa8000标准的要求包括：童工；强迫性劳工；健康与安全；组织工会的自由与集体谈判的权利；歧视；惩戒性措施；工作时间；工资；管理体系。全球报告倡议组织（gri）的指导性框架旨在保证和帮助企业在ceres的原则之下生产更环保的产品。iso14001标准旨在帮助组织实现环境目标与经济目标的统一，支持环境保护和污染预防。可持续性管理整合指南（sigma）可适用于所有行业、各种规模的组织。它整合了可持续发展以及社会、环境和经济问题。赤道原则是参照国际金融公司（ｉｆｃ）的可持续发展政策与指南建立的一套自愿性金融行业基准，旨在判断、评估和管理项目融资中环境和社会风险，倡导金融机构对项目融资中的环境和社会问题尽到审慎性核查义务。（二）国内企业社会责任评价的研究 1.国内关于企业社会责任评价指标体系设计原则的研究。姜万军、杨东宁、周长辉认为指标选取主要考虑突出重点，以点带面，使所

数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。它用表组织数据，采用ER数据模型。相似：它们都为数据挖掘提供了源数据，都是数据的组合。 1.3 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。答：特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12% （支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。解答：先判定中位数区间：N=200+450+300+1500+700+44=3194；N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500； ∴ 20~50 对应中位数区间。

相似度的计算

一．相似度的计算简介关于相似度的计算，现有的几种基本方法都是基于向量（Vector）的，其实也就是计算两个向量的距离，距离越近相似度越大。在推荐的场景中，在用户 - 物品偏好的二维矩阵中，我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。下面我们详细介绍几种常用的相似度计算方法： ●皮尔逊相关系数（Pearson Correlation Coefficient）皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度，它的取值在 [-1，+1] 之间。 s x , s y 是 x 和 y 的样品标准偏差。类名：PearsonCorrelationSimilarity 原理：用来反映两个变量线性相关程度的统计量范围：[-1,1]，绝对值越大，说明相关性越强，负相关对于推荐的意义小。说明：1、不考虑重叠的数量；2、如果只有一项重叠，无法计算相似性（计算过程被除数有n-1）；3、如果重叠的值都相等，也无法计算相似性（标准差为0，做除数）。该相似度并不是最好的选择，也不是最坏的选择，只是因为其容易理解，在早期研究中经常被提起。使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的，并且数据至少在逻辑范畴内必须是等间距的数据。Mahout中，为皮尔森相关计算提供了一个扩展，通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。 ●欧几里德距离（Euclidean Distance）最初用于计算欧几里德空间中两个点的距离，假设 x，y 是 n 维空间的两个点，它们之间的欧几里德距离是：可以看出，当 n=2 时，欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度，一般采用以下公式进行转换：距离越小，相似度越大。