文档库 最新最全的文档下载
当前位置:文档库 › 实验报告13 谱系聚类

实验报告13 谱系聚类

实验报告13 谱系聚类
实验报告13 谱系聚类

实验十三 谱系聚类

实验目的和要求

掌握谱系聚类分析的理论与方法、模型的建立;掌握利用谱系聚类分析的SAS 过程解决有关实际问题.

实验要求:编写程序,结果分析. 实验内容:

要求:1题必做,2 和3题选其一 1.写出谱系聚类步骤,类间距离公式; 2.书上6.9和波士顿房价问题

为了了解波士顿地区的住房状况,Harrison 收集了1978年波士顿大区每个调查行政区的506各观察值。数据见Excel 表波士顿住房,其中:

1X :人均犯罪率;

2X :大块占地住宅区比例;

3X :非零售商业占地比例(英亩);

4X :查尔斯河虚拟变量(如果靠近河岸用1表示;否则用0表示); 5X :氮氧化物浓度;

6X :每户平均房间数;

7X :1940年前建造的户主所有房比例; 8X :与五个波士顿劳动力聚集区的加权距离; 9X :与辐射式公路接近指数; 10X :每1万美元的全值财产税; 11X :学生/教师比例;

12X :)63.0()63.0(10002<-B I B ,其中B 为非洲裔美国人比例;

13X :低社会地位人口的比例(%)

; 14X :户主拥有住房价值的中位数(单位:千美元);

(1) 对住房数据做谱系聚类分析,将506个地区分为4类,给出分类结果; (2) 用快速聚类法给出4类结果,问相同吗?你认为分几类合适,说出理由。 (3)

注意:类间距离可自由选择。

3.高等教育评价问题

高等教育是依赖高等院校进行的,高等教育的发展状况主要体现在高等院校的相 关方面。遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体如下图

图1 高等教育的十项评价指标

我国各地区普通高等教育发展状况指标的原始数据见表1,取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值见表6。其中:x1为每百万人口高等院校数;x2 为每十万人口高等院校毕业生数;x3为每十万人口高等院校招生数;x4为每十万人口高等院校在校生数;x5为每十万人口高等院校教职工数;x6为每十万人口高等院校专职教师数;x7为高级职称占专职教师的比例;x8为平均每所高等院校的在校生数;x9为国家财政预算内普通高教经费占国内生产总值的比重;x10 为生均教育经费。

表1 我国各地区普通高等教育发展状况数据

(1)做R型聚类分析

定性考察反映高等教育发展状况的五个方面十项评价指标,可以看出,某些指标之

间可能存在较强的相关性。为了验证这种想法,运用统计软件计算十个指标之间的相关系数,相关系数矩阵如表2:

按照类平均聚类法给出变量分为6类结果。

(2)Q型聚类

从上述6类指标中每类选一个指标,根据选定的6个指标对30个地区进行聚类分析。首先对每个变量的数据分别进行标准化处理,样本间相似性采用欧氏距离度量,类间距离的计算选用类平均法。并给出分为4类结果。

(3)对结果做解释。

1.

谱系聚类法的步骤:

1)n个样品开始时作为n个类,计算两两之间的距离,构成一个对称距离矩阵

()nn

n n d d d d D

21

2n 211n 120d 0d d 0=

此时pq d q p D =),(

2)选择()0D 中主对角线以下(或以上)最小元素,设为pq d ,这时}{p p x G =与}{q q x G =,将p G 与q G 合并为新类

}

,{q p R G G G =.在()0D 中消去p G 与q G 对应的行与列,加入新类r G 与剩下未聚合的类间距离所组成的一行和一列,

得新的1-n 阶距离矩阵)1(D .

3)重复步骤(2),得)1(D )1()2(-→→→n D D , n 个样品聚为一个大类.

4)记下合并样品的编号及两类合并时的距离(称为距离水平),绘制聚类谱系图. 类间距离及其递推公式:

类p G 与q G 间距离pq D .p G 和q G 合并得r G ,类间距离pq D 、类间距离递推公式有4种: 1)最短距离、递推公式

{

}q

p ij pq G j G i d D ∈∈=,min ——两类中样品之间距离最短者作为类间距离

{

}

}

,min{,min qk pk k r ij rk D D G j G i d D =∈∈=递推公式

2)最长距离、递推公式

{

}q

p ij pq G j G i d D ∈∈=,max ——两类中样品之间距离最长者

{

}k

r ij qk pk rk G j G i d D D D ∈∈==,max },max{

3)类平均距离、递推公式

∑∑∈∈=

p q

G i G j ij

q

p pq d

n n D 1

——两类中所有两两样品之间的距离的平均

qk

r

q pk r

p G i G j ij k

r rk D n n D n n d n n D r k

+

=

=

∑∑∈∈1递推公式

类平方距离

∑∑∈∈=

p q

G i G j ij

q

p pq d

n n D 221

——两类中所有两两样品之间的平方距离

递推公式

2

2

221qk

r

q pk r

p G i G j ij k

r rk D n n D n n d n n D r k

+

=

=

∑∑∈∈

4)重心距离、递推公式

)

,(q p pq x x d D =——两类的重心之间的距离作为两类间的距离

2

22

2

pq

r

q r p qk r

q pk r

p rk D n n n n D n n D n n D -

+

=递推公式

3.

data examp6_7;

input year $ x1-x6;

cards;

1985 128.1 100.0 134.2 100.0 166.8 111.1

1986 135.8 106.5 143.6 106.1 177.5 114.7

1987 145.7 114.3 156.2 112.7 198.8 120.2

1988 172.7 135.8 188.5 132.4 244.5 138.5

1989 203.4 160.2 219.2 157.9 281.2 164.4

1990 207.7 162.2 222.0 165.1 273.9 172.0

1991 213.7 170.8 233.3 168.9 268.4 177.2

1992 225.7 181.7 253.4 176.8 277.5 182.7

1993 254.9 208.4 294.2 201.0 314.7 204.3

1994 310.2 258.6 367.8 248.0 440.3 239.4

1995 356.1 302.8 429.6 291.4 527.9 274.6

1996 377.8 327.9 467.4 314.4 550.1 291.6

1997 380.8 337.1 481.9 322.3 525.3 294.8

1998 370.9 334.4 479.0 319.1 483.3 288.3

1999 359.8 329.7 472.8 314.3 424.3 280.5

2000 354.4 331.0 476.6 314.0 409.0 277.1

;

run;

proc cluster data=examp6_7 method=com nonorm outtree=tree2; var x1-x6;

id year;

run;

proc tree data=tree2 graphics horizontal out=out1 ncluster=3; id year;

proc print data=out1;

run;

(4)最长距离法聚类过程:

最长距离法聚类结果:

由上可知,分3类结果:

1类:1989、1990、1991、1992、1993;

2类:1999、2000、1996、1997、1998、1995、1994;

3类:1985、1986、1987、1988.

最长距离法聚类的谱系图:

(5)类平均距离法标准化过程:

proc cluster data=examp6_7 method=ave nonorm nosquare outtree=tree2; var x1 x2 x3 x4 x5 x6;

id year;

run;

proc tree data=tree2 graphics horizontal out=c2 ncluster=3;

id year;

run;

proc print data=c2;

run;

由上可知:基于标准化数据,分3类结果:

1类:1999、2000、1996、1997、1998、1995、1994;2类:1989、1990、1991、1992、1988、1993;

2类:1985、1986、1987;

类平均距离法标准化谱系图:

结论:标准化的与上面未标准化的聚类分析结果的区别:未标准化的第一类都变为标准化的第二类,未标准化的第二类变为标准化的第一类,第三类不变。

完整word版,SPSS聚类分析实验报告.docx

SPSS 聚类分析实验报告 一.实验目的: 1、理解聚类分析的相关理论与应用 2、熟悉运用聚类分析对经济、社会问题进行分析、 3、熟练 SPSS软件相关操作 4、熟悉实验报告的书写 二.实验要求: 1、生成新变量总消费支出=各变量之和 2、对变量食品支出和居住支出进行配对样本T 检验,并说明检验结果 3、对各省的总消费支出做出条形图(用EXCEL做图也行) 4、利用 K-Mean法把 31 省分成 3 类 5、对聚类分析结果进行解释说明 6、完成实验报告 三.实验方法与步骤 准备工作:把实验所用数据从 Word文档复制到 Excel ,并进一步导入到 SPSS数据文件中。 分析:由于本实验中要对 31 个个案进行分类,数量比较大,用系统聚类法当然也 可以得出结果,但是相比之下在数据量较大时, K 均值聚类法更快速高效,而且准确性更高。 四、实验结果与数据处理: 1.用系统聚类法对所有个案进行聚类:

生成新变量总消费支出 =各变量之和如图所示: 2.对变量食品支出和居住支出进行配对样本 T 检验,如图所示:

得出结论: 3.对各省的总消费支出做出条形图,如图所示: 4.对聚类分析结果进行解释说明: K均值分析将这样的城市分为三类: 第一类北京、上海、广东 第二类除第一类第三类以外的 第三类天津、福建、内蒙古、辽宁、山东 第一类经济发展水平高,各项支出占总支出比重高,人民生活水平高。第二类城市位于中西部地区,经济落后,人民消费水平低。第三类城市位于中东部地区,经济发展较好。

初始聚类中心 聚类 123 食品支出7776.983052.575790.72衣着支出1794.061205.891281.25居住支出2166.221245.001606.27家庭设备及服务支出1800.19612.59972.24医疗保健支出1005.54774.89617.36交通和通信支出4076.461340.902196.88文化与娱乐服务支出3363.251229.681786.00其它商品和服务支出1217.70331.14499.30总消费支出23200.409792.6614750.02 迭代历史记录a 聚类中心内的更改 迭代123 11250.5921698.8651216.114 2416.86470.786173.731 3138.955 2.94924.819 446.318.123 3.546 5849.114319.1791362.411 6805.00415.199606.915 7161.001.72475.864 832.200.0349.483 9 6.440.002 1.185 10 1.2887.815E-5.148

对数据进行聚类分析实验报告

对数据进行聚类分析实验报告 1.方法背景 聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中,主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析,然后很据分析结果进行综合评价,以便得出科学的结论。 2.基本要求 用FAMALE.TXT、MALE.TXT和/或test2.txt的数据作为本次实验使用的样本集,利用C均值和分级聚类方法对样本集进行聚类分析,对结果进行分析,从而加深对所学内容的理解和感性认识。 3.实验要求 (1)把FAMALE.TXT和MALE.TXT两个文件合并成一个,同时采用身高和体重数据作为特征,设类别数为2,利用C均值聚类方法对数据进行聚类,并将聚类结果表示在二维平面上。尝试不同初始值对此数据集是否会造成不同的结果。 (2)对1中的数据利用C均值聚类方法分别进行两类、三类、四类、五类聚类,画出聚类指标与类别数之间的关系曲线,探讨是否可以确定出合理的类别数目。 (3)对1中的数据利用分级聚类方法进行聚类,分析聚类结果,体会分级聚类方法。。(4)利用test2.txt数据或者把test2.txt的数据与上述1中的数据合并在一起,重复上述实验,考察结果是否有变化,对观察到的现象进行分析,写出体会 4.实验步骤及流程图 根据以上实验要求,本次试验我们将分为两组:一、首先对FEMALE 与MALE中数据组成的样本按照上面要求用C均值法进行聚类分析,然后对FEMALE、MALE、test2中数据组成的样本集用C均值法进行聚类分析,比较二者结果。二、将上述两个样本用分即聚类方法进行聚类,观察聚类结果。并将两种聚类结果进行比较。 (1)、C均值算法思想

数据库创建数据库和数据表实验报告

的方法。 二、实验环境 Windows7操作系统,SQL Server软件。 三、实验内容 在SQL Server中创建数据库的方法主要有两种:一是在SQL Server Management Studio窗口中使用可视化界面,通过方便的图形化向导创建,二是通过执行Transact-SQL语句创建。

应外码做CASCADE操作。 四、实验步骤 创建数据库 CREATE DATABASE teacher 创建数据表 sno char(10) not null primary key, sex char(2) check(sex in('男','女')) not null, canme varchar(8) not null , DOB datetime, dept varchar(10), telno char(11) not null, ) create table COURSE( con char(5) not null primary key, cname varchar(10) not null, Cpno char(5), teacher varchar(8) not null, credit smallint, ) create table SC( son char(10) not null primary key, con char(5) not null primary key, score decimal(6,2) check(score in(score<'100'||score>'0')), )

五、实验心得 在这次数据库实验中,我初步的了解到了SQL的一些基本的操作,例如查询分析器的界面用法,也明白了大写小写并不影响数据查询,也知道了如何去创建数据库和数据表。虽然在实验中出现了bug,不过通过书本都找解决了。

SPSS的聚类分析实验报告

实验报告 姓名学号专业班级 课程名 统计分析SPSS软件实验室 称 成绩指导教师 实验名称SPSS的聚类分析 1、实验目的: 掌握层次聚类分析和K-Means聚类分析的基本思想和具体,并能够对分析结果进行解释。 二、实验题目: 1.、现要对一个班同学的语文水平进行聚类,拟聚为三类,聚类依据是 两次语文考试的成绩。数据如下表所示。试用系统聚类法和K-均值法进 行聚类分析。 人名第一次语文成绩第二次语文成绩 张三9998 王五8889 赵四7980 小杨8978 蓝天7578 小白6065 李之7987 马武7576 郭炎6056 刘小100100

3、实验步骤(最好有截图): 1.先打开常用软件里的SPSS 11.5 for Windows.exe,在Variable View 中根据题目输入相关数据,如下图所示 2.在Data View中先输入数据,结果如下图所示 3. 首先试用系统聚类法对相关数据进行聚类 4. 选择菜单:【Analyze】→【Classify】→【Hierarchical Cluster】,然后选择参与层次聚类分析的变量两次语文考试的成绩到【Variable(s)】框中,再选择一个字符型变量“人名”作为标记变量到【Label Cases by】框中。

5.按“Plots”后进行选择 6.按“Statistics”后进行选择

7.按“Method”后进行选择

8.对第一个表格进行保存,并且命名为“语文水平.sav”,同时保存输出结果 4、实验结果及分析(最好有截图): 第一题: 1. 首先试用系统聚类法对相关数据进行聚类

聚类分析实验报告记录

聚类分析实验报告记录

————————————————————————————————作者:————————————————————————————————日期:

《应用多元统计分析》 课程实验报告 实验名称:用聚类分析的方法研究山东省17个市的产业类型 的差异化 学生班级:统计0901 学生姓名:贾绪顺杜春霖陈维民张鹏 指导老师:____________张艳丽_____________________ 完成日期:2011.12.12

一,实验内容 根据聚类分析的原理,使用系统聚类分析的COMplete linkage (最长距离法)和WARD(离差平方和法),运用SPSS软件对2009年山东省17个城市生产总值的数据进行Q型聚类,将17个城市分为5类,发现不同城市产业类型的差异化,并解释造成这种差异的原因 二,实验目的 希望通过实验研究山东省17个市的生产总值的差异化,并分析造成这种差异化的原因,可以更深刻的掌握聚类分析的原理;进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能;达到能综合运用所学基本理论和专业知识;锻炼收集、整理、运用资料的能力的目的;希望能会调用SPSS软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出综合评价。 三,实验方法背景与原理 3.1方法背景 聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中,主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析,然后很据分析结果进行综合评价,以便得出科学的结论。 聚类分析源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析的主要应用,在商业方面,最常见的就是客户群的细分问题,可以从客户人口特征、消费行为和喜好方面的数据,对客户进行特征分析,充分利用数据进行客户的客观分组,使诸多特征有相似性的客户能被分在同一组内,而不相似的客户能被区分到另一些组中。在生物方面,聚类分析可以用来对动植物进行分类,对基因进行分类等,从而获取对动植物种群固有结构的认识,对物种进行很好的分类。在电子商务方面,聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过对客户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通过共同特征对客户进行分类,可以帮助电子商户更好的了解他们的客户,并向客户提供更合适的服务。在保险行业上,根据产、寿险进行分类,不同类别的公司进行分类,对保险投资比例进行分类管理,从而提高保险投资的效率。 3.2实验的方法与原理 聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。 聚类分析方法中最常用的一种是系统聚类法,其基本思想是:先将待聚类的n个样品(或者变量)各自看成一类,共有n类;然后按照选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到n-1类;再按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最为密切的

《数据库技术与应用》实验报告

《数据库技术与应用》上机实验报告 目录: 一、概述 二、主要上机实验内容 1.数据库的创建 2.表的创建 3.查询的创建 4.窗体的创建 5.报表的创建 6.宏的创建 三、总结 一、概述 (一)上机内容: 第七周:熟悉Access界面,数据库和表的创建,维护与操作 1. 熟悉Access的启动,推出,界面,菜单,工具栏等; 2. 练习使用向导创建数据库、创建空数据库; 3. 练习创建表结构的三种方法(向导、表设计器、数据表)、表中字段属性设置; 4. 练习向表中输入不同类型的数据; 5. 练习创建和编辑表之间的关系; 6. 练习表的维护(表结构、表内容、表外观) 7. 练习表的操作(查找、替换、排序、筛选等) 第八周:练习创建各种查询 1.选择查询(单表、多表、各种查询表达式) 2.参数查询 3.交叉表查询 4.操作查询(生成查询、删除查询、更新查询、追加查询) 第十周:练习创建各种类型的窗体 1.自动创建纵栏式窗体和表格式窗体; 2.向导创建主|子窗体

3.图表窗体的创建 4.练习通过设计器创建窗体 5.练习美化窗体 第十三周:练习创建各种类型的报表 1.自动创建纵栏式报表和表格式报表; 2.向导创建报表(多表报表、图表报表、标签报表) 3.练习通过设计视图创建报表(主|子报表、自定义报表) 4.练习在报表中添加计算字段和分组汇总数据 第十五周:综合应用 1.了解Access数据库系统开发的一般方法; 2.课程内容的综合练习; 3.编写上机实验报告、答疑 (二)上机完成情况 第七周:熟悉Access界面,数据库和表的创建,维护与操作 完成了创建表,向表中输入不同类型的数据,创建和编辑表之间的关系,进行了表的维护,修改了表的结构、内容、外观,最后进行了表的操作,查找、替换、排序、筛选等。 已完成 第八周:练习创建各种查询 练习选择查询、参数查询、交叉表查询,然后练习并操作查询,生成查询、删除查询、更新查询、追加查询等。 已完成 第十周:练习创建各种类型的窗体 自动创建纵栏式窗体和表格式窗体,向导创建主|子窗体和图表窗体,练习通过设计器创建窗体,美化窗体。 基本完成 第十三周:练习创建各种类型的报表 自动创建纵栏式报表和表格式报表,向导创建报表,练习通过设计视图创建报表,在报表中添加计算字段和分组汇总数据。 已完成 第十五周:综合应用

数据挖掘实验报告三

实验三 一、实验原理 K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 算法原理: (1) 随机选取k个中心点; (2) 在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类; (3) 更新中心点为每类的均值; (4) j<-j+1 ,重复(2)(3)迭代更新,直至误差小到某个值或者到达一定的迭代步 数,误差不变. 空间复杂度o(N) 时间复杂度o(I*K*N) 其中N为样本点个数,K为中心点个数,I为迭代次数 二、实验目的: 1、利用R实现数据标准化。 2、利用R实现K-Meams聚类过程。 3、了解K-Means聚类算法在客户价值分析实例中的应用。 三、实验内容 依据航空公司客户价值分析的LRFMC模型提取客户信息的LRFMC指标。对其进行标准差标准化并保存后,采用k-means算法完成客户的聚类,分析每类的客户特征,从而获得每类客户的价值。编写R程序,完成客户的k-means聚类,获得聚类中心与类标号,并统计每个类别的客户数

四、实验步骤 1、依据航空公司客户价值分析的LRFMC模型提取客户信息的LRFMC指标。

2、确定要探索分析的变量 3、利用R实现数据标准化。 4、采用k-means算法完成客户的聚类,分析每类的客户特征,从而获得每类客户的价值。

五、实验结果 客户的k-means聚类,获得聚类中心与类标号,并统计每个类别的客户数 六、思考与分析 使用不同的预处理对数据进行变化,在使用k-means算法进行聚类,对比聚类的结果。 kmenas算法首先选择K个初始质心,其中K是用户指定的参数,即所期望的簇的个数。 这样做的前提是我们已经知道数据集中包含多少个簇. 1.与层次聚类结合 经常会产生较好的聚类结果的一个有趣策略是,首先采用层次凝聚算法决定结果

数据库上机实验报告

实验一:建立数据库及基本表 一、实验目的 1、了解SQL Server数据库的逻辑结构和物理结构; 2、了解SQL Server的基本数据类型; 3、学会在企业管理器中创建数据库和表; 4、使用SQL查询分析器用CREATE、DROP、ALTER语句创建和删除数据库,创建、删除、更新基本表。 二、实验内容 1、创建数据库和查看数据库属性。 2、创建表。 3、查看和修改表结构。 4、熟悉企业管理器和查询分析器工具的使用方法 三、实验步骤 1、在企业管理器中创建数据库和数据表。 (1) 使用企业管理器建立图书管理数据库,数据库名为BM,初始大小为10MB,最大为50MB,数据库自动增长,增长方式是按5%比例增长;日志文件初始为2MB,最大可增长到5MB,按1MB增长。数据库的逻辑文件名和物理文件名均采用默认值。 详细步骤: (2) 在企业管理器中查看图书管理数据库的属性,并进行修改,使之符合要求。 (3) 通过企业管理器,在建好了图书管理数据库BM中建立图书(book)、读者(reader)和借阅(borrow)3个表,其结构为: 图书(书号,类别,出版社,作者,书名,定价);读者(编号,姓名,单位,性别,电话); 借阅(书号,读者编号,借阅日期)。 (4) 利用企业管理器向表中输入数据。 2、在查询分析器中创建数据库和数据表 (1) 创建数据库S-C 的sql语句: create database s_c (2) 在数据库S-C下,创建基本表学生表student(sno,sname,ssex,sage,sdept)的sql语句: create table student( sno c(8),sname c(10),ssex c(2),sage(4),sdept c(8) ) 创建基本表课程表course(cno,cname, ccredit)的sql语句: create table course( cno c(4),cname c(10),ccredit c(2) ) 创建基本表成绩表sc(sno,cno,grade)的sql语句: create table sc( sno c(8),cno c(4),grade n(4) )

数据库原理实验报告2012

《数据库原理》实验报告书 班级: 学号: 姓名: 指导教师: 实验成绩: 中南林业科技大学涉外学院理工系

目录 数据库原理实验安排 (3) 实验一数据库和表的建立、数据操作 (4) 实验二 SQL语言的使用 (9) 实验三完整性、安全性实现 (16) 实验四数据库编程 (18) 附录一SQL Server的安装 (20)

数据库原理实验安排 一、实验目的 通过实验,使学生熟悉并掌握数据库的基本概念、基本原理、和基本技术;能够应用这些理论和技术设计合理的数据库;更重要的是通过教学活动,使学生能够把与数据库相关的先修后继知识融会贯通,初步具有开发完整可用的数据库系统的能力。 二、实验安排 本门课程共分4个实验,8学时 实验一数据库和表的建立、数据操作 2学时 实验二 SQL语言的使用2学时 实验三完整性、安全性实现 2学时 实验四数据库编程 2学时 三、实验考核 实验成绩通过实验报告及每次实验后的验机给出,每次实验结束后都必须写出实验报告。

实验一数据库和表的建立、数据操作 一、实验目的: 掌握使用SQL语言进行数据定义和数据操纵的方法。 二、实验要求: 建立一个数据库stumanage,建立三个关系表students,course,grade。向表中插入数据,然后对数据进行删除、修改等操作,对关系、数据库进行删除操作。 三、实验步骤: 1、在SQL Server中输入本机器的名字,选择“windows身份验证”。点击确定连接SQL Server数据库服务器。 2、新建查询分析器。 3、在查询分析器中输入SQL语句------建立数据库stumanage。然后单击上面的绿色三角形右箭头。下部的空白区显示该语句的运行情况。 4、选择数据库stumanage为当前数据库。 5、如下图建立表students: 列名数据类型允许空主键说明 (1) sno Char(8) 否是学号 (2) sname Varchar(20) 是否姓名 (3) sex Char(2) 是否性别 (4) dept Varchar(20) 是否所在系 如下图建立表:course 列名数据类型允许空主键说明 (1) cno Char(6) 否是课程号 (2) cname Varchar(20) 是否课程名 如下图建立表sc:(注:包括两个外键,sno和cno共同组成主键)列名数据类型允许空主键外键说明 (1) sno Char(8) 否是 students(sno) 学号 (2) cno Char(6) 否是 course(sno) 课程号 (3) grade int 否否否成绩 6、使用SQL语句完成建表操作并以截屏的方式将建表操作过程粘贴在下方表格中。

聚类分析实验报告

聚类分析实验报告 姓名: 学号: 班级: 一:实验目的 1.了解聚类分析的基本原理及在spss中的实现过程。 2.通过对指标进行聚类,体会降维的处理过程。 3.通过不同性质指标对样本进行聚类,体会归类的思想。 二:实验原理 聚类分析就是根据事物本身的特性来定量研究分类问题的一种多元统计分析方法。其基本思想就是同一类中的个体有较大的相似性,不同类中的个体差异较大,于就是根据一批根据一批样品的多个观察指标,找出能够度量样品(或变量)之间相似度的统计量,并以此为依据,采用某种聚类法,将所有的样品(或变量)分别聚合到不同的类中。 三:实验过程 本实验就是通过对上市公司分析所得。由基本经济知识知道评价一个上市公司的业绩主要从以下四个方面:盈利能力,偿债能力,成长能力,经营能力。所以我分别从这四个方面共选取了19个指标来对上市公司的业绩进行评价。具体数据请见EXCEL。 由上面的分析我们知道评定一个上市公司业绩的指标有四类,但我们瞧EXCEL可知,每一类下面有4-5个指标,每类指标有较强相关性,存在多重共线性与维数过高而不易分析得影响。所以首先采用系统聚类法对每类指标进行聚类,再采用比较复相关系数得出每类最具代表的指标,达到降维的目的。(注:以下对指标分析均采用主间连接法,度量标准为person相关性) 以下就是实验截图: (1):对盈利能力指标

从上表分析我们可将盈利能力的4个指标分为两类,即“毛利率”为一类,“销售净利率”、“成本费用利润率”与“资产净利润”为一类。所以“毛利率”为一类,另外再对“销售净利润”、“成本费用利润率”与“资产净利润”分别作对另3个指标的复相关系数,结果如下: ①、以“销售净利润”为因变量,其余为自变量得: 模型汇总 模型R R 方调整 R 方标准估计的误 差 1 、980a、960 、957 、20721755 a、预测变量: (常量), Zscore: 资产净利率(%), Zscore: 毛利率(%), Zscore: 成本费用利润率(%)。 ②、以“成本费用利润率”为因变量,其余为自变量得: 模型汇总 模型R R 方调整 R 方标准估计的误 差 1 、978a、957 、953 、21603919 a、预测变量: (常量), Zscore: 销售净利率(%), Zscore: 毛利率(%), Zscore: 资产净利率(%)。 ③、以“资产净利润”为因变量,其余为自变量得: 模型汇总 模型R R 方调整 R 方标准估计的误 差

数据库实验一基本表的定义实验报告

实验一基本表的定义、删除与修改 一、实验目的: 熟练掌握SQL语句中数据库的创建、基本表的定义、删除与修改,为后继学习作准备。 二、实验属性(验证性) (1)、了解并掌握SQL SERVER 2008管理控制器的使用; (2)、掌握数据库和基本表的定义、删除与修改。 三、实验仪器环境与要求 1.每人一台计算机。 2.计算机安装有SQL SERVER2008。 四、实验要求(预习、实验前、实验中、实验后等要求) 1.预习教材第三章,熟悉SQL语句。 2.熟悉SQL SERVER 2008,能使用管理控制器的使用。 3.能够熟练使用SQL语句进行数据库、表的创建、删除与修改等。 五、实验原理 SQL语言基本应用。 六、实验步骤:

(1) 启动SQL SERVER 2008。 (2) 启动SQL SERVER 2008查询分析器; (3) 创建数据库”学生选课管理数据库”; CREATE DATABASE 学生选课管理数据库; (4) 在此数据库下创建如下表: 1 定义基本表 1.1、学生表Student,每个属性名的意义为Sno-学号字符型长度为12、Sname-姓 名字符型长度为20、Ssex-性别字符型长度为4、默认为“男”,Sage-年龄 为整型、Sdept-所在系字符型长度为15。这里要求Sno为主码,Sname不能 为空值,且取值唯一。 CREATE TABLE Student( Sno CHAR(12) PRIMARY KEY, Sname CHAR(20) UNIQUE NOT NULL, Ssex CHAR(4) DEFAULT '男', Sage INT,Sdept CHAR(15) ); 1.2、建立表课程表Course,其属性名意义分别为Cno-课程号、字符型长度为15, Cname-课程名、字符型长度为20, Pre_Cno-先修课程号、字符型长度为15,

对数据进行聚类分析实验报告

对数据进行聚类分析实验报告 徐远东 任争刚 权荣 一、 基本要求 用FAMALE.TXT 、MALE.TXT 和/或test2.txt 的数据作为本次实验使用的样本集,利用C 均值和分级聚类方法对样本集进行聚类分析,对结果进行分析,从而加深对所学内容的理解和感性认识。 二、 实验要求 1、 把FAMALE.TXT 和MALE.TXT 两个文件合并成一个,同时采用身高 和体重数据作为特征,设类别数为2,利用C 均值聚类方法对数据进行聚类,并将聚类结果表示在二维平面上。尝试不同初始值对此数据集是否会造成不同的结果。 2、 对1中的数据利用C 均值聚类方法分别进行两类、三类、四类、五类聚类,画出聚类指标与类别数之间的关系曲线,探讨是否可以确定出合理的类别数目。 3、 对1中的数据利用分级聚类方法进行聚类,分析聚类结果,体会分级聚类方法。。 4、 利用test2.txt 数据或者把test2.txt 的数据与上述1中的数据合并在一起,重复上述实验,考察结果是否有变化,对观察到的现象进行分析,写出体会 三、 实验步骤及流程图 根据以上实验要求,本次试验我们将分为两组:一、首先对FEMALE 与MALE 中数据组成的样本按照上面要求用C 均值法进行聚类分析,然后对FEMALE 、MALE 、test2中数据组成的样本集用C 均值法进行聚类分析,比较二者结果。二、将上述两个样本用分即聚类方法进行聚类,观察聚类结果。并将两种聚类结果进行比较。 一、(1)、C 均值算法思想 C 均值算法首先取定C 个类别和选取C 个初始聚类中心,按最小距离原则将各模式分配到C 类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小 (2)、实验步骤 第一步:确定类别数C ,并选择C 个初始聚类中心。本次试验,我们分别将C 的值取为2和3。用的是凭经验选择代表点的方法。比如:在样本数为N 时,分为两类时,取第一个点和第()12/+N INT 个点作为代表点;分为三类时,取第一、

实验三K均值聚类算法实验报告

实验三 K-Means聚类算法 一、实验目的 1) 加深对非监督学习的理解和认识 2) 掌握动态聚类方法K-Means 算法的设计方法 二、实验环境 1) 具有相关编程软件的PC机 三、实验原理 1) 非监督学习的理论基础 2) 动态聚类分析的思想和理论依据 3) 聚类算法的评价指标 四、算法思想 K-均值算法的主要思想是先在需要分类的数据中寻找K组数据作为初始聚类中心,然后计算其他数据距离这三个聚类中心的距离,将数据归入与其距离最近的聚类中心,之后再对这K个聚类的数据计算均值,作为新的聚类中心,继续以上步骤,直到新的聚类中心与上一次的聚类中心值相等时结束算法。 实验代码 function km(k,A)%函数名里不要出现“-” warning off [n,p]=size(A);%输入数据有n个样本,p个属性 cid=ones(k,p+1);%聚类中心组成k行p列的矩阵,k表示第几类,p是属性 %A(:,p+1)=100; A(:,p+1)=0; for i=1:k %cid(i,:)=A(i,:); %直接取前三个元祖作为聚类中心 m=i*floor(n/k)-floor(rand(1,1)*(n/k)) cid(i,:)=A(m,:); cid; end Asum=0; Csum2=NaN; flags=1; times=1; while flags flags=0; times=times+1; %计算每个向量到聚类中心的欧氏距离 for i=1:n

for j=1:k dist(i,j)=sqrt(sum((A(i,:)-cid(j,:)).^2));%欧氏距离 end %A(i,p+1)=min(dist(i,:));%与中心的最小距离 [x,y]=find(dist(i,:)==min(dist(i,:))); [c,d]=size(find(y==A(i,p+1))); if c==0 %说明聚类中心变了 flags=flags+1; A(i,p+1)=y(1,1); else continue; end end i flags for j=1:k Asum=0; [r,c]=find(A(:,p+1)==j); cid(j,:)=mean(A(r,:),1); for m=1:length(r) Asum=Asum+sqrt(sum((A(r(m),:)-cid(j,:)).^2)); end Csum(1,j)=Asum; end sum(Csum(1,:)) %if sum(Csum(1,:))>Csum2 % break; %end Csum2=sum(Csum(1,:)); Csum; cid; %得到新的聚类中心 end times display('A矩阵,最后一列是所属类别'); A for j=1:k [a,b]=size(find(A(:,p+1)==j)); numK(j)=a; end numK times xlswrite('data.xls',A);

《数据库原理及应用》实验报告 创建数据库和表

《数据库原理及应用》实验报告 ( 题目:创建数据库和表 学生姓名:X X X X

一、实验目的 在了解SQL Server 数据库的逻辑结构,物理结构,基本数据类型,以及表的结构特点的基础上,学会在“对象资源管理器”中创建数据库和表,重点学会使用T-SQL语句创建数据库和表。 二、实验内容 按照题目要求创建一数据库,并按要求在该数据库内创建相应数据表。在创建过程中需分别使用界面方式创建和命令方式创建。 实验题目 创建用于企业管理的员工管理数据库YGGL,其逻辑文件初始大小10MB,最大50MB,自动增长,按5%比例增长,日志文件初始大小2MB,最大5MB,按1MB增长,数据库和事务日志的逻辑文件名和物理文件名采用缺省值,另在该数据库内创建3个数据表,Employees表,Departments表,Salary表,具体表结构见课本P-283页所给出三个表格。 实验准备 首先明确创建数据库的用户必须是系统管理员或者是被授予使用CREATEDATABASE语句的用户; 其次创建过程中必须确定数据库名,所用者,数据库大小和存储其文件; 最后根据表的结构按要求创建表; 三、实验程序 使用T-SQL语句创建数据库YGGL: CREATE DATABASE YGGL ON ( NAME='YGGL_Data', FILENAME='C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\Data\YGGL.mdf', SIZE=10MB, MAXSIZE=50MB, FILEGROWTH=10% ) LOG ON ( NAME='YGGL_Log', FILENAME='C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\Data\YGGL_Log.ldf', SIZE=2MB, MAXSIZE=5MB, FILEGROWTH=1MB ) GO 使用T-SQL语句创建Employees表: USE YGGL GO CREATE TABLE Employees ( EmployeeID char(6)NOT NULL PRIMARY KEY, Name char(10)NOT NULL, Education char(4)NOT NULL, Birthday datetime NOT NULL, Sex bit NOT NULL DEFAULT 1,

聚类分析实验报告.doc

聚类分析实验报告 姓名:学号:班级: 一:实验目的 1.了解聚类分析的基本原理及在spss中的实现过程。 2.通过对指标进行聚类,体会降维的处理过程。 3.通过不同性质指标对样本进行聚类,体会归类的思想。 二:实验原理 聚类分析是根据事物本身的特性来定量研究分类问题的一种多元统计分析方法。其基本思想是同一类中的个体有较大的相似性,不同类中的个体差异较大,于是根据一批根据一批样品的多个观察指标,找出能够度量样品(或变量)之间相似度的统计量,并以此为依据,采用某种聚类法,将所有的样品(或变量)分别聚合到不同的类中。 三:实验过程 本实验是通过对上市公司分析所得。由基本经济知识知道评价一个上市公司的业绩主要从以下四个方面:盈利能力,偿债能力,成长能力,经营能力。所以我分别从这四个方面共选取了19个指标来对上市公司的业绩进行评价。具体数据请见EXCEL。 由上面的分析我们知道评定一个上市公司业绩的指标有四类,但我们看EXCEL可知,每一类下面有4-5个指标,每类指标有较强相关性,存在多重共线性和维数过高而不易分析得影响。所以首先采用系统聚类法对每类指标进行聚类,再采用比较复相关系数得出每类最具代表的指标,达到降维的目的。(注:以下对指标分析均采用主间连接法,度量标准为person相关性) 以下是实验截图: (1):对盈利能力指标

从上表分析我们可将盈利能力的4个指标分为两类,即“毛利率”为一类,“销售净利率”、“成本费用利润率”和“资产净利润”为一类。所以“毛利率”为一类,另外再对“销售净利润”、“成本费用利润率”和“资产净利润”分别作对另3个指标的复相关系数,结果如下: ①、以“销售净利润”为因变量,其余为自变量得: 模型汇总 模型R R 方调整 R 方标准估计的误 差 1 .980a.960 .957 .20721755 a. 预测变量: (常量), Zscore: 资产净利率(%), Zscore: 毛利率(%), Zscore: 成本费用利润率(%)。 ②、以“成本费用利润率”为因变量,其余为自变量得: 模型汇总 模型R R 方调整 R 方标准估计的误 差 1 .978a.957 .953 .21603919 a. 预测变量: (常量), Zscore: 销售净利率(%), Zscore: 毛利率(%), Zscore: 资产净利率(%)。 模型汇总 模型R R 方调整 R 方标准估计的误 差

聚类分析实验报告

聚类分析实验报告 Company Document number:WUUT-WUUY-WBBGB-BWYTT-1982GT

聚类分析实验报告 姓名:学号:班级: 一:实验目的 1.了解聚类分析的基本原理及在spss中的实现过程。 2.通过对指标进行聚类,体会降维的处理过程。 3.通过不同性质指标对样本进行聚类,体会归类的思想。 二:实验原理 聚类分析是根据事物本身的特性来定量研究分类问题的一种多元统计分析方法。其基本思想是同一类中的个体有较大的相似性,不同类中的个体差异较大,于是根据一批根据一批样品的多个观察指标,找出能够度量样品(或变量)之间相似度的统计量,并以此为依据,采用某种聚类法,将所有的样品(或变量)分别聚合到不同的类中。 三:实验过程 本实验是通过对上市公司分析所得。由基本经济知识知道评价一个上市公司的业绩主要从以下四个方面:盈利能力,偿债能力,成长能力,经营能力。所以我分别从这四个方面共选取了19个指标来对上市公司的业绩进行评价。具体数据请见EXCEL。 由上面的分析我们知道评定一个上市公司业绩的指标有四类,但我们看EXCEL可知,每一类下面有4-5个指标,每类指标有较强相关性,存在多重共线性和维数过高而不易分析得影响。所以首先采用系统聚类法对每类指标进行聚类,再采用比较复相关系数得出每类最具代表的指标,达到降维的目的。(注:以下对指标分析均采用主间连接法,度量标准为person相关性) 以下是实验截图: (1):对盈利能力指标 从上表分析我们可将盈利能力的4个指标分为两类,即“毛利率”为一类,“销售净利率”、“成本费用利润率”和“资产净利润”为一类。所以“毛利率”为一类,另外再对“销售净利润”、“成本费用利润率”和“资产净利润”分别作对另3个指标的复相关系数,结果如下: 模型汇总 模型R R 方调整 R 方标准估计的误差

聚类分析实验报告

《应用多元统计分析》 课程实验报告 实验名称:用聚类分析的方法研究山东省17个市的产业类型 的差异化 学生班级:统计0901 学生姓名:贾绪顺杜春霖陈维民张鹏 指导老师:____________张艳丽_____________________ 完成日期:2011.12.12

一,实验内容 根据聚类分析的原理,使用系统聚类分析的COMplete linkage (最长距离法)和WARD(离差平方和法),运用SPSS软件对2009年山东省17个城市生产总值的数据进行Q型聚类,将17个城市分为5类,发现不同城市产业类型的差异化,并解释造成这种差异的原因 二,实验目的 希望通过实验研究山东省17个市的生产总值的差异化,并分析造成这种差异化的原因,可以更深刻的掌握聚类分析的原理;进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能;达到能综合运用所学基本理论和专业知识;锻炼收集、整理、运用资料的能力的目的;希望能会调用SPSS软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出综合评价。 三,实验方法背景与原理 3.1方法背景 聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中,主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析,然后很据分析结果进行综合评价,以便得出科学的结论。 聚类分析源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析的主要应用,在商业方面,最常见的就是客户群的细分问题,可以从客户人口特征、消费行为和喜好方面的数据,对客户进行特征分析,充分利用数据进行客户的客观分组,使诸多特征有相似性的客户能被分在同一组内,而不相似的客户能被区分到另一些组中。在生物方面,聚类分析可以用来对动植物进行分类,对基因进行分类等,从而获取对动植物种群固有结构的认识,对物种进行很好的分类。在电子商务方面,聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过对客户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通过共同特征对客户进行分类,可以帮助电子商户更好的了解他们的客户,并向客户提供更合适的服务。在保险行业上,根据产、寿险进行分类,不同类别的公司进行分类,对保险投资比例进行分类管理,从而提高保险投资的效率。 3.2实验的方法与原理 聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。 聚类分析方法中最常用的一种是系统聚类法,其基本思想是:先将待聚类的n个样品(或者变量)各自看成一类,共有n类;然后按照选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到n-1类;再按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最为密切的

实验1 数据库和表实验报告

河南工业大学实验报告 课程数据库原理 _ 实验名称实验一数据库和表 教师审批签字 一.实验目的 1.熟悉SQL Server Management Studio(SSMS)的工作环境 2.掌握使用和命令建立数据库的方法 3.熟练掌握使用SSMS和T-SQL语句创建、修改和删除表。 4.熟练掌握使用SSMS和T-SQL语句插入、修改和删除表数据。 二.实验内容 1.采用SQL Server Management Studio 、T-SQL语句两种方式创建产品销售数据库, 要求: 1)使用SSMS创建数据库CPXS_bak,数据文件初始大小为5MB,最大大小 50MB,按5MB增长;日志文件初始为2MB,最大可增长到10MB,按2MB 增长;其余参数取默认值。 2)用T-SQL语句创建数据库CPXS,数据文件的增长方式改为增长方式按10% 比例增长,其余与CPXS_bak。 3)用T-SQL语句删除数据库CPXS_bak。 2.CPXS数据库包含如下三个表: 1)产品(产品编号,产品名称,价格,库存量) 2)客户(客户编号,客户名称,地区,负责人,电话) 3)销售(产品编号,客户编号,销售日期,数量,销售额) 三个表结构如资料中图3.1~图3.3所示,请写出创建以上三个表的T-SQL语句并在查询分析器中运行。 3.在SSMS中输入如资料中图3.4~图3.6的商品表、客户表和销售表的样本数据。 5.用T-SQL语句向CP表中增加“产品简列”列,varchar(50),允许为NULL。 6.将CP表中每种商品的价格打8折。 7.将CP表中价格打9折后小于1500的商品删除。 三.实验步骤与结果 1. 1).

相关文档