文档库 最新最全的文档下载
当前位置:文档库 › 抽样调查上机实验

抽样调查上机实验

抽样调查上机实验
抽样调查上机实验

R初步 0

1.导入程序包,调用程序包,查看程序包的帮助 0

2.查询函数帮助:?boxplot (1)

3.数据读取和t检验 (1)

简单随机抽样(一) (1)

1. 产生来自正态分布N(2,1)的随机数; (1)

2. 当Iteration=100,N=50,n=10时, ybar的误差; (2)

3. 当Iteration=500,N=50,n=10时, ybar的误差; (2)

4. 当Iteration=1000,N=50,n=10时, ybar的误差; (4)

5. 编写循环语句,计算Iteration 从100变化到2000,步长为100时, ybar的误差; .5

6. 编写程序,画出(5)中,误差的变化情况; (6)

7. 将(5)中结果记录至”record”文件. (7)

简单随机抽样(二):Y的置信区间 (8)

1.产生200个均值15,标准差2的正态随机数; (8)

2.用简单随机抽样方法(无放回),抽取样本容量为10的样本; (8)

3.抽样如2所述样本100个; (8)

4.计算100个样本中每个样本的样本均值,样本标准差; (9)

5.根据每个样本,计算总体均值的置信水平为95%置信区间; (10)

6.在平面直角坐标系中,画出100个置信区间; (10)

7.计算100个置信区间的置信概率. (11)

简单随机抽样(三):样本n确定 (11)

1.相对误差r,求样本n (11)

2.变异系数P,求样本n (12)

分层抽样: (13)

分层抽样 (13)

抽样方法 (16)

比估计法(简单随机抽样) (16)

回归估计法 (17)

比估计法和回归估计法比较 (18)

分别比估计(分层抽样) (19)

联合比估计 (19)

R初步

1.导入程序包,调用程序包,查看程序包的帮助

导入程序包

> install.packages("picante")

调用程序包,查看程序包的帮助

> library(ape)

> ?plot.phylo

2.查询函数帮助:?boxplot

3.数据读取和t检验

将表2中的数据录入Excel中,另存为t.test.txt文件。

用read.table函数读取该文件。

t.test.data <- read.table(“F:/t.test.txt”, header=TRUE)

对变量t.test.data中的

> attach(t.test.data)

> ratio<-weight/height^2

> t.test(ratio)

简单随机抽样(一)

1. 产生来自正态分布N(2,1)的随机数;

1.> rnorm(1,2,1)

[1] 0.7591567

2. 当Iteration=100,N=50,n=10时, 错误!未找到引用源。的误差;

N<-50

n<-10

Ite<-100

Pop<-rnorm(N,2,1)

Sam<-matrix(rep(0,Ite*n),nrow=Ite)

for(i in 1:Ite)

{

Sam[i,]<-sample(Pop,n)

}

Y<-mean(Pop)

y<-mean(Sam)

DEV<-y-Y

> Y

[1] 1.958207

> y

[1] 1.939412

> DEV

[1] -0.01879461

3. 当Iteration=500,N=50,n=10时, 错误!未找到引用源。的误差;

N<-50

n<-10

Ite<-500

Pop<-rnorm(N,2,1)

Sam<-replicate(Ite,sample(Pop,n))

Y<-mean(Pop)

y<-mean(Sam)

DEV<-y-Y

> Y

[1] 2.268899 > y

[1] 2.255122 > DEV

[1] -0.0137772

4. 当Iteration=1000,N=50,n=10时, 错误!未找到引用源。的误差;

N<-50

n<-10

Ite<-1000

Pop<-rnorm(N,2,1)

Sam<-replicate(Ite,sample(Pop,n))

Y<-mean(Pop)

y<-mean(Sam)

DEV<-y-Y

> Y

[1] 1.93828

> y

[1] 1.911898

> DEV

[1] -0.02638177

5. 编写循环语句,计算Iteration 从100变化到2000,步长为100时, 错误!未找到引用源。的误差;

5.

N<-50

n<-10

Pop<-rnorm(N,2,1)

min<-100

max<-2000

step<-100

number<-seq(min,max,by=step)

Sam<-ybar<-list()

mean<-error<-rep(0,(max-min)/step+1)

k<-1

for(i in number)

{

Sam[[k]]<-replicate(i,sample(Pop,n))

ybar[[k]]<-apply(Sam[[k]] ,2,mean)

mean[k]<-mean(ybar[[k]])

k<-k+1

}

Ybar<-mean(Pop)

error<-mean-Ybar

6.编写程序,画出(5)中,误差的变化情况;

N<-50

n<-10

Pop<-rnorm(N,2,1)

min<-100

max<-2000

step<-100

number<-seq(min,max,by=step)

Sam<-ybar<-list()

mean<-error<-rep(0,(max-min)/step+1)

k<-1

for(i in number)

{

Sam[[k]]<-replicate(i,sample(Pop,n))

ybar[[k]]<-apply(Sam[[k]] ,2,mean)

mean[k]<-mean(ybar[[k]])

k<-k+1

}

Ybar<-mean(Pop)

error<-mean-Ybar

plot(error,,main="散点图",xlab="横坐标",ylab="纵坐标") abline(h=0)

7. 将(5)中结果记录至”record”文件.

7.

> number<-seq(min,max,by=step)

> Sam<-ybar<-list()

> mean<-error<-rep(0,(max-min)/step+1)

> k<-1

> for(i in number)

+ {

+ Sam[[k]]<-replicate(i,sample(Pop,n))

+ ybar[[k]]<-apply(Sam[[k]] ,2,mean)

+ mean[k]<-mean(ybar[[k]])

+ k<-k+1

+ }

> Ybar<-mean(Pop)

> error<-mean-Ybar

> plot(error,,main="散点图",xlab="横坐标",ylab="纵坐标") > abline(h=0)

> cat(file="0901********","Ybar=",Ybar,"\n","error=",error)

简单随机抽样(二):Y的置信区间

1.产生200个均值15,标准差2的正态随机数;

2.用简单随机抽样方法(无放回),抽取样本容量为10的样本;

> sample(Pop,10)

[1] 9.507422 15.574629 12.819577 14.363216 16.909827 12.868972 13.912547 14.434210 16.687775 16.297967

3.抽样如2所述样本100个;

a<-replicate(100,sample(Pop,10))

4.计算100个样本中每个样本的样本均值,样本标准差;

5.根据每个样本,计算总体均值的置信水平为95%置信区间;

6.在平面直角坐标系中,画出100个置信区间;

number<-100

count<-as.numeric((Ybar>ymin) & Ybar

cp<-sum(count)/number

plot(1,xlim=c(1-0.5,number+0.5),ylim=c(min(ymin),max(ymax)),

type="n",xlab="",ylab="")

for(i in 1:number){

arrows(i,ymin[i],i,ymax[i],length=0.1,angle=90,

code=3,col=ifelse(Ybar>ymin[i]& Ybar

points(i,ybar[i])

Sys.sleep(0.5)

}

abline(h=Ybar,lty=2)

7.计算100个置信区间的置信概率.

> cp<-sum(count)/number

> cat("Confidence Probability=",cp)

Confidence Probability= 0.89>

简单随机抽样(三):样本n确定

1.相对误差r,求样本n

1.某居民区共有10000户,现用抽样调查的方法估计该区居民的用

水量。采用简单随机抽样抽选了100户,得y=12.5,s2=12.52。估计该居民区的总用水量95%的置信区间。若要求估计的相对误差不超过20%,试问应抽多少户做样本?

(1) 在脚本语言中输入下列语句:

CI<-function(est,sd,alpha){

u<-qnorm(1-alpha/2)

CIl<-est-u*sd

CIu<-est+u*sd

CI<-c(CIl,CIu)

}

#main pro

vary<-12.52

alpha<-0.05

u<-qnorm(1-alpha/2)

est<-12.5

N<-10000

n<-100

f<-n/N

sd<-sqrt(vary*(1-f)/n)

Ci<-CI(est,sd,alpha)

得到置信区间为[11.80997 , 13.19003]

(2) n0<-(u*sqrt(vary))/(0.2*est)

n1<-n0*n0

n<-n1/(1+n1/N)

得到n样本数为8,用户数需要大于8户。

2.变异系数P,求样本n

2.某县采用简单随机抽样估计粮食、棉花、大豆的播种面积,抽样

单元为农户。根据以往资料其变量的变异系数为

名称粮食棉花大豆

变异系数0.38 0.39 0.44

若要求以上各个项目的置信度为95%,相对误差不超过4%,需要抽取多少户?若用这一样本估计粮食的播种面积,其精度是多少?

(1)alpha<-0.05

u<-qnorm(1-alpha/2)

CV1<-0.38

CV2<-0.39

CV3<-0.44 r<-0.04

n1<-(u*CV1/r)^2 。。n1<-(u*CV1)^2 *(1-cv1)/cv1 n2<-(u*CV2/r)^2 n3<-(u*CV3/r)^2

得到n1=347,n2=366,n3=465,所以n=1177户农户。 (2)

分层抽样: 分层抽样

调查某个地区的养牛头数,以村作为抽样单元。根据村的海拔高度和人口密度划分成四层,每层取10个村作为样本单元,经过调查获得下列数据

(1) 估计该地区养牛总头数Y ~

及其估计量的相对标准误差Y Y s ?)?( (2) 讨论分层抽样与不分层抽样比较效率有否提高。 (3) 若样本量不变采用Neyman 分配可以减少方差多少?

(1) 估计该地区养牛总头数Y ~

及其估计量的相对标准误差Y Y s ?)?(

y1<-c(43,84,98,0,10,44,0,124,13,0)

y2<-c(50,147,62,87,84,158,170,104,56,160) y3<-c(228,262,110,232,139,178,334,0,63,220) y4<-c(17,34,25,34,36,0,25,7,15,31) N1<-1411 N2<-4705 N3<-2558 N4<-14997

N<-N1+N2+N3+N4 w1<-N1/N w2<-N2/N w3<-N3/N w4<-N4/N n<-10

y1bar<-mean(y1) y2bar<-mean(y2) y3bar<-mean(y3) y4bar<-mean(y4)

ybar<-w1*y1bar+w2*y2bar+w3*y3bar+w4*y4bar Y<-N*ybar

vary<-(1/n)*(N1*(N1-n)*var(y1)+N2*(N2-n)*var(y2)+N3*(N3-n)*var(y3)+N4*(N4-n)*var(y4))

得到养牛总头数Y ~

为1353572只;相对标准差误差Y Y s ?)?(为sqrt(vary)/Y= 0.09098019

(2) 讨论分层抽样与不分层抽样比较效率有否提高。

分层抽样:ybar=57.18272,vary= 27.06595 y1<-c(43,84,98,0,10,44,0,124,13,0)

y2<-c(50,147,62,87,84,158,170,104,56,160) y3<-c(228,262,110,232,139,178,334,0,63,220) y4<-c(17,34,25,34,36,0,25,7,15,31) N1<-1411 N2<-4705 N3<-2558 N4<-14997

N<-N1+N2+N3+N4 w1<-N1/N w2<-N2/N w3<-N3/N w4<-N4/N n<-10

y1bar<-mean(y1) y2bar<-mean(y2) y3bar<-mean(y3) y4bar<-mean(y4)

ybar<-w1*y1bar+w2*y2bar+w3*y3bar+w4*y4bar Y<-N*ybar

vary<-(1/n)*(N1*(N1-n)*var(y1)+N2*(N2-n)*var(y2)+N3*(N3-n)*var(y3)+N4*(N4-n)*var(y4))

简单随机抽样:ybar= 87.1,vary= 176.9387

y<-c(43,84,98,0,10,44,0,124,13,0,50,147,62,87,84,158,170, 104,56,160,228,262,110,232,139,178,334,0,63,220,17,34,25, 34,36,0,25,7,15,31) N1<-1411 N2<-4705 N3<-2558 N4<-14997

N<-N1+N2+N3+N4

w1<-N1/N

w2<-N2/N

w3<-N3/N

w4<-N4/N

n<-40

f<-n/N

ybar<-mean(y)

Y<-N*ybar

vary<-(1-f)*var(y)/n

分层抽样的方差小于不分层抽样的方差,所以分层抽样的效率有提高。

(3)若样本量不变采用Neyman分配可以减少方差多少?

y1<-c(43,84,98,0,10,44,0,124,13,0)

y2<-c(50,147,62,87,84,158,170,104,56,160)

y3<-c(228,262,110,232,139,178,334,0,63,220)

y4<-c(17,34,25,34,36,0,25,7,15,31)

N1<-1411

N2<-4705

N3<-2558

N4<-14997

N<-N1+N2+N3+N4

n<-40

n1<-n*N1*sd(y1)/(N1*sd(y1)+N2*sd(y2)+N3*sd(y3)+N4*sd(y 4))

n2<-n*N2*sd(y2)/(N1*sd(y1)+N2*sd(y2)+N3*sd(y3)+N4*sd(y 4))

n3<-n*N3*sd(y3)/(N1*sd(y1)+N2*sd(y2)+N3*sd(y3)+N4*sd(y 4))

n4<-n*N4*sd(y4)/(N1*sd(y1)+N2*sd(y2)+N3*sd(y3)+N4*sd(y 4))

w1<-N1/N

w2<-N2/N

w3<-N3/N

w4<-N4/N

y1bar<-mean(y1)

y2bar<-mean(y2)

y3bar<-mean(y3)

y4bar<-mean(y4)

ybar<-w1*y1bar+w2*y2bar+w3*y3bar+w4*y4bar

Y<-N*ybar

vary<-(w1^2*var(y1)/4+w2^2*var(y2)/12+w3^2*var(y3)/14+ w4^2*var(y4)/10)-(1/N)*(w1*var(y1)+w2*var(y2)+w3*var(y3) +w4*var(y4))

可达到方差最小值vary为23.40882,方差可减小27.06595-

23.40882 =3.65713

抽样方法

比估计法(简单随机抽样)

1.某乡欲估计今年的小麦总产量,全县共有123个村,按简单随机抽样抽取13个村作为样本,取得资料如下:

(1)

计今年的小麦总产量和置信度为95%的置信区间。

CI<-function(Yr,sd,alpha){

u<-qnorm(1-alpha/2)

CIl<-Yr-u*sd

CIu<-Yr+u*sd

CI<-c(CIl,CIu)

}

#main pro

N<-123

n<-13

f<-n/N

X<-128200

x<-c(550,720,1500,1020,620,980,928,1200,1350,1750,670,729 ,1530)

y<-c(610,780,1600,1030,600,1050,977,1440,1570,2210,980,86 5,1710)

xbar<-mean(x)

ybar<-mean(y)

varx<-var(x)

vary<-var(y)

sxy<-cov(x,y)

R<-ybar/xbar

Yr<-R*X

vYr<-N^2*(1-f)*(vary+R^2*varx-2*R*sxy)/n

sd<-sqrt(vYr)

alpha<-0.05

u<-qnorm(1-alpha/2)

Ci<-CI(Yr,sd,alpha)

得到今年今年小麦总产量的估计量为145943.8百斤,置信区间为[138737.3 , 153150.2]

回归估计法

(2)采用回归估计法估计今年的小麦总产量和置信度为95%的置

信区间。

CI<-function(yr,sd,alpha){

u<-qnorm(1-alpha/2)

CIl<-yr-u*sd

CIu<-yr+u*sd

CI<-c(CIl,CIu)

}

#main pro

N<-123

n<-13

f<-n/N

X<-128200

x<-c(550,720,1500,1020,620,980,928,1200,1350,1750,670,729 ,1530)

y<-c(610,780,1600,1030,600,1050,977,1440,1570,2210,980,86 5,1710)

xbar<-mean(x)

ybar<-mean(y)

Xbar<-X/N

varx<-var(x)

vary<-var(y)

sxy<-cov(x,y)

b<-sxy/varx

ylr<-ybar+b*(Xbar-xbar)

Ylr<-N*ylr

se<-sqrt((n-1)*(vary-b*sxy)/(n-2))

vYlr<-N^2*(1-f)*se^2/n

sd<-sqrt(vYlr)

alpha<-0.05

u<-qnorm(1-alpha/2)

Ci<-CI(Ylr,sd,alpha)

得到今年今年小麦总产量的估计量为145945.1百斤,置信区间为[138551.1 , 153336.5]

比估计法和回归估计法比较

(3)比较两种估计方法的精确度。

分别比估计:Ybar= 1186.535,sd= 3676.834

联合比估计:Ybar= 1186.546,sd= 3771.863

分别比估计的标准差小于联合比估计的标准差,所以分别比估计更准确。

2.某县欲调查某种农作物的产量,由于平原和山区的产量有差别,故拟划分平原和山区两层采用分层抽样。同时当年产量与去年产量之间有相关关系,故还计划采用比估计方法。已知平原共有120个村,去年总产量为24500(百斤),山区共有180个村,去年总产为21200(百斤)。现从平原用简单随机抽样抽取6个村,从山区抽取9个村,两年的产量资料如下:

山区

试用分别比估计与联合比估计分别估计当年的总产量,给出估计量的标准误,并对上述两种结果进行比较和分析。

分别比估计(分层抽样)

N1<-120

X1<-24500

n1<-6

f1<-n1/N1

N2<-180

X2<-21200

n2<-9

f2<-n2/N2

x1<-c(204,143,82,256,275,198)

x2<-c(137,189,119,63,103,107,159,63,87)

y1<-c(210,160,75,280,300,190)

y2<-c(150,200,125,60,110,100,180,75,90)

xbar1<-mean(x1)

xbar2<-mean(x2)

ybar1<-mean(y1)

ybar2<-mean(y2)

R1<-ybar1/xbar1

R2<-ybar2/xbar2

varx1<-var(x1)

varx2<-var(x2)

vary1<-var(y1)

vary2<-var(y2)

sxy1<-cov(x1,y1)

sxy2<-cov(x2,y2)

yrs<-sum(ybar1*X1/xbar1,ybar2*X2/xbar2)

a1<-N1^2*(1-f1)*(vary1+R1^2*varx1-2*R1*sxy1)/n1

a2<-N2^2*(1-f2)*(vary2+R2^2*varx2-2*R2*sxy2)/n2

vyrs<-sum(a1,a2)

sd1<-sqrt(vyrs)

得到当年总产量的估计量Yrs为48206.45,估计量的标准差为751.4072 联合比估计

N1<-120

X1<-24500

n1<-6

抽样调查答案

抽样技术第1、2章试题 一、单选题 1.非概率抽样的优点(D) A.能计算抽样误差 B.能从概率的意义上控制误差 C.样本数据能对总体情况进行推断 D.操作简单,不需要抽样框,经济、快速,调查数据的处理也容易 2.概率抽样与非概率抽样的根本区别是(B) A、是否能保证总体中每个单位都有完全相同的概率被抽中 B、是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中 C、是否能减少调查误差 D、是否能计算和控制抽样误差 3.以下哪种抽样不属于非概率抽样(C) A、判断抽样 B、方便抽样 C、不等概率抽样 D、配额抽样 3.抽样调查的根本功能是(C) A、获取样本资料B.、计算样本资料 C、推断总体数量特征 D、节约费用 4.下列不属于概率抽样的是(B) A、不等概率抽样 B、滚雪球抽样 C、系统抽样 D、整群抽样 5.下列抽样框中不属于名录框的是(A) A、时间 B、学生名单 C、公司名录册 D、电话号码簿 6.用样本统计量对总体参数进行估计时产生的误差是(C) A、总体方差 B、样本方差 C、估计量方差 D、偏倚 7.以下抽样方法不属于非概率抽样的是(C) A、目的抽样 B、随意抽样 C、随机抽样 D、判断抽样 8.下列说法错误的是(C) A、对于无偏估计量,均方误差等于方差 B、抽样误差是抽样方法本身所引起的误差,是由于样本不能完全代替总体而导致的误差 C、抽样方差是依据样本方差计算,而方差估计量是依据总体方差计算 D、抽样标准误差是抽样方差的平方根 9.下列关于非概率抽样和概率抽样说法正确的是(A) A、非概率抽样的一个重要应用是充当预调查角色,作为开发概率抽样的厨师步骤。 B、概率抽样是指按照一定的概率以随机原则抽取样本,也称为等概率抽样。 C、随机与随便的本质区别就在于,是否按照给定的抽样概率,通过一定的随机化程序抽 取样本单元。 D、非概率抽样的偏倚较小,有利于评价样本的代表性。 10.概率抽样中的基本抽样方法不包括(C) A、简单随机抽样 B、分层抽样 C、定额抽样 D、整群抽样

数据挖掘实验报告

《数据挖掘》Weka实验报告 姓名_学号_ 指导教师 开课学期2015 至2016 学年 2 学期完成日期2015年6月12日

1.实验目的 基于https://www.wendangku.net/doc/469615323.html,/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用Weka平台,数据使用来自https://www.wendangku.net/doc/469615323.html,/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size (均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性。通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度;

控制系统仿真与设计实验报告

控制系统仿真与设计实验报告 姓名: 班级: 学号: 指导老师:刘峰 7.2.2控制系统的阶跃响应 一、实验目的 1.观察学习控制系统的单位阶跃响应; 2.记录单位阶跃响应曲线; 3.掌握时间相应的一般方法; 二、实验内容 1.二阶系统G(s)=10/(s2+2s+10)

键入程序,观察并记录阶跃响应曲线;录系统的闭环根、阻尼比、无阻尼振荡频率;记录实际测去的峰值大小、峰值时间、过渡时间,并与理论值比较。 (1)实验程序如下: num=[10]; den=[1 2 10]; step(num,den); 响应曲线如下图所示: (2)再键入: damp(den); step(num,den); [y x t]=step(num,den); [y,t’] 可得实验结果如下:

记录实际测取的峰值大小、峰值时间、过渡时间,并与理论计算值值比较 实际值理论值 峰值 1.3473 1.2975

峰值时间 1.0928 1.0649 过渡时间+%5 2.4836 2.6352 +%2 3.4771 3.5136 2. 二阶系统G(s)=10/(s2+2s+10) 试验程序如下: num0=[10]; den0=[1 2 10]; step(num0,den0); hold on; num1=[10]; den1=[1 6.32 10]; step(num1,den1); hold on; num2=[10]; den2=[1 12.64 10]; step(num2,den2); 响应曲线:

(2)修改参数,分别实现w n1= (1/2)w n0和w n1= 2w n0响应曲线试验程序: num0=[10]; den0=[1 2 10]; step(num0,den0); hold on; num1=[2.5]; den1=[1 1 2.5]; step(num1,den1); hold on; num2=[40]; den2=[1 4 40]; step(num2,den2); 响应曲线如下图所示:

数据挖掘实验报告(一)

数据挖掘实验报告(一) 数据预处理 姓名:李圣杰 班级:计算机1304 学号:1311610602

一、实验目的 1.学习均值平滑,中值平滑,边界值平滑的基本原理 2.掌握链表的使用方法 3.掌握文件读取的方法 二、实验设备 PC一台,dev-c++5.11 三、实验内容 数据平滑 假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。使用你所熟悉的程序设计语言进行编程,实现如下功能(要求程序具有通用性): (a) 使用按箱平均值平滑法对以上数据进行平滑,箱的深度为3。 (b) 使用按箱中值平滑法对以上数据进行平滑,箱的深度为3。 (c) 使用按箱边界值平滑法对以上数据进行平滑,箱的深度为3。 四、实验原理 使用c语言,对数据文件进行读取,存入带头节点的指针链表中,同时计数,均值求三个数的平均值,中值求中间的一个数的值,边界值将中间的数转换为离边界较近的边界值 五、实验步骤 代码 #include #include #include #define DEEP 3 #define DATAFILE "data.txt" #define VPT 10 //定义结构体 typedef struct chain{ int num; struct chain *next; }* data; //定义全局变量 data head,p,q; FILE *fp; int num,sum,count=0; int i,j; int *box; void mean(); void medain(); void boundary(); int main () { //定义头指针 head=(data)malloc(sizeof(struc t chain)); head->next=NULL; /*打开文件*/ fp=fopen(DATAFILE,"r"); if(!fp) exit(0); p=head; while(!feof(fp)){

哈工大_控制系统实践_磁悬浮实验报告

研究生自动控制专业实验 地点:A区主楼518房间 姓名:实验日期:年月日斑号:学号:机组编号: 同组人:成绩:教师签字:磁悬浮小球系统 实验报告 主编:钱玉恒,杨亚非 哈工大航天学院控制科学实验室

磁悬浮小球控制系统实验报告 一、实验内容 1、熟悉磁悬浮球控制系统的结构和原理; 2、了解磁悬浮物理模型建模与控制器设计; 3、掌握根轨迹控制实验设计与仿真; 4、掌握频率响应控制实验与仿真; 5、掌握PID控制器设计实验与仿真; 6、实验PID控制器的实物系统调试; 二、实验设备 1、磁悬浮球控制系统一套 磁悬浮球控制系统包括磁悬浮小球控制器、磁悬浮小球实验装置等组成。在控制器的前部设有操作面板,操作面板上有起动/停止开关,控制器的后部有电源开关。 磁悬浮球控制系统计算机部分 磁悬浮球控制系统计算机部分主要有计算机、1711控制卡等; 三、实验步骤 1、系统实验的线路连接 磁悬浮小球控制器与计算机、磁悬浮小球实验装置全部采用标准线连接,电源部分有标准电源线,考虑实验设备的使用便利,在试验前,实验装置的线路已经连接完毕。 2、启动实验装置 通电之前,请详细检察电源等连线是否正确,确认无误后,可接通控制器电源,随后起动计算机和控制器,在编程和仿真情况下,不要启动控制器。 系统实验的参数调试

根据仿真的数据及控制规则进行参数调试(根轨迹、频率、PID 等),直到获得较理想参数为止。 四、实验要求 1、学生上机前要求 学生在实际上机调试之前,必须用自己的计算机,对系统的仿真全部做完,并且经过老师的检查许可后,才能申请上机调试。 学生必须交实验报告后才能上机调试。 2、学生上机要求 上机的同学要按照要求进行实验,不得有违反操作规程的现象,严格遵守实验室的有关规定。 五、系统建模思考题 1、系统模型线性化处理是否合理,写出推理过程? 合理,推理过程: 由级数理论,将非线性函数展开为泰勒级数。由此证明,在平衡点)x ,(i 00对 系统进行线性化处理是可行的。 对式2x i K x i F )(),(=作泰勒级数展开,省略高阶项可得: )x -)(x x ,(i F )i -)(i x ,(i F )x ,F(i x)F(i,000x 000i 00++= )x -(x K )i -(i K )x ,F(i x)F(i,0x 0i 00++= 平衡点小球电磁力和重力平衡,有 (,)+=F i x mg 0 |,δδ===00 i 00 i i x x F(i,x) F(i ,x )i ;|,δδ===00x 00i i x x F(i,x)F (i ,x )x 对2 i F(i,x )K()x =求偏导数得:

数据挖掘实验报告资料

大数据理论与技术读书报告 -----K最近邻分类算法 指导老师: 陈莉 学生姓名: 李阳帆 学号: 201531467 专业: 计算机技术 日期 :2016年8月31日

摘要 数据挖掘是机器学习领域内广泛研究的知识领域,是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地提取出有价值的知识模式,以满足人们不同应用的需要。K 近邻算法(KNN)是基于统计的分类方法,是大数据理论与分析的分类算法中比较常用的一种方法。该算法具有直观、无需先验统计知识、无师学习等特点,目前已经成为数据挖掘技术的理论和应用研究方法之一。本文主要研究了K 近邻分类算法,首先简要地介绍了数据挖掘中的各种分类算法,详细地阐述了K 近邻算法的基本原理和应用领域,最后在matlab环境里仿真实现,并对实验结果进行分析,提出了改进的方法。 关键词:K 近邻,聚类算法,权重,复杂度,准确度

1.引言 (1) 2.研究目的与意义 (1) 3.算法思想 (2) 4.算法实现 (2) 4.1 参数设置 (2) 4.2数据集 (2) 4.3实验步骤 (3) 4.4实验结果与分析 (3) 5.总结与反思 (4) 附件1 (6)

1.引言 随着数据库技术的飞速发展,人工智能领域的一个分支—— 机器学习的研究自 20 世纪 50 年代开始以来也取得了很大进展。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现(Knowledge Discovery in Databases,简记 KDD)的产生,也称作数据挖掘(Data Ming,简记 DM)。 数据挖掘是信息技术自然演化的结果。信息技术的发展大致可以描述为如下的过程:初期的是简单的数据收集和数据库的构造;后来发展到对数据的管理,包括:数据存储、检索以及数据库事务处理;再后来发展到对数据的分析和理解, 这时候出现了数据仓库技术和数据挖掘技术。数据挖掘是涉及数据库和人工智能等学科的一门当前相当活跃的研究领域。 数据挖掘是机器学习领域内广泛研究的知识领域,是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要[1]。目前,数据挖掘已经成为一个具有迫切实现需要的很有前途的热点研究课题。 2.研究目的与意义 近邻方法是在一组历史数据记录中寻找一个或者若干个与当前记录最相似的历史纪录的已知特征值来预测当前记录的未知或遗失特征值[14]。近邻方法是数据挖掘分类算法中比较常用的一种方法。K 近邻算法(简称 KNN)是基于统计的分类方法[15]。KNN 分类算法根据待识样本在特征空间中 K 个最近邻样本中的多数样本的类别来进行分类,因此具有直观、无需先验统计知识、无师学习等特点,从而成为非参数分类的一种重要方法。 大多数分类方法是基于向量空间模型的。当前在分类方法中,对任意两个向量: x= ) ,..., , ( 2 1x x x n和) ,..., , (' ' 2 ' 1 'x x x x n 存在 3 种最通用的距离度量:欧氏距离、余弦距 离[16]和内积[17]。有两种常用的分类策略:一种是计算待分类向量到所有训练集中的向量间的距离:如 K 近邻选择K个距离最小的向量然后进行综合,以决定其类别。另一种是用训练集中的向量构成类别向量,仅计算待分类向量到所有类别向量的距离,选择一个距离最小的类别向量决定类别的归属。很明显,距离计算在分类中起关键作用。由于以上 3 种距离度量不涉及向量的特征之间的关系,这使得距离的计算不精确,从而影响分类的效果。

过程控制系统实验报告

实验一过程控制系统的组成认识实验 过程控制及检测装置硬件结构组成认识,控制方案的组成及控制系统连接 一、过程控制实验装置简介 过程控制是指自动控制系统中被控量为温度、压力、流量、液位等变量在工业生产过程中的自动化控制。本系统设计本着培养工程化、参数化、现代化、开放性、综合性人才为出发点。实验对象采用当今工业现场常用的对象,如水箱、锅炉等。仪表采用具有人工智能算法及通讯接口的智能调节仪,上位机监控软件采用MCGS工控组态软件。对象系统还留有扩展连接口,扩展信号接口便于控制系统二次开发,如PLC控制、DCS控制开发等。学生通过对该系统的了解和使用,进入企业后能很快地适应环境并进入角色。同时该系统也为教师和研究生提供一个高水平的学习和研究开发的平台。 二、过程控制实验装置组成 本实验装置由过程控制实验对象、智能仪表控制台及上位机PC三部分组成。 1、被控对象 由上、下二个有机玻璃水箱和不锈钢储水箱串接,4.5千瓦电加热锅炉(由不锈钢锅炉内胆加温筒和封闭外循环不锈钢锅炉夹套构成),压力容器组成。 水箱:包括上、下水箱和储水箱。上、下水箱采用透明长方体有机玻璃,坚实耐用,透明度高,有利于学生直接观察液位的变化和记录结果。水箱结构新颖,内有三个槽,分别是缓冲槽、工作槽、出水槽,还设有溢流口。二个水箱可以组成一阶、二阶单回路液位控制实验和双闭环液位定值控制等实验。 模拟锅炉:锅炉采用不锈钢精致而成,由两层组成:加热层(内胆)和冷却层(夹套)。做温度定值实验时,可用冷却循环水帮助散热。加热层和冷却层都有温度传感器检测其温度,可做温度串级控制、前馈-反馈控制、比值控制、解耦控制等实验。 压力容器:采用不锈钢做成,一大一小两个连通的容器,可以组成一阶、二阶单回路压力控制实验和双闭环串级定值控制等实验。 管道:整个系统管道采用不锈钢管连接而成,彻底避免了管道生锈的可能性。为了提高实验装置的使用年限,储水箱换水可用箱底的出水阀进行。 2、检测装置 (液位)差压变送器:检测上、下二个水箱的液位。其型号:FB0803BAEIR,测量范围:0~1.6KPa,精度:0.5。输出信号:4~20mA DC。 涡轮流量传感器:测量电动调节阀支路的水流量。其型号:LWGY-6A,公称压力:6.3MPa,精度:1.0%,输出信号:4~20mA DC 温度传感器:本装置采用了两个铜电阻温度传感器,分别测量锅炉内胆、锅炉夹套的温度。经过温度传感器,可将温度信号转换为4~20mA DC电流信号。 (气体)扩散硅压力变送器:用来检测压力容器内气体的压力大小。其型号:DBYG-4000A/ST2X1,测量范围:0.6~3.5Mpa连续可调,精度:0.2,输出信号为4~20mA DC。 3、执行机构 电气转换器:型号为QZD-1000,输入信号为4~20mA DC,输出信号:20~100Ka气压信号,输出用来驱动气动调节阀。 气动薄膜小流量调节阀:用来控制压力回路流量的调节。型号为ZMAP-100,输入信号为4~20mA DC或0~5V DC,反馈信号为4~20mA DC。气源信号 压力:20~100Kpa,流通能力:0.0032。阀门控制精度:0.1%~0.3%,环境温度:-4~+200℃。 SCR移相调压模块:采用可控硅移相触发装置,输入控制信号0~5V DC或4~20mA DC 或10K电位器,输出电压变化范围:0~220V AC,用来控制电加热管加热。 水泵:型号为UPA90,流量为30升/分,扬程为8米,功率为180W。

社会调查实验报告

专业:J信息1101 学号:4111118002 姓名:彭倩 社会调查实验报告 在这次社会调查实验中,我了解到CATI,即计算机辅助电话访问(Computer Assisted Telephone Interview),是将近年高速发展的通讯技术及计算机信息处理技术应用于传统的电话访问所得到的产物,问世以来得到越来越广泛的应用。它是在加深对中国调查业的理解和对国外同类软件研究的基础上,自主开发了这套符合中国国情的系统。 CATI是具有高技术含量、高专业性和高实用性的电话调研产品。自20世纪70年代诞生以来,计算机辅助电话调查以其可控性高、时效性强等特点越来越为研究者所接受。在信息挂帅的今天,CATI系统更被视为收集资料、分析数据的利器,在商业、学术以及政府调研行为中得到了广泛应用。 从社会调查实验中,我们也可以了解到CATI项目整体业务流程如下:

通过利用CATI系统,我知道了计算机辅助电话访问就是用计算机为媒介设计问卷,用电话向被调查者进行访问。从而让计算机代替了问卷、答案纸和铅笔。通过计算机拨打所要的号码,电话接通之后,调查员就读出计算机屏幕上显示出的问答题并直接将被调查者的回答(用号码表示)用键盘记入计算机的记忆库之中。计算机会系统地指引整个业务流程。问卷可以直接在计算机中设计、调试,抽样过程可以大大简化,配额也完全由计算机系统自动控制,问卷执行时所有的问卷内部的流程和逻辑都有计算机内部控制,并且计算机会检查答案的适当性和一致性。 从中我感受到计算机收集数据的过程是自然的、平稳的,而且访问时间大大缩减,数据质量得到了加强,数据的录入等过程也不再需要,编码也可以统一的自动实现。由于回答是直接输入计算机的,关于数据收集和结果的阶段性的和最新的报告几乎可以立刻就得到。同时CATI可以提供更高效更全面透明的监控方式,所有的话务监控、通话录音、监听、监看都在一个独立的计算机上执行,大大减低了对访问过程的产生干扰的可能性。采用这种访问调查方式,具有调查内容客观真实、保密性强、访问效率高等特点。 在这次社会调查中,我深刻的感受到CATI在社会调查访问中具有强大的功能。 1、实效快。省去了传统调查所必须的印刷问卷、上门入户或邮寄问卷、审核问卷、数据录入等环节,在短时间内即可完成调查,访问结束后几十分钟内即可汇总数据,周期较短。

抽样技术简答题及答案

抽样技术各类简答题参考答案 习题一 1.请列举一些你所了解的以及被接受的抽样调查。 略 2. 抽样调查基础理论及其意义; 答:大数定律,中心极限定理,误差分布理论,概率理论。 大数定律是统计抽样调查的数理基础,也给统计学中的大量观察法提供了理论和数学方面的依据;中心极限定理说明,用样本平均值产生的概率来代替从总体中直接抽出来的样本计算的抽取样本的概率,为抽样推断奠定了科学的理论基础;认识抽样误差及其分布的目的是希望所设计的抽样方案所取得的绝大部分的估计量能较好的集中在总体指标的附近,通过计算抽样误差的极限是抽样误差处于被控制的状态;概率论作为数学的一个分支而引进统计学中,是统计学发展史上的重要事件。 3.抽样调查的特点。 答:1)随机抽样;2)以部分推断总体;3)存在抽样误差,但可计算,控制;4)速度快、周期短、精度高、费用低;5)抽样技术灵活多样;6)应用广泛。 4.样本可能数目及其意义; 答:样本可能数目是在容量为N的总体中抽取容量为n的样本时,所有可能被抽中的不同样本的个数,用A表示。 意义:正确理解样本可能数目的概念,对于准确理解和把握抽样调查误差的计算,样本统计量的抽样分布、抽样估计的优良标准等一系列理论和方法问题都有十分重要的帮助。 5. 影响抽样误差的因素; 答:抽样误差是用样本统计量推断总体参数时的误差,它属于一种代表性误差,在抽样调查中抽样误差是不可避免的,但可以计算,并且可以被控制在任意小的范围内;影响 抽样误差的因素:1)有样本量大小,抽样误差通常会随着样本量的大小而增减,在某 些情形下,抽样误差与样本量大小的平方根成反比关系;2)所研究现象总体变异程度 的大小,一般而言,总体变异程度越大则抽样误差可能越大;3)抽样的方式方法, 如放回抽样的误差大于不放回抽样,各种不同的抽样组织方式也常会有不同的抽样误 差。 在实际工作中,样本量和抽样方式方法的影响是可以控制的,总体变异程度虽不可以 控制,但却可通过设计一些复杂的抽样技术而将其影响加以控制。 习题二 三简答题 1 概率抽样与非概率抽样的区别 答:概率抽样是指在抽取样本单元时,每个总体单元有一个非零的入样概率,并且样本单元的抽取应遵循一定的随机化程序。 2 普查与抽样调查的区别 答:普查是对总体的所有单元进行调查;抽样调查仅对总体中的部分单元进行调查。 3何谓抽样效率,如何评价设计效果? 答:两个抽样方案的抽样方差之比为抽样效率。当某个估计量的方差比另一估计量的方差小时,则称方差小的估计量效率比较高,因方差的大小与样本容量有直接的关系,因此比

数据挖掘实验报告-关联规则挖掘

数据挖掘实验报告(二)关联规则挖掘 姓名:李圣杰 班级:计算机1304 学号:1311610602

一、实验目的 1. 1.掌握关联规则挖掘的Apriori算法; 2.将Apriori算法用具体的编程语言实现。 二、实验设备 PC一台,dev-c++5.11 三、实验内容 根据下列的Apriori算法进行编程:

四、实验步骤 1.编制程序。 2.调试程序。可采用下面的数据库D作为原始数据调试程序,得到的候选1项集、2项集、3项集分别为C1、C2、C3,得到的频繁1项集、2项集、3项集分别为L1、L2、L3。

代码 #include #include #define D 4 //事务的个数 #define MinSupCount 2 //最小事务支持度数 void main() { char a[4][5]={ {'A','C','D'}, {'B','C','E'}, {'A','B','C','E'}, {'B','E'} }; char b[20],d[100],t,b2[100][10],b21[100 ][10]; int i,j,k,x=0,flag=1,c[20]={0},x1=0,i1 =0,j1,counter=0,c1[100]={0},flag1= 1,j2,u=0,c2[100]={0},n[20],v=1; int count[100],temp; for(i=0;i=MinSupCount) { d[x1]=b[k]; count[x1]=c[k]; x1++; } } //对选出的项集中的元素进行排序 for(i=0;i

自动控制系统实验报告

自动控制系统实验报告 学号: 班级: 姓名: 老师:

一.运动控制系统实验 实验一.硬件电路的熟悉和控制原理复习巩固 实验目的:综合了解运动控制实验仪器机械结构、各部分硬件电路以及控制原理,复习巩固以前课堂知识,为下阶段实习打好基础。 实验内容:了解运动控制实验仪的几个基本电路: 单片机控制电路(键盘显示电路最小应用系统、步进电机控制电路、光槽位置检测电路) ISA运动接口卡原理(搞清楚译码电路原理和ISA总线原理) 步进电机驱动检测电路原理(高低压恒流斩波驱动电路原理、光槽位置检测电路)两轴运动十字工作台结构 步进电机驱动技术(掌握步进电机三相六拍、三相三拍驱动方法。) 微机接口技术、单片机原理及接口技术,数控轮廓插补原理,计算机高级语言硬件编程等知识。 实验结果: 步进电机驱动技术: 控制信号接口: (1)PUL:单脉冲控制方式时为脉冲控制信号,每当脉冲由低变高是电机走一步;双 脉冲控制方式时为正转脉冲信号。 (2)DIR:单脉冲控制方式时为方向控制信号,用于改变电机转向;双脉冲控制方式 时为反转脉冲信号。

(3)OPTO :为PUL 、DIR 、ENA 的共阳极端口。 (4)ENA :使能/禁止信号,高电平使能,低电平时驱动器不能工作,电机处于自由状 态。 电流设定: (1)工作电流设定: (2)静止电流设定: 静态电流可用SW4 拨码开关设定,off 表示静态电流设为动态电流的一半,on 表示静态电流与动态电流相同。一般用途中应将SW4 设成off ,使得电机和驱动器的发热减少,可靠性提高。脉冲串停止后约0.4 秒左右电流自动减至一半左右(实际值的60%),发热量理论上减至36%。 (3)细分设定: (4)步进电机的转速与脉冲频率的关系 电机转速v = 脉冲频率P * 电机固有步进角e / (360 * 细分数m) 逐点比较法的直线插补和圆弧插补: 一.直线插补原理: 如图所示的平面斜线AB ,以斜线起点A 的坐标为x0,y0,斜线AB 的终点坐标为(xe ,ye),则此直线方程为: 00 00Y Ye X Xe Y Y X X --= -- 取判别函数F =(Y —Y0)(Xe —Xo)—(X-X0)(Ye —Y0)

抽样调查-分层抽样实验报告

实验报告 实验思考题: 1、某调查员欲从某大学所有学生中抽样调查学生平均生活费支出情况,假设该调查员已经 完成了抽样,并获得样本情况(见样本文件),请根据此样本分别按性别、家庭所在地分层,并计算各层的样本量、平均生活费支出、生活费支出的方差及标准差。 (1)先对数据按照家庭所在地进行排序:【数据】→【排序】,选择“家庭所在地”(2)再对数据进行分类汇总:【数据】→【分类汇总】,“分类字段”选择“家庭所在地”,“汇总方式”选择“平均值”,“选定汇总项”选择“平均月生活费”,在对话框下方选择“汇总结果显示在数据下方”;再做两次分类汇总,“汇总方式”分别选择“计数”和“标准偏差”。最后得到表1-1所示结果: 表1-1 家庭所在地平均月生活费 大型城市平均值614.5348837 大型城市计数86 大型城市标准偏差300.0849173 乡镇地区平均值529.4117647 乡镇地区计数68 乡镇地区标准偏差219.0950339 中小城市平均值618.6440678 中小城市计数118 中小城市标准偏差202.5264159 总计平均值595.0367647 总计数272 总计标准偏差243.4439223

(3)在SPSS软件中得出的计算结果: 选择————,然后在出现的对话框中 分别在“Dependent list”框中选入“家庭所在地”,在“Independent List”框中选入“平均月生活费”,得到如表1-2所示结果: 表1-2 Report 平均月生活费 家庭所在地Mean N Std. Deviation 大型城市614.5386300.085 乡镇地区529.4168219.095 中小城市618.64118202.526 Total595.04272243.444 选择——,在出现的对话框中选择“function”选择估计量,得到如图1-2所示结果: 图1-1 图1-2

抽样调查习题

抽样调查练习 适合对口升学 一.单选题 1. 随机抽样的基本要求是严格遵守( )。 A.准确性原则 B.随机原则 C.代表性原则 D.可靠性原则 2. 抽样调查的主要目的是( )。 A.广泛运用数学的方法 B.计算和控制抽样误差 C.修正普查的资料 D.用样本统计量推算总体参数 3. 抽样总体单位亦可称为( )。 A.样本 B.单位样本数 C.样本单位 D.总体单位 4. 抽样误差产生于( )。 A.登记性误差 B.系统性误差 C.登记性误差与系统性误差 D.随机性的代表性误差 5. 在实际工作中,不重复抽样的抽样平均误差的计算,采用重复抽样的公式的情况是( )。 A.样本单位数占总体单位数的比重很小时 B.样本本单位数占总体单位数的比重很大时 C. 样本单位数目很少时 D. 样本单位数目很多时 6. 在同样条件下,不重复抽样的抽样平均误差与重复抽样的抽样平均误差大小关系是( )。 A.两者相等 B.前者小于后者 C.两者有时相等,有时不等 D.后者小于前者 7. 在抽样推断中,样本的容量( )。 A.越小越好 B.越大越好 C.取决于统一的抽样比例 D.取决于对抽样推断可靠性的要求 8. 用简单随机抽样(重复抽样)方法抽取样本单位,如果要使抽样平均误差降低50%,则样本容量需扩大到原来的( )。 倍倍倍倍 9. 在重复简单随机抽样下,抽样平均误差要减少1/3,则样本单位数就要扩大到( )。

倍倍倍倍 10. 某企业今年5月试制新产品,试生产60件,其中合格品与不合格品各占一半,则该新 产品合格率的成数方差为( )。 %%%% 11. 点估计( )。 A.不考虑抽样误差即可靠程度 B.考虑抽样误差及可靠程度 C.适用于推断的准确度要求高的情况 D.无需考虑无偏性、有效性、一致性 12. 反映样本统计量与总体参数之间抽样误差可能范围的指标是( )。 A.概率 B.允许误差的大小 C.概率保证程度 D.抽样平均误差的大小 13. 在区间估计中,有三个基本要素,它们是( )。 A.概率度、抽样平均误差、抽样数目 B.概率度、统计量值、误差范围 C.统计量值、抽样平均误差、概率度 D.误差范围、抽样平均误差、总体单位数 二.多选题 1. 抽样技术是一种( )。 A.搜集统计资料的方法 B.对现象总体进行科学的估计和推断方法 C.随机性的非全面调查方法 D.全面、准确的调查方法 2. 抽样调查的特点有( )。 A.只调查样本单位 B.抽样误差可以计算和控制 C.遵循随机原则 D.用样本统计量估计总体参数 3. 适用于抽样推断的有( )。 A.连续大量生产的某种小件产品的质量检验 B.某城市居民生活费支出情况 C.具有破坏性与消耗性的产品质量检查

大数据挖掘weka大数据分类实验报告材料

一、实验目的 使用数据挖掘中的分类算法,对数据集进行分类训练并测试。应用不同的分类算法,比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。 二、实验环境 实验采用Weka 平台,数据使用Weka安装目录下data文件夹下的默认数据集iris.arff。 Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java 写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 三、数据预处理 Weka平台支持ARFF格式和CSV格式的数据。由于本次使用平台自带的ARFF格式数据,所以不存在格式转换的过程。实验所用的ARFF格式数据集如图1所示 图1 ARFF格式数据集(iris.arff)

对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepal length、sepal width、petal length、petal width和class五种属性。期中前四种属性为数值类型,class属性为分类属性,表示实例所对应的的类别。该数据集中的全部实例共可分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。 实验数据集中所有的数据都是实验所需的,因此不存在属性筛选的问题。若所采用的数据集中存在大量的与实验无关的属性,则需要使用weka平台的Filter(过滤器)实现属性的筛选。 实验所需的训练集和测试集均为iris.arff。 四、实验过程及结果 应用iris数据集,分别采用LibSVM、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价,分别在训练数据上训练出分类模型,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。 1、LibSVM分类 Weka 平台内部没有集成libSVM分类器,要使用该分类器,需要下载libsvm.jar并导入到Weka中。 用“Explorer”打开数据集“iris.arff”,并在Explorer中将功能面板切换到“Classify”。点“Choose”按钮选择“functions(weka.classifiers.functions.LibSVM)”,选择LibSVM分类算法。 在Test Options 面板中选择Cross-Validatioin folds=10,即十折交叉验证。然后点击“start”按钮:

控制系统仿真实验报告

哈尔滨理工大学实验报告 控制系统仿真 专业:自动化12-1 学号:1230130101 姓名:

一.分析系统性能 课程名称控制系统仿真实验名称分析系统性能时间8.29 地点3# 姓名蔡庆刚学号1230130101 班级自动化12-1 一.实验目的及内容: 1. 熟悉MATLAB软件的操作过程; 2. 熟悉闭环系统稳定性的判断方法; 3. 熟悉闭环系统阶跃响应性能指标的求取。 二.实验用设备仪器及材料: PC, Matlab 软件平台 三、实验步骤 1. 编写MATLAB程序代码; 2. 在MATLAT中输入程序代码,运行程序; 3.分析结果。 四.实验结果分析: 1.程序截图

得到阶跃响应曲线 得到响应指标截图如下

2.求取零极点程序截图 得到零极点分布图 3.分析系统稳定性 根据稳定的充分必要条件判别线性系统的稳定性最简单的方法是求出系统所有极点,并观察是否含有实部大于0的极点,如果有系统不稳定。有零极点分布图可知系统稳定。

二.单容过程的阶跃响应 一、实验目的 1. 熟悉MATLAB软件的操作过程 2. 了解自衡单容过程的阶跃响应过程 3. 得出自衡单容过程的单位阶跃响应曲线 二、实验内容 已知两个单容过程的模型分别为 1 () 0.5 G s s =和5 1 () 51 s G s e s - = + ,试在 Simulink中建立模型,并求单位阶跃响应曲线。 三、实验步骤 1. 在Simulink中建立模型,得出实验原理图。 2. 运行模型后,双击Scope,得到的单位阶跃响应曲线。 四、实验结果 1.建立系统Simulink仿真模型图,其仿真模型为

最新版计量经济学实验报告

3.3 3.3 经调查研究发现,家庭书刊消费受家庭收入及户主受教育年数的影响,表3.6为对某地区部分家庭抽样调查得到的样本数据。 表3.6 家庭书刊消费、家庭收入及户主受教育年数数据 (1)作家庭书刊消费(Y )对家庭月平均收入(X )和户主受教育年数(T )的多元线性回归: 1 2 3 i i i i u Y X T βββ=+++ 利用样本数据估计模型的参数,对模型加以检验,分析所估计模型的经济意义和作用。 步骤: 1.打开EViews6,点“File ”→“New ”→“Workfile ”。选择 “Unstructured/Unda=ted ”在Observations 后输入18,点击ok 。

2. 在命令行输入:DATA Y X T,回车。将数据复制粘贴到Group中的表格中。 3. 建立数据关系图为初步观察数据的关系,在命令行输入命令:sort Y,从而实现数据Y的递增排序。 4. 在数据表“group”中点“view/graph/line”,最后点击确定,出现序列Y、X、T 的线性图。

5. OLS 估计参数,点击主界面菜单Quick\Estimate Equation ,弹出对话框,如下图。在其中输入Y c X T ,点确定即可得到回归结果。 ()()()()()() 2 2 50.01620.0864552.3703 49.46026 0.02936 5.20217 t= 1.011244 2.944186 10.067020.951235 =0.944732 F=146.2974 ?i i i X T Y R R =-++-= 经济意义:家庭月平均收入每增加1元,家庭书刊消费将增加0.08645 元。户主受教育年数每

第六章抽样调查练习及答案

第 六章 抽样调查 一、填空题 1.抽选样本单位时要遵守 原则,使样本单位被抽中的机会 。 2.常用的总体指标有 、 、 。 3.在抽样估计中,样本指标又称为 量,总体指标又称为 。 4.全及总体标志变异程度越大,抽样误差就 ;全及总体标志变异程度越小, 抽样误差 。 5.抽样估计的方法有 和 两种。 6.整群抽样是对被抽中群内的 进行 的抽样组织方式。 7.误差分为 和代表性误差;代表性误差分为________和偏差;偏差是 ____________________________,也称为________________。 8.简单随机抽样的成数抽样平均误差计算公式是:重复抽样条件下: ; 不重复抽样条件下: 。 9.误差范围△,概率度t 和抽样平均误差μ之间的关系表达式为 。 10.抽样调查的组织形式有: 。 二、单项选择题 1.所谓大样本是指样本单位数在( )及以上 A 30个 B 50个 C 80个 D100个 2.抽样指标与总体指标之间抽样误差的可能范围是( ) A 抽样平均误差 B 抽样极限误差 C 区间估计范围 D 置信区间 3.抽样平均误差说明抽样指标与总体指标之间的( ) A 实际误差 B 平均误差 C 实际误差的平方 D 允许误差 4.是非标志方差的计算公式( ) A P(1-P) B P(1-P)2 C )1(P P - D P 2(1-P) 5.总体平均数和样本平均数之间的关系是( ) A 总体平均数是确定值,样本平均数是随机变量 B 总体平均数是随机变量,样本平均数是确定值 C 两者都是随机变量 D 两者都是确定值 6.对入库的一批产品抽检10件,其中有9件合格,可以( )概率保证合格率不低于80%。 A 95.45% B 99.7396 C 68.27% D 90% 7.在简单随机重复抽样情况下,若要求允许误差为原来的2/3,则样本容量 ( ) A 扩大为原来的3倍 B 扩大为原来的2/3倍 C 扩大为原来的4/9倍 D 扩大为原来的2.25倍 8.根据抽样调查得知:甲企业一等品产品比重为30%,乙企业一等品比重为50%

抽样调查习题及答案

第四章习题 抽样调查 一、填空题 1. 抽样调查是遵循随机的原则抽选样本,通过对样本单位的调查来对研究对象的总体数量特征作出推断的。 2. 采用不重复抽样方法,从总体为N的单位中,抽取样本容量为n 的可能样本个数为N(N-1)(N-2)……(N-N+1)。 3. 只要使用非全面调查的方法,即使遵守随机原则,抽样误差也不可避免会产生。 4. 参数估计有两种形式:一是点估计,二是区间估计。 5. 判别估计量优良性的三个准则是:无偏性、一致性和有效性。 6. 我们采用“抽样指标的标准差”,即所有抽样估计值的标准差,作为衡量抽样估计的抽样误差大小的尺度。 7. 常用的抽样方法有简单随机抽样、类型(分组)抽样、等距抽样、整群抽样和分阶段抽样。 8. 对于简单随机重复抽样,若其他条件不变,则当极限误差范围Δ缩小一半,抽样单位数必须为原来的4倍。若Δ扩大一倍,则抽样单位数为原来的1/4。 9. 如果总体平均数落在区间960~1040内的概率是95%,则抽样平均数是1000,极限抽样误差是40.82,抽样平均误差是20.41。 10. 在同样的精度要求下,不重复抽样比重复抽样需要的样本容量

少,整群抽样比个体抽样需要的样本容量多。 二、判断题 1. 抽样误差是抽样调查中无法避免的误差。(√) 2. 抽样误差的产生是由于破坏了随机原则所造成的。(×) 3. 重复抽样条件下的抽样平均误差总是大于不重复抽样条件下的抽样平均误差。(√) 4. 在其他条件不变的情况下,抽样平均误差要减少为原来的1/3,则样本容量必须增大到9倍。(√) 5. 抽样调查所遵循的基本原则是可靠性原则。(×) 6. 样本指标是一个客观存在的常数。(×) 7. 全面调查只有登记性误差而没有代表性误差,抽样调查只有代表性误差而没有登记性误差。(×) 8. 抽样平均误差就是抽样平均数的标准差。(×) 三、单项选择题 1. 用简单随机抽样(重复)方法抽取样本单位,如果要使抽样平均误差降低50%,则样本容量需扩大为原来的(C) A. 2倍 B. 3倍 C. 4倍 D. 5倍 2. 事先将全及总体各单位按某一标志排列,然后依固定顺序和间隔来抽选调查单位的抽样组织方式叫做(D) A. 分层抽样 B. 简单随机抽样 C. 整群抽样 D. 等距抽样 3. 计算抽样平均误差时,若有多个样本标准差的资料,应选哪个来

相关文档