关于中小型银行大数据的统计分析
学院
专业*****
班级***
学号*****
姓名
指导教师
沈阳航空航天大学
年月
目录
前言 ......................................................................................................................... 1 一、采集样本及数据整理 . (2)
1、数据的搜集方法及说明 ................................................................................ 2
2、数据整理:给出频数、频率分布表及说明 .................................................... 7
3、画出直方图和折线图并给出说明 .................................................................. 8
4、 画出经验分布函数 .................................................................................... 10 二、假定总体服从正态分布,给出μ,2
σ的估计 (11)
1、矩估计法 .................................................................................................... 11 2、极大似然估计............................................................................................. 12 三、参数区间估计 . (13)
1、方差2σ未知,求数学期望μ的置信区间 .................................................... 13 2、数学期望μ,2σ均未知,求方差2σ的置信区间 ........................................ 14 四、参数的假设检验 . (14)
1.样本统计数据的t 检验 (14)
2.样本统计数据的-2
χ检验............................................................................. 15 五、 非参数假设检验 ............................................................................................ 17 六、结论 ............................................................................................................... 19 参考文献 (20)
前言
数理统计是一门对随机现象进行有限次的观测或试验的结果进行数量研究,并依之对总体的数理规律性作出具有一定可靠性推断的应用数学学科。也就是说,数理统计学是统计学的数学基础,它是研究怎样有效地收集、整理和分析带有随机性的数据,以对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议的数学分支。近几十年来,数理统计的广泛应用是非常引人注目的。在社会科学中,选举人对政府意见的调查、民意测验、经济价值的评估、产品销路的预测、犯罪案件的侦破等,都有数理统计的功劳[1]。在经济领域,从某种商品未来的销售情况预测,甚至整个国家国民经济状况预测及发展计划的制定都要用到数理统计知识[2]。在自然科学、军事科学、工农业生产、医疗卫生等领域,哪一个门类都离不开数理统计。它的用处之大不胜枚举。笼统地说,数理统计学的理论和方法,与人类活动的各个领域在不同程度上都有关联。因为各个领域内的活动,都得在不同的程度上与数据打交道,都有如何收集和分析数据的问题,因此也就有数理统计学用武之地。可以这么说,现代人的生活、科学的发展都离不开数理统计。从某种意义上讲,数理统计在一个国家中的应用标志着这个国家的科学水平[3]。
数理统计可以看做是概率论的推广应用,其众多内容都是建立在概率论基础之上的[4]。但是,数理统计作为纯数学的一个方向,如果仅仅研究数理统计的数学性质,就脱离了数学在科学研究中应有的价值。正如数学以其逻辑性和严密性被其他学科作为有力工具运用于分析应用中一样,数理统计也因为其逻辑性和严密性被引用到银行的领域中。本文就是对这方面的应用,通过用计算机领域中的信息安全技术,对全国中小型银行的大数据处理个数的统计。其间分别进行了数据模型的选择和建立,数据的采集,数据的整理,对数据进行的统计推断,给出矩法估计、极大似然估计、给出参数估计区间、给出2,σμ的t 检验和2χ检验,进行非参数拟合优度检验,从而得出相应的结论。
一、采集样本及数据整理
1、数据的搜集方法及说明
众所周知,数据的搜集方法有直接搜集方法和间接搜集方法,直接搜集是直接向调查对象搜集反映调查单位的原始资料数据。而我采用的是间接搜集方法,也就是通过网络搜集到已经加工整理过的、能够说明总体现象的数据。本文采集的是2012年5月1日中国部分中小型银行利用信息安全技术对大数据处理个数。如表1-1所示:
表1-1 中国部分中小型银行数据统计
地区银行名称截止时间大数据(亿)
湖北孝感市商业银行2011-10-1 78.54
辽宁丹东市商业银行2011-10-1 162.33
湖南岳阳市商业银行2011-10-1 399.56
浙江象山县绿叶城市信用社2011-10-1 457
四川宜宾市商业银行2011-10-1 702.22
黑龙江牡丹江市商业银行2011-10-1 850.5
云南曲靖市商业银行2011-10-1 1000.55
山西晋中市商业银行2011-10-1 1023.4
山西阳泉市商业银行2011-10-1 1233.85
四川遂宁市商业银行2011-10-1 1355.7
湖北黄石市商业银行2011-10-1 1379.6
山东枣庄市商业银行2011-10-1 1388 重庆重庆三峡银行2011-10-1 1501 陕西宝鸡市商业银行2011-10-1 1503.8 河南信阳市商业银行2011-10-1 1722 辽宁鞍山市商业银行2011-10-1 1795.1 河北邢台市商业银行2011-10-1 1800 湖北荆州市商业银行2011-10-1 1800 河南安阳市商业银行2011-10-1 1800 河南焦作市商业银行2011-10-1 1801.23 内蒙古乌海市商业银行2011-10-1 1803.47 山东济宁市商业银行2011-10-1 1810 河南许昌市商业银行2011-10-1 1810.32 辽宁抚顺市商业银行2011-10-1 1812.11 内蒙古呼和浩特市商业银行2011-10-1 1812.75 江西九江银行2011-10-1 1815.56 河北秦皇岛市商业银行2011-10-1 1816 河南平顶山市商业银行2011-10-1 1928.38 青海青海银行2011-10-1 1946.5 湖南湘潭市商业银行2011-10-1 1958.78 湖南株洲市商业银行2011-10-1 2000 湖南衡阳市商业银行2011-10-1 2000
福建泉州市商业银行2011-10-1 2012.87 江西赣州银行2011-10-1 2055.47 河南南阳市商业银行2011-10-1 2106 辽宁阜新市商业银行2011-10-1 2107 湖北宜昌市商业银行2011-10-1 2111.64 广西桂林市商业银行2011-10-1 2165.8 黑龙江齐齐哈尔市商业银行2011-10-1 2178 浙江湖州市商业银行2011-10-1 2186.8 河北沧州市商业银行2011-10-1 2207.54 河南新乡市商业银行2011-10-1 2217 广东湛江商业银行2011-10-1 2225 浙江浙江泰隆商业银行2011-10-1 2227.56 河北张家口市商业银行2011-10-1 2231.08 广西柳州市商业银行2011-10-1 2240.77 河北冀中银行2011-10-1 2244 浙江嘉兴市商业银行2011-10-1 2247 广西广西北部湾银行2011-10-1 2247.56 河北廊坊银行2011-10-1 2247.81 辽宁营口银行2011-10-1 2249 辽宁葫芦岛市商业银行2011-10-1 2258.36 山东东营市商业银行2011-10-1 2503
浙江浙江民泰商业银行2011-10-1 2507 山东德州市商业银行2011-10-1 2534 辽宁朝阳市商业银行2011-10-1 2548 黑龙江大庆市商业银行2011-10-1 2556.6 浙江浙江稠州市商业银行2011-10-1 2577.56 山西大同市商业银行2011-10-1 2589.4 山东莱芜市商业银行2011-10-1 2601.63 浙江金华市商业银行2011-10-1 2605 山东临商银行2011-10-1 2609 河南洛阳市商业银行2011-10-1 2627 福建厦门市商业银行2011-10-1 2631.23 山东日照市商业银行2011-10-1 2643.8 山西太原市商业银行2011-10-1 2652 山东潍坊市商业银行2011-10-1 2668.4 浙江台州市商业银行2011-10-1 2675.71 山东威海市商业银行2011-10-1 2677.6 宁夏宁夏银行2011-10-1 2679.97 浙江绍兴市商业银行2011-10-1 2680 新疆乌鲁木齐市商业银行2011-10-1 2681.5 山东齐商银行2011-10-1 2682 江西南昌银行2011-10-1 2688.5
山东烟台市商业银行2011-10-1 2689 甘肃兰州市商业银行2011-10-1 2699 浙江温州银行2011-10-1 2871 贵州贵阳市商业银行2011-10-1 2886.74 河南郑州市商业银行2011-10-1 2900 山东青岛市商业银行2011-10-1 2901 辽宁锦州市商业银行2011-10-1 2926.7 福建海峡银行2011-10-1 2936.21 云南富滇银行2011-10-1 2945.31 湖北汉口银行2011-10-1 2977.54 山东齐鲁银行2011-10-1 2998.13 河北石家庄市商业银行2011-10-1 3005 重庆重庆银行2011-10-1 3009.87 吉林吉林银行2011-10-1 3015.24 黑龙江哈尔滨银行2011-10-1 3044.76 内蒙古包商银行2011-10-1 3100.9 湖南长沙银行2011-10-1 3108.56 四川成都银行2011-10-1 3112.53 广东东莞银行2011-10-1 3118 浙江杭州市商业银行2011-10-1 3119.68 辽宁大连银行2011-10-1 3520
辽宁 盛京银行 2011-10-1 3531.26 广东 广州银行 2011-10-1 3533.6 天津 天津银行 2011-10-1 3,546.72 安徽 徽商银行 2011-10-1 3,547.10 江苏 南京银行 2011-10-1 3,548.60 浙江 宁波银行 2011-10-1 3,712.00 广东 深圳平安银行 2011-10-1 3,716.00 江苏 江苏银行 2011-10-1 3,855.42 上海 上海银行 2011-10-1 3,988.50 北京
北京银行
2011-10-1
4,417.65
从表1-1中,可以非常明显得看到各中小型银行的大数据处理个数,下面我们对各银行做下讨论与研究。
2、数据整理:给出频数、频率分布表及说明
从上面的表中看到,银行大数据(单元:亿)的样本观察值的最小值是湖北省孝感市商业银行的个数()54.781=x ,最大值是位于北京市的北京银行
()65.4417=n x ,取a=78,b=4418,全距L=4418-78=4340,把数据分布的区间(78,4418]等分为10个子区间,等组距为43410
4340
==
?i t ,i=1,2,…10。 通过计数求出落在各子区间的大数据个数,则得频数i n 和频率n
n
f i i =分布,
列入表1-2。
表1-2 大数据频数和频率分布表
序号 大数据子区间 组中值 频数i n 频率i f 1 2 3 4 5 6 7 8 9 10
(78,512] (512,946] (946,1380] (1380,1814] (1814,2248] (2248,2682] (2682,3116] (3116,3550] (3550,3984] (3984,4418]
295 729 1163 51597 2031 2465 2899 3333 3767 4201 4 2 5 14 25 22 20 8 3 2
0.04 0.02 0.05 0.13 0.24 0.21 0.19 0.08 0.03 0.02 ∑
1
3、画出直方图和折线图并给出说明
由于等组距,故在横轴上截取子区间,且各子区间的宽度i t ?等于组距434,第i 个小矩形的高为组频数,由此从直方图的分布上可以大致看出大数据的分布。直方图1-1和折线图1-2所示。
图1-1 频数-大数据子区间直方图
图1-2 频数-大数据子区间折线图
由图1-1和图1-2可见,直方图大致呈对称形状,可以认为大数据近似服从正态分布,其数学期望大致在2300附近。
4、画出经验分布函数
由于)(x F 依赖顺序统计量的观察值,所以)(x F 是一个随机变量,它的可能
取值为:n 1,n 2,…,n
n 1
-,1,故)(x F 表示n 次独立试验中,事件}{x X ≤发
生的频率。样本X 1,X 2,…X n 中n 个随机变量相互独立,导致事件})({n
k
x F =发
生的概率等价于进行n 次伯努力试验,事件}{x X ≤发生k 次的概率,即
k n k k
n x F x F C n
k x F P --==)](1[)]([))((
其中)()(x X P x F ≤=是总体X 的分布函数。
二、假定总体服从正态分布,给出μ,2
σ的估计
1、矩估计法
从总体中随机抽取25个样本:
162.33, 702.22, 1233.85, 1501, 1795.1, 1800, 1928.38, 2000, 2107, 2217, 2240.77, 2247.81, 2507, 2577.56, 2627, 2668.4, 2681.5, 2699, 2926.7, 2998.13, 3015.24, 3108.56, 3533.6, 3716, 4417.65
∑===n
i i X n X X E 11)(
∑===n i i X n A X E 1
2
22
1)(
)()()(22X E X E X D -=
将样本值代入,得出μ和2σ的矩估计值: μ的矩估计值为 ∧
μ=2376.5 2
σ的矩估计值为 ∧2
σ=810220.1
2、极大似然估计
对正态总体),(2σμN ,),(2σμθ=是二维参数,设有样本1X ,2X ,…n X ,则似然函数及其对数分别为
})(21ex p{)2(}2)(ex p{21),(1
2
22
22212
∑=-=--
=--∏=n
i i
n i n
i x x L μσπσσμσ
πσμ
)2l n (2
ln 2)(21
),(ln 2
1222
πσμσσμn n x L n
i i
----
=∑= 将),(ln 2σμL 分别关于两个分量求偏导并令其为0,即得到似然方程组
0)(1
),(ln 1
22=-=??∑=n
i i
x L μσμσμ
02)(21),(ln 1
2
24
22=-
-=
??∑=n
i i n x L σμσσσμ
解此方程组,可得μ的极大似然估计为
x x n n
i i ==∑=∧
1
1μ
将之代入第二方程,得出2σ的极大似然估计
∑=∧-=n
i i x x n 1
22
)(1σ
所以μ的极大似然估计量为
X X n n
i i ==∑=∧
1
1μ
2σ的极大似然估计量为
∑=∧-=n
i i X X n 1
22
)(1σ
将样本值代入,得出μ,2σ的极大似然估计值
∧
μ=2376.5
∧2
σ=810353.15
三、参数区间估计
1、方差2σ未知,求数学期望μ的置信区间
当σ已知时,选取样本的函数服从标准正态分布,即
)1,0(~5
2.900N X Z μ
-=
给定置信水平0.95,使
95.0)5
2.900(
025.0=<-z X P μ
分位数为96.1025.0=z ,上式等价于
95.0)96.15
2
.90096.152.900(=?+<-
X X P μ 则μ的置信水平为0.95的置信区间为
)4.2729,6.2023()96.15
2.9005.2376,96.152.9005.2376(=?+?-
2、数学期望μ,2σ均未知,求方差2σ的置信区间
选取样本的函数为
)1(~)1(22
2
2
--=
n S n χσ
χ
给定置信水平0.95,使
95.0))24(4)24((2025.02
2
2
975
.0=<<
χσ
χ
S P
从-2χ分布表查出分位数为401.12)24(2975.0=χ,364.39)24(2
025.0=χ,于是
95.0)401
.1224364.3924(22
2=<
)8.1633644,7.514653()401
.129
.84411724,364.399.84411724()401.1224,364.3924(22=??=s s 四、参数的假设检验
1.样本统计数据的t 检验
假设所有银行所处理的大数据个数都为2400亿个。 (1) 原假设和备择假设
2400:0=μH , 2400:1≠μH
(2) 选取检验统计量
当原假设为真时,检验统计量为
)1(~0
--=
n t n
S X t μ (3) 确定拒绝域
给定显著水平05.0=α,使
05.0))24((025.0=≥t t P
查t 分布表得临界值为0639.2)24(025.0=t ,则拒绝域为]0639.2,(--∞或
),0639.2[∞。
(4) 样本标准差为76.918=s ,计算检验统计量的观察值,
128.05
76.9182400
5.2376-=-=
t
(5) 作判断
由于0639.2128.00639.2<-=<-t ,因此接受原假设。认为所有银行所处理的大数据均为2400亿个。
2.样本统计数据的-2χ检验
(1) 原假设和备择假设
800000:20=σH , 800000:21≠σH
(2) 选取检验统计量
当原假设为真时,检验统计量为
)1(~800000
)1(22
2
--=
n S n χχ (3) 确定拒绝域
样本方差为=2s 844117.9,给定显著性水平01.0=α,使
01.0))24(80000024(201.02=≥χS P 01.0))24(800000
24(299.02=≤χS P 则拒绝域为(0,10.856]或[42.980,∞)。 (4) 计算检验统计量的观察值
3235.252=χ
(5)作判断
因为980.423235.25856.102<=<χ,所以接受原假设。
五、非参数假设检验
-2χ拟合优度检验
频率分布如表1-2所示,通过画直方图,粗略知大数据个数服从正态分布,
数学期望大致在2300左右。检验在显著性水平01.0=α下,各银行的大数据个数X 是否服从正态分布。
原假设和备择假设为
),(~:20σμN X H , 01:H H 不真
其中μ,2σ均为未知参数。μ,2σ的极大似然估计值分别为 ∧
μ=2376.5, 22
196.900=∧
σ
以表1-2为基础,原假设为真时,计算随机变量X 落在各小区间的概率0i p 。
0192.0)07.2()196
.9005
.2376512(
)512(10=-=-=≤=ΦΦX P p
0367
.0)07.2()59.1()196.9005
.2376512()196.9005.2376946()946512(20=---=---=≤<=ΦΦΦΦX P p 0776
.0)59.1()11.1()196.9005
.2376946()196.9005.23761380()1380946(30=---=---=≤<=ΦΦΦΦX P p …
∑==-=9
100,100367.01i i p p
等价检验假设
经济与管理学部 会计学专业 《统计学课程设计》报告 项目名称:关于江城学院在校大学生生活情况调查报告班级与组别:33000801 项目成员:分工 组长:王.. 问卷设计、数据收集 组员:石.. 撰写报告 陈.. 发放问卷、数据整理 李.. 发放问卷 指导老师:俞良蒂 2010年12月15日
第一部分调查方案设计 一、调查方案 (一)调查目的: (二)调查对象: (三)调查单位: (四)调查的方式与方法 (五)调查程序: (六)调查时间:2002年4月20日—2002年6月10日 (七)调查内容 (八)组织与实施(分工) 二、问卷设计 开头部分 甄别部分 主体部分 背景部分 非常感谢您的合作! 三、问卷发放 本次调查我们采取分层抽样,对在校本科生各个年级男、女生各发放问卷30份左右;我们在学一、学二、学八、学九共发放问卷300份,回收问卷291份,其中有效问卷共265份。现将各年级男女生回收有效问卷具体情况介绍如下: 大一:(男生)26 份(女生)31份 大二:(男生)34 份(女生)40份
大三:(男生)31 份(女生)32份 大四:(男生)41 份(女生)30份 总计:(男生)132 份(女生)133份 四、数据整理 为了便于用计算机进行数据处理,我们用数字代码来表示问卷信息,为了便于统一,对于问卷答案“A”、“B”、“C”、“D”、“E”、“F”,我们分别用“1”、“2”、“3”、“4”、“5”、“6”表示(答案缺省项为空项),例如:我们用“1”表示男性,用“2”表示女性;各个年级也分别用“1”、“2”、“3”、“4”来表示。 数据具体整理情况见附件1。 五、小组人员分工 第二部分数据分析 根据以上整理的数据,我们进行数据分析。我们设样本一为抽样总体,样本二为男生的抽样总体,样本三为女生的抽样总体。 一、生活费水平的分析 1. 对样本一的分析 由整理后输入计算机的数据,我们绘制出样本一生活费水平的频数分布表(表1)和直方图(图1),结果如下: 表1 样本一生活费水平的频数分布表 按支出分组/元频率累积/ % 300以下4 1.51%
经济学课程设计心得体会 通过经济学课程设计学习,在计量经济理论研究中得到引用,而且在政策评价的计量经济模型中得到了有效的应用。下面是管理资源吧小编为大家收集整理的经济学课程设计学习心得,欢迎大家阅读。 经济学课程设计心得体会1经过一个学期对计量经济学的学习,我收获了很多,也懂得了很多。通过以计量经济学为核心,以统计学,数学,经济学等学科为指导,辅助以一些软件的应用,从这些之中我都学到了很多的知识。 通过学习计量经济学,我发现:计量经济学便是用精简的文字概括内容要点,用朴实的语言联系现实生活,让我们体会到计量经济学就在我们的身边。 参观一个城市,先站在最高处俯瞰,然后走街串巷;了解一座建筑,先看模型,后走进每一个房间。各起一半作用。计量经济学也是如此。 学习计量经济学给我印象和帮助最大的主要有两点:一:对EVIES软件的熟练操作与应用,记得以前学运筹学的时候,我学会了Lindo软件,而现在我又学会了Eviews软件,我感觉自己真的是很幸运,因为毕竟有些软件是属于那种有价无市的,如果没有老师的传授我不可能从市场上或是从思想上认识到它;二:对于计量经济学辩论赛的认识我是很深刻
的,在这一场没有硝烟但却处处充满着科学理论的睿智辩论中,我提高了胆识,增长了见识,也学会了团队与协作的力量。 以下我将着重从六个方面阐述我对计量经济学知识的一些认识以及个人从中学到的经验与心得。 一:计量经济学教我了我很多。 在学习计量经济学的过程中,我可以旁征博引,同时老师也给了我很多有意思的启发,因为即将面临考研的抉择,这门课也是我考研过程中必备的一门课程,因此,虽然是一门限选课,但是我仍然很用心得听讲,并对一些重要的知识做了记录,从而为自己的考研奠定一定的基础。 在认识计量经济学并不断提高自己对它的认识过程中,我感触最深的便是那一次的辩论赛,真的,一次辩论可以教会我很多有用的知识,从一个辩题的准备到辩论的过程,从推陈出新到完美的放映,从团队协作再到完美的配合,这一切,我觉得我们小组都做到了。 在整个辩论赛的工程中,我主要负责推陈出新这一板块的设计,开始的时候我觉得自己的任务很重,肩上的担子也很重,为此我们一个大组中的一个小组激烈讨论了半天,最终敲定了以Flah这样一种方式吸引大家的眼球从而更进一步的让大家了解我们的团队,包括出新,课件展示,问题竞答。除此以外,我们还以两个人为主持,作为一条贯穿始终
数理统计中回归分析的探究与应用
回归分析问题探究 摘要 本文主要针对数理统计中的回归分析问题,通过对一元线性回归、多元线性回归以及非线性回归原理的探究,分别运用了SPSS和MATLAB软件进行实例分析以及进一步的学习。 首先,通过变量之间关系的概念诠释引出回归函数;其次,针 对回归函数,分别对一元线性回归原理上的学习,了解并会运用这三种线性回归模型、参数估计和回归系数的显著性检验来处理和解决实际的一元线性回归问题;接着,对多元线性回归和非线性回归进行学习,掌握它们与一元线性回归在理论和实践的联系与区别;然后,通过实际问题运用SPSS进行简单的分析,熟悉SPSS软件的使用步骤和分析方法,能够运用SPSS进行简单的数理分析;最后,用MATLAB编程来处理线性回归问题,通过多种方法进行比较,进行线性回归拟合计算并输出Logistic模型拟合曲线。 关键词:回归分析;一元线性回归;多元线性回归;非线性回归;SPSS;MATLAB
一、回归概念 一般来说,变量之间的关系大致可以分为两类:一类是确定性的,即变量之间的关系可以用函数的关系来表达;另一类是非确定性的,这种不确定的关系成为相关关系。相关关系是多种多样的,回归分析就是研究相关关系的数理统计方法。它从统计数据出发,提供建立变量之间相关关系的近似数学表达式——经验公式的方法,给出相关行的检验规则,并运用经验公式达到预测与控制的目的。 如随机变量Y与变量x(可能是多维变量)之间的关系,当自变量x确定后,因变量Y 的值并不跟着确定,而是按照一定的停机规律(随机变量Y的分布)取值。这是我们将它们之间的关系表示为 其中是一个确定的函数,称之为回归函数,为随机项,且。回归分析 的任务之一就是确定回归函数。当是一元线性函数形时,称之为一元线性回归;当 是多元线性函数形时,称之为多元线性回归;当是非线性函数形时,称之为非线性回归。 二、回归分析 2.1 一元线性回归分析 2.1.1 一元线性回归模型 设随机变量Y与x之间存在着某种相关关系,这里x是可以控制或可以精确测量的普通变量。对于取定的一组不完全相同的值做独立实验得到n对观察值 一般地,假定x与Y之间存在的相关关系可以表示为 , 其中为随机误差且,未知,a和b都是未知参数。这个数学模型成为医院 线性回归模型,称为回归方程,它所代表的直线称为回归直线,称b为回归系数。 对于一元线性回归模型,显然有。
概率论与数理统计课程设计
概率论的起源、发展和应用 作者: 摘要:论文简要介绍了概率论与数理统计学科的起源和发展,以及概率论与理统计在生活中的应用。 关键词:概率论与数理统计,起源,发展,应用 1、引言 《概率论与数理统计》是研究随机现象统计规律的一门数学学科,也是一门应用性很强又颇具特色的数学学科。它在包括控制、通信、生物、物理、力学、金融、社会科学等工程技术领域以及科学研究、经济管理、企业管理、经济预测等众多领域都有广泛的应用;它与其他数学分支有着紧密的联系(如微积分、高等代数、测度论等),是近代数学的重要组成部分;它的方法和理论向各个基础学科、工程学科的渗透,是近代科学技术发展的特征之一;它与基础学科相结合产生出了许多边缘学科,如生物统计、统计物理、数学地质等;它又是许多新兴的重要学科的基础,如信息论、控制论、可靠性理论、人工智能、信息编码理论和数据挖掘等。 《概率论与数理统计》是工科大学的一门应用性很强的必修基础课。学习和掌握概率论与数理统计的基本理论和基本方法并将其灵活应用于科学研究和工程实际中,是社会发展对高素质人才培养提出的必然要求。 2、概率论与数理统计的起源 概率论的萌芽源于十七世纪保险业的发展,但是真正引发数学家们思考的源泉,却是赌博者的请求。 十七世纪中叶,法国贵族德·美黑在骰子赌博中,有事急于抽身,须中途停止赌博,需要根据对胜负的预测把赌资进行合理的分配,但不知用什么样的比例分配才算合理,于是就写信向当时法国的最高数学家帕斯卡请教。正是这封信使概率论在历史的舞台迈出了第一步。
帕斯卡和当时第一流的数学家费尔玛一起,研究了德·美黑提出的关于骰子赌博的问题。于是,一个新的数学分支--概率论登上了历史舞台。三年后,也就是1657年,荷兰著名的天文、物理兼数学家惠更斯企图自己解决这一问题,结果写成了《论机会游戏的计算》一书,这就是最早的概率论著作。 为概率论确定严密的理论基础的是数学家柯尔莫哥洛夫。1933年,他发表了著名的《概率论的基本概念》,用公理化结构,这个结构明确定义了概率论发展史上的一个里程碑,为以后的概率论的迅速发展奠定了基础。 3、概率论与数理统计的发展 数理统计的发展大致可分为古典时期、近代时期和现代时期三个阶段。 古典时期(19世纪以前)——这是描述性的统计学形成和发展阶段,是数理统计的萌芽时期。在这一时期里,瑞土数学家贝努里(1654-1795年)较早地系统论证了大数定律。1763年,英国数学家贝叶斯提出了一种归纳推理的理论,后被发展为一种统计推断方法――贝叶斯方法,开创了数理统计的先河。法国数学家棣莫佛(1667-1754)于1733年首次发现了正态分布的密度函数,并计算出该曲线在各种不同区间内的概率,为整个大样本理论奠定了基础。1809年,德国数学家高斯(1777-1855)和法国数学家勒让德(1752-1833)各自独立地发现了最小二乘法,并应用于观测数据的误差分析。在数理统计的理论与应用方面都作出了重要贡献,他不仅将数理统计应用到生物学,而且还应用到教育学和心理学的研究。并且详细地论证了数理统计应用的广泛性,他曾预言:“统计方法,可应用于各种学科的各个部门。” 近代时期(19世纪末至1845年)——数理统计的主要分支建立,是数理统计的形成时期。上一世纪初,由于概率论的发展从理论上接近完备,加之工农业生产迫切需要,推动着这门学科的蓬勃发展。1889年,英国数学家皮尔逊(1857-1936)提出了矩估计法,次年又提出了频率曲线的理论,并于1900年在德国数学家赫尔梅特在发现c2分布的基础上提出了c2检验,这是数理统计发展史上出现的第一个小样本分布。1908年,英国的统计学家戈塞特(1876-1937)创立了小样本检验代替了大样本检验的理论和方法(即t分布和t检验法),这为数理统计的另一分支――多元分析奠定理论基础。1912年,英国统计学家费
多元统计分析课程 设计
多元统计分析课程设计 题目:《因子分析在环境污染方面的应用》 姓名:王厅厅 专业班级:统计学级2班 学院:数学与系统科学学院 时间: 1月 3 日
目录 1.摘要: (1) 2.引言: (1) 2.1背景 (1) 2.2问题的研究意义 (1) 2.3方法介绍 (2) 3.实证分析 (10) 3.1指标 (10) 3.2原始数据 (10) 3.3数据来源 (13) 3.4分析过程: (13) 4.结论及建议 (25) 5.参考文献 (26)
1.摘要: 中国的环境问题,由于中国政府对环境问题的关注,环境法律日趋完善,执法力度加大,对环境污染治理的投人逐年有较大幅度的增加,中国环境问题已朝着好的方面发展。 可是,仍存在着环境问题,主要体现在环境污染问题,其中主要为水污染和大气污染。 关键词:环境污染水污染大气污染因子分析2.引言: 2.1背景: 中国的环境保护取得了明显的成就,部分地区环境质量有所改进。可是,从整体上看,中国的环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布的一项报告表明:中国环境污染的规模居世界前列。 2.2问题的研究意义:
为分析比较各地环境污染特点,利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素,进一步对环境污染原因及治理措施进行分析,让更多的人认识到环境的重要性,准确把握各地区环境治理方法以及针对不同地区制定不同的政策改进环境问题,这对综合治理环境问题具有重要意义。 2.3方法介绍 因子分析的意义:变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题,最简单和最直接的解决方案是削减变量个数,但这必然会导致信息丢失和 信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。 因子分析的步骤: ·因子分析的前提条件:要求原有变量之间存在较强的相关关系。 ·因子提取:将原有变量综合成少数几个因子是因子分析的核心内容。
数理统计在环境监测方面的应用 班级:14研3班姓名:漆麟学号:201420001101 直线回归在分光光度法分析中起着非常重要的作用,它反应出被测物质浓度与吸光度之间的变量关系。例如在测定亚硝酸盐氮标准曲线时,由于亚硝酸盐氮不稳定在空气中可被氧化成硝酸盐氮也易被还原成氨,因此,要求测定过程快速准确。而正确绘制标准曲线是获得准确结果的必要手段。如何做到正确绘制标准,可采用数理统计中最小二乘法对每组实验数据进行线性回归,根据回归方程式 y=a+bx,求解a、b后代入回归方程即可绘出最接近真实的标准曲线。因为在理论上每组实验数据经过最小二乘法处理后都能得到一条最佳直线,这样就可避免主观选择估计的因素,使测定结果接近真值。 采用《环境监测分析方法》中N-1萘-乙二胺比色法。在pH2.0~2.5时,水中亚硝酸盐与对氨基苯磺酰胺生成重氮盐,再与N-1萘-乙二胺偶联生成红色染料,在543nm波长处有最大吸收。其色度深浅与亚硝酸盐含量成正比,可比色测定。 向标准比色管分别加入每毫升含0.5μg的亚硝酸钠标准使用液1mL、3mL、 5mL、7mL、10mL,用水稀释至50mL。然后再分别加入1.0mL对氨基苯磺酰胺盐酸盐溶液摇匀,放置2-8min,加入1.0mLN-1A萘-乙二胺盐酸盐溶液,10min后比色测定。测定结果见表1。 表1 亚硝酸盐氮标准曲线测定结果 亚硝酸(μg)x钠使用液0.5 1.5 2.5 3.5 5.0 吸光度y 0.036 0.111 0.185 0.259 0.367 线性回归设标准物浓度为x1,x2,……,x n,相应的吸光度为y1,y2,……,y n,根据回归方程y=a+bx求解方程的b和a。经计算的测定结果列于表2。 表2 用最小二乘法绘制亚硝酸盐氮标准曲线 n x x2 y y2 xy 1 0.5 0.25 0.036 0.001296 0.018 2 1.5 2.25 0.111 0.01231 0.1665 3 2.5 6.25 0.185 0.034225 0.4625
二氧化碳吸附量与活性炭孔隙结构的线性回归分析 摘要:本文搜集了不同孔径下不同孔容的活性炭与CO2吸附量的实验数据。分别以同一孔径下的不同孔容作为自变量,CO2吸附量作为因变量,作出散点图。选取分布大致呈直线的一组数据为拟合的样本数据.对样本数据利用最小二乘法进行回归分析,参数确定,并对分析结果进行显著性检验。同时利用ma tl ab 的r egress 函数进行直线拟合。结果表明:孔径在3。 0~ 3. 5 nm 之间的孔容和CO2吸附量之间存在较好的线性关系。 关键字:活性炭 孔容 CO2吸附量 m atla b 一、问题分析 1。1.数据的收集和处理 本文主要研究同一孔径的孔容的活性炭和co2吸附量之间的线性关系,有关实验数据是借鉴张双全,罗雪岭等人的研究成果[1]。以太西无烟煤为原料、硝酸钾为添加剂,将煤粉、添加剂和煤焦油经过充分混合后挤压成条状,在600℃下炭化15 min,然后用水蒸气分别在920℃和860℃下活化一定时间得到2组活性炭,测定了CO2吸附等温线,探讨了2组不同工艺制备的活性炭的C O2吸附量和孔容的关系.数据如下表所示: 表1:孔分布与CO2吸附值 编号1~12是在不同添加剂量,温度,活化时间处理下的对照组。因为处理方式不同得到不同结果是互不影响的,可以看出C O2的吸附量的值是互相独立 编号 孔容/(11 10L g μ--?) CO 2吸附 量 1/()mL g -? 0。5~0。8nm 0.8~1.2nm 1。2~1。8nm 1.8~2。2nm 2.2~2。2n m 2。5~3。0nm 3.0~3。5 nm 1 7.18 16.2 24.4 75.2 70 96 115 64 2 6.59 14.4 18.4 53.7 50 85。6 91 55.1 3 4.5 4 11 18.9 71 6 5 78.3 91 53.7 4 5.13 13.4 29。9 10。3 90 7 6 122 53。 7 5 4.16 10.5 18。9 83.8 78 80。5 113 61。7 6 4。92 12。1 23.4 81.6 72 56 99 53.6 7 5.0 8 12.6 23.8 93.5 86 77.8 122 65。5 8 5.29 13 25。1 88.4 69 66.4 107 57。7 9 7.47 16.9 26.9 46。4 78 93.2 107 58.2 10 5.44 13 21.4 44.1 91 98.6 137 76。6 11 1。81 64。6 18.3 53.1 114 110 142 75 12 1.24 27.7 39。5 126 114 98。6 183 98.7
课程:统计学课程作业学院:经济管理学院专业: ____________ 姓名: _______ 班号: _______ 学号: ____
目录 一.............................................. 调查方案4(一) .................................. 调查目的3 (二) .................................. 调查范围3 (三) .................................. 调查方法3 (四) .................................. 调查项目3 (五) .................................. 调查时间3 (六) .............................. 问卷发放方案4 二.............................................. 调查问卷............................................... .6 大学生关于食品安全调查问卷 (6) 三.SPSS数据分析 (19) (一).................................... 原始数据7(二)................................ 描述统计分析15(三)................................ 推断统计分析19 四.归纳总结 (20)
一.调查方案 (一)调查目的 食品安全是与人们生活息息相关的,对于大学生来说,自从”三鹿” 奶粉事件以后,大家都对食品安全产生了很大的怀疑,将”三鹿“奶粉事件作为一个引例,调查大学生是否同意购买食品安全检测仪器以及它和食品安全的相关程度,得出结论和一些建议。 (二)调查范围 中国地质大学(武汉)2013届到2010届在校就读大学生 (三)调查方法 采用随机抽样的方法,以自填式调查问卷的方式调查 (四)调查项目 1?被调查者的基本情况 2.被调查者对食品的放心程度 3.被调查者对食品安全检测仪的认知程度 (五)调查时间 2014年五月 (六)问卷发放方案 对于本科生共发放了160份问卷,大一至大三每个年级各50份,大四10份,男生女生各80份,专业属性各80份,理论上年级、性别、专业分别构成大样本,由于采用自填式问卷收集方式,问卷的回收率比较低,因为被调查者往往不够重视,在完成问卷方面没有压力,
《概率论与数理统计》小论文概率与理性的发展 哈尔滨工业大学 2014年12月
《概率论与数理统计》课程小论文 概率与理性的发展 摘要概率论是一门研究事件发生的数学规律的学科。他起源于生活中的实际问题的思考,较传统的几何学等起步较晚,在伯努利、泊松等数学家的努力下,形成了现如今较为完备的理论体系。他与数理统计一起,在工程设计、自然科学、社会科学、军事等领域起着重要作用。而概率论提出后有很多人感感兴趣对其进行研究的原因之一是很多事件的主观上对概率的判 断与实际的理论概率有着很大的差异,于是有关概率的悖论有很多,也有很多与直觉相悖的概率问题,这也是概率的魅力之一。本文将从概率的发展、概率与感性的差异等方面出发对概率与感性和理性进行探讨。 关键词概率悖论直觉理性 一、概率的发展 概率论的初步发展起源于十七世纪中叶的法国。在那里出现了对赌博问题的研究,也正是对赌博问题的研究,推动了概率论的发展。最初的问题是从分赌金开始的。[1] 最初的问题大致是这样的:甲乙双方是竞技力量相当的对手,每人各拿出32枚金币,以争胜负。在竞争中,取胜一次,得一分。最先获得3分的人取得全部赎金64枚金币。可是,因某种缘故,竞争3次,赌博被迫终止。而此时,甲得2分,乙得1分,问赌金如何分配?很多问题的开端都是利益的纠纷,这也是一个例子,双方都会为自己的利益考虑而提出对这笔赌金的分法,而从直觉上看,很多理由似乎也是很有道理的。但是真相只有一个,到底理论上最公平的分法是怎样的?这个问题的当事人爱好赌博的德梅雷 向其好友著名的数学家帕斯卡请教,这个问题也受到了帕斯卡的关注。帕斯卡与其好友费尔马进行了三个月的书信往来讨论这个问题,最终得到了满意的答案:假设两赌徒中甲赢了两局,乙一局未赢,那么接下来可能出现的情况是:若甲再赢一局,得3分,将获全部赌金;若乙赢一局,出现2:1的局
统计学课程设计报告 2014—2015 学年第二学期工业大学夏季防暑饮料消费状况设计报告 组长130509106 艾娟红 组员130509107 利娜 130509108 高千 1305 09109 高荣荣 130509110 郭祎 130509111 英 指导教师徐俊杰
2015 年6 月26 日
工业大学夏季防暑饮料消费情况调查方案 一.调查目的 1.了解学生最喜欢喝的饮料类型 2.了解学生对饮料的关注因素(口味,包装等) 3.了解学生的饮料购买习惯(选择在何地购买,购买量,购买方式) 4.了解学生在饮料上的消费情况(学生在饮料上的消费观念和选择) 5.分析学生在饮料消费上的影响因素(生活费,价格等) 6.为各饮料企业在开发市场时提供市场依据; 二.调查对象是工业大学未央校区全体大学生,调查单位是每一个工业大学未央大学在校大学生 三.调查容(调查问卷见附录一) 1.消费类型调查:通过问卷1,2题了解大学生群体饮料消费的要求和类型。 2.产品调查:通过2题了解产品质量、口味、包装等购买要素对引发大学生群体购买行为的影响程度。 3.购买习惯调查:通过3,4,12题了解大学生饮料购买地点,方式和数量 4.消费情况调查:通过7,8题了解大学生群体购买饮料消费情况(推断总体)。 5.购买因素调查:通过5,2题了解大学生群体购买饮料的最主要影响因素 调查项目为工业大学大学生夏季防暑饮料消费情况调查 四.工业大学夏季防暑饮料消费情况调查的实施方案如下
五.数据处理目标 六.费用预算
工业大学夏季防暑饮料消费状况调查报告 1 调查背景 夏季炎热来袭,冷饮成为炎炎夏日的必需品。如今的饮料市场已成为中国食品行业中发展最快的市场之一,其销售收入和利润都比同期有了较大幅度的增长,年产量已达1300多万吨。随着我们生活水平的不断提高,饮料作为一种饮用资源,与我们的生活愈加密切。另外随着市场的不断细分,饮料除了传统的解渴功能,还衍生成多种营养饮品。消费者对天然、低糖、健康型饮料的需求,促进了新品种的崛起。 大学生作为饮料消费的主要群体,他们的消费习惯和消费行为一直受到关注。面对酷暑,大学生更青睐于哪些饮品?对于饮料的口感、价位、色泽、包装、促销方式等方面又有什么样的要求呢?在消费日益冷静的今天,厂家又将如何面对呢?为了重点了解大学生群体的饮料消费现状、各种饮料品牌的满意度以及本
学统计学有感 班级:电商XX班姓名:XX 学号XXXXXXX 通过差不多一个学期的学习,统计学一个陌生的名字渐渐地熟知,对这门课程也有了一定的感想。 在学习统计学之前,谈起统计我脑袋中就浮现出数据,一大堆枯燥的数字,还有表格。一开始在我眼中,统计学是一门非常枯燥非常单调的学科,它不像数学那样强调推理和逻辑,而是仅仅需要搜集原始资料。 但是经过这学期的学习,我对统计学有了全新的认识。统计学是研究总体在一定条件下的数量特征及其规律性的方法论学科。我开始意识到统计学在社会生活的各个方面都发挥着重要作用。在学习统计学之前,我一直把统计学看成另外一种数学,但是学习之后我才发现它和数学有很大的不同。统计学更加地贴近实际,我们在学习中紧密联系到它的现实意义,比如做完了数据分析,我们不能像数学那样就完了,我们必须要理解分析出来的数据所具有的实际的经济意义,这样我们的分析才有意义。 当然我也看到了统计学和数学的紧密联系,统计中会用大量的数学工具,所以必须要复习一下相关的数学知识,这样才能在学习中灵活运用。 学习统计学,我们不能零散的学习,而是需要从系统的,比较的角度来学习。同样在学习假设检验时也一样,要对单个总体、两个总体和多总体的情况进行比较,对均值、方差、成数的各种前提条件进行比较。要多总结,这样才容易理解记忆,把多个公式化成很少的公式,减轻记忆的负担。另外在做题的时候一定要弄清楚题目中所给出的前提条件,对应到不同的计算方法。 其实生活处处有统计学的处在,比如说每年的人口普查啊,往小了说,一件商品的统计调查,统计学产生于应用,在应用过程中发展壮大。随着经济社会的发展、我们更需要用数据来反映社会,用数据说话。这就是我对统计学的感想。
研究生课程考核试卷 科目:数理统计教师:黄光辉 姓名:张振学号:20142002036 专业:环境科学与工程类别:学术 上课时间:2014 年9 月至2014 年11 月 考生成绩: 卷面成绩平时成绩课程综合成绩 阅卷评语: 阅卷教师(签名)
某商业银行不良贷款形成原因分析 摘要 根据某商业银行多家分行业务数据,建立线性回归模型,运用SPSS数理统计软件对此商业银行不良贷款情况进行运算与分析,以不良贷款为因变量(y),运用逐步回归法对变量数据进行筛选,最后以各项贷款余额(χ1)与本年固定资产投资额(χ4)为自变量,分别建立y与χ1的一元线性回归方程和y与χ1、χ4的二元线性回归方程,并对回归线性模型进行F检验、t检验和回归系数检验。最后结合实践经验,对模型进行检验,并运用Pearson相关系数测量因变量(y)与自变量(χ1、χ4)的线性相关关系,以及两个变量之间的相关性。 一、问题提出与分析 重庆一家某商业银行其业务主要是进行基础设施建设、重点项目建设、固定资产投资等项目的贷款。最近一段时间,在贷款额平稳增长的基础上,该银行的不良贷款记录也有大比例提高。为了弄清楚不良贷款形成的原因,该银行希望利用一些数据做些定量分析。 二、数据描述 表1是项目参考的变量名称;表2给出了该银行所属20家分行在2012年的相关业务数据。 表1 项目参考变量名 y:不良贷款(亿元)χ3:贷款项目个数(个) χ1:各项贷款余额(亿元)χ4:本年固定资产投资额(亿元) χ2:本年累计应收贷款(亿元) 表2 相关业务数据 分行编号不良贷款 各项贷款余 额 本年累计应 收贷款 贷款项目个数 本年固定资产投 资额 1 0.9 2 67.5 6.78 5 51.9 2 1.1 112.5 19.8 16 91.1 3 4.81 174.2 7.9 17 74.2 4 3.18 82.1 7.3 10 14.5 5 7.8 199.7 16.4 19 63.21 6 2. 7 16.3 2.2 1 2.2 7 1.6 106.2 10.7 17 20.2
统计学专业培养方案 Statistics (门类:理学;二级类:统计学类;专业代码:071201) 一、专业培养目标 本专业培养德智体全面发展,数学与经济学基础扎实,熟悉金融知识,掌握统计学的基本理论、方法、工具和大数据技术,具备较强的解决实际统计问题和大数据分析的能力,能在统计部门、税务海关、公司企业以及金融保险机构等企事业单位从事统计、市场调查、信息咨询、大数据分析、投资分析和风险管理等工作的具有团队意识、乐观向上的应用型创新人才。 二、毕业要求 总体业务要求: 夯实数学和经济学基础,掌握统计学的基本理论、方法以及大数据挖掘技术,熟练使用统计分析软件和大数据挖掘工具,具有良好的科学素养,受到理论研究、应用技能和使用计算机的基本训练,具有统计分析和大数据分析的基本能力,能够胜任统计、数据分析和管理等方面的工作。 基础理论、知识、能力和技能的具体要求: 1.具有科学的世界观、人生观、价值观和良好的道德修养; 2.具有较好的人际沟通能力,富有团队精神; 3.具有较高的文化素养,较强的语言和文字表达能力; 4.具有较强的自学能力、适应能力和创新能力; 5.具有扎实的数学和经济学基础,对金融数学和保险精算领域知识有较深入地了解; 6.掌握统计学的基本理论、方法以及大数据处理技术和分析方法; 7.掌握计算机操作的基本技能; 8.具有设计调查问卷、处理调查数据以及利用统计数据资料进行综合分析和决策的基本能力; 9.具有获取网络大数据和分析的基本能力; 10.熟练使用统计分析软件和大数据挖掘工具;
11.了解统计学理论、方法和大数据的发展动态及其应用前景; 12.掌握运用现代信息技术进行资料查询和文献检索的基本方法; 13.受到较严格的科学思维训练,具有一定的科学研究能力; 14.熟练掌握英语,能够阅读本专业的相关文献资料。 三、主干学科 统计学、数学。 四、专业核心课程 微积分学、线性代数与解析几何、概率论、数理统计、统计学原理、经济学(宏、微观)、抽样调查技术、多元统计分析、时间序列分析、计量经济学、大数据分析方法及应用等。 五、主要实践性教学环节 军训、公益劳动、课程实验(设计)、毕业实习(设计)、统计实训、统计分析报告写作、工具软件、网络爬虫等。 六、修业年限 四年 七、授予学位 理学学士 八、毕业最低学分要求 毕业所必需达到的总学分为160学分。 九、培养方案的构成及学时、学分分配 表1 人才培养方案学分构成表
统计学课程设计报告
统 计 学 实 践 报 告 实践题目:关于传统节日在80后心目中的印象专业班级:公共事业管理 B070507 指导教师:王育晓
时间:2009-12-24 关于传统节日的统计报告 一、调查背景及目的 中华民族是一个拥有五千年灿烂历史的文明古国,许多传统节日历经千年流传至今,其中最为隆重也最具代表性的就非春节莫属了。关于春节,也有许多美好的传说。但是,随着年龄的增长以及人们观念的变化,春节带给我们带来的欢乐程度不断发生着变化。 为了更好的了解传统节日在我们80后青年心目中的印象。就此,我们对我们身边的同学中做了一个统计调查,以此来推断传统节日在该年龄段人们心中的印象。 二、调查对象及方式 本次调查主要针对80后青年人,因此抽样样本为在校大学生。每个人度过春节的快乐与否都是一种心理感受,这种感受是不一样的,这是一种抽象的感官知觉,因此难以进行具体的量化。而要对80后过春节的感受进行统计调查,我们必须使用一种灵活的方法,将不可量化的感受转化为可量化的指标,因此我们创新性的采用设置“欢乐指数” 这一衡量手段,将人们对过春节的感受转化为百分制,用打分的方法将人们的心理感受通过数字表现出来。从而使得人们对春节的感受变的可以统计。根据这种方法,我们设计了问卷,问卷将被调查对象划分为六个年龄段,分别为0-3岁,4-7岁,8-11岁,12-15岁16-19岁和20岁以上。让被调查对象以自己的亲身感受对以上年龄段中度过春节所获得的“快乐指数”进行打分。本次调查共发放问卷60份,回收60份。最后,我们把调查得到的资料进行统计 三、调查项目 1、各年龄段欢乐指数调查; 2、春节欢乐指数最高的年龄调查。 四、统计数据处理和结果分析 表4-1原始统计数据
研究生课程考核试卷 (适用于课程论文、提交报告) 科目:概率论与数理统计上课时间:2017.2-2017.5 姓名:刘振学号: 20160702031专业:机械工程教师:刘朝林 工作单位或所在行业:重庆大学 考生成绩: 卷面成绩平时成绩课程综合成绩阅卷评语: 阅卷教师 (签名)
回归分析在数理统计中的应用 摘要:回归分析是数理统计中重要的一种数据统计分析的思想, 是处理变量间的相关关系的一种有效工具。其目的在于根据已知自变量的变化来估计或预测因变量的变化情况,或者根据因变量来对自变量做一定的控制. 它可以提供变量间相关关系的数学表达式, 且利用概率统计知识,对经验公式及有关问题进行分析、判断以确定经验公式的有效性,从众多的解释变量中,判断哪些变量对因变量的影响是显著的,哪些是不显著的. 还可以利用所得经验公式,由一个或几个变量的值去预测或控制个变量的值时的值,去预测或控制另一个变量的取值,同时还可知道这种预测和控制可以达到什么样的精度。 本文就是针对实际问题运用回归分析中一元线性回归分析的统计方法,来确定自变量与 另一个变量的相关关系,并确立出较为合理的回归方程,再对其的可信度进行统计检验. 关键词:回归分析;回归方程;F检验法
1.问题的提出 调查一下重庆大学学生的生活费与家庭收入的关系,看看是否家庭收入越高,学生的每月支出也越多,从而根据学生每月消费支出,进而估计学生的家庭收入情况,对学生的生活补助等问题有重要的参考意义 2.数据描述 根据调研的重庆大学学生家庭月收入与每月生活费的数据,确定两者关系。数据来源100多份问卷调查的抽样,取其中10份,绘制表1如下图所示序号家庭月收入每月生活费14800 500 25200 600 35420 650 45600 700 56000 750 66400 800 76800 900 87000 1000 97200 1200 108000 1500 表1-1 重庆大学学生家庭月收入与每月生活费的数据利用matlab软件画出家庭月收入与每月生活费的散点图,如图一所示
统计学课程设计报 告
统计学课程设计报告 —年第二学期 西安工业大学夏季防暑饮料消费状况设计报告 组长艾娟红 组员冯利娜 高千 1305 09109 高荣荣 郭祎 韩英 指导教师徐俊杰 年 6 月 26 日
西安工业大学夏季防暑饮料消费情况调查方案 一.调查目的 1.了解学生最喜欢喝的饮料类型 2.了解学生对饮料的关注因素(口味,包装等) 3.了解学生的饮料购买习惯(选择在何地购买,购买量,购买方式) 4.了解学生在饮料上的消费情况(学生在饮料上的消费观念和选择) 5.分析学生在饮料消费上的影响因素(生活费,价格等) 6.为各饮料企业在开发市场时提供市场依据; 二.调查对象是西安工业大学未央校区全体大学生,调查单位是每一个西安工业大学未央大学在校大学生 三.调查内容(调查问卷见附录一) 1.消费类型调查:经过问卷1,2题了解大学生群体饮料消费的要求和类型。 2.产品调查:经过2题了解产品质量、口味、包装等购买要素对引发大学生群体购买行为的影响程度。 3.购买习惯调查:经过3,4,12题了解大学生饮料购买地点,方式和数量 4.消费情况调查:经过7,8题了解大学生群体购买饮料消费情况(推断总体)。 5.购买因素调查:经过5,2题了解大学生群体购买饮料的最
主要影响因素 调查项目为西安工业大学大学生夏季防暑饮料消费情况调查四.西安工业大学夏季防暑饮料消费情况调查的实施方案如下 五.数据处理目标 六.费用预算
西安工业大学夏季防暑饮料消费状况调查报告 1 调查背景 夏季炎热来袭,冷饮成为炎炎夏日的必须品。如今的饮料市场已成为中国食品行业中发展最快的市场之一,其销售收入和利润都比同期有了较大幅度的增长,年产量已达1300多万吨。随着我们生活水平的不断提高,饮料作为一种饮用资源,与我们的生活愈加密切。另外随着市场的不断细分,饮料除了传统的解渴功能,还衍生成多种营养饮品。消费者对天然、低糖、健康型饮料的需求,促进了新品种的崛起。 大学生作为饮料消费的主要群体,她们的消费习惯和消费行
统计学个人心得 12级会计7班 3212005244 谢翠欣 在学习统计学之前,谈起统计我脑袋中就浮现出计数,一大堆枯燥的数字,还有一长串的数学计算式。在我眼中,统计学是一门非常枯燥非常单调的学科,它不像数学那样强调严密的推理和逻辑,而是仅仅需要搜集原始资料,套用数学公式而已,我甚至不是很喜欢这门课程。但是经过一个学期的学习,我对统计学有了全新的认识。我开始意识到统计学在学术研究中,在公司决策中,在国家制定方针政策时??在社会生活的各个方面都发挥着重要作用,我开始了解到统计学是一个理论联系实际的学科,非常具有实践性,统计的原始资料全部来源于实际生活。统计学也是一种成熟的学科,它有它独立而完备的理论体系,它是相当科学的,它是以数学作为它的基本工具,但它有比数学更有实际用途,它可以对生活中大量的无序的数据进行分析,找出它们的规律,从而为研究、决策提供基本的依据,它是其他学科的一切理论的基础和来源。 期末,老师布置了分组调查问题的任务,我们小组分工地完成了大学生男女婚恋观的差异,通过一整套的调查流程,从问卷设计、寻找答卷人、调查结果对比以及综合分析,带着问题去寻找答案并得出结论,是一件很意义的事情。 因为要考试,所以花几天时间,整体复习了一遍统计学,准确的来说是从第一页开始较为仔细的阅读了一遍《统计学》这本教科书。随后统计为我打开了另一扇窗,让我得以从不同的视角重新思考这门让我痛苦了一个学期的课程。至此统计学不再仅仅是一些无数抽象公式的代名词,而是一门理论联系实际,工作活动中不可或缺的一门重要科学。 总论和统计数据的内容比较简单,引出概念,复习以往学习过的知识。理论上来说假设检验与方差分析的内容要难于抽样估计。但是个人觉得《抽样估计的行文并不像假设检验》那么好理解。统计学这本书喜欢先向学生介绍很多概念和公式,再将公式引用到例子中来解决问题。然而在介绍公式的同时,学生往往不了解这些公式真正的意义和使用方法,单纯的死记硬背效率颇低。拿抽样估计来说,计算抽样平均误差的公式之多,方法之众,让同学们的脑袋混沌了好久。大家私下交流,混沌的原因在于不知道这些公式的来龙去脉,只将条件带入相应的公式计算答案的方法是以前没有经历过的,需要一段时间的适应过程。相关与回归分析同样吸引人。因为之前我片面的认为相关关系没有确切的规律可循,更不容说计算出事物的内在联系了。然而科学证明,不但相关系数可以计算出来,回归方程也可以用来做分析预测。我想起了一句话:任何学科脱离了统计都将不是科学。只有统计能仅凭现象就能分析归纳出事务的内在联系,给我们呈现出一个更明朗的世界。 时间序列分析在我看来是和我的专业---会计联系最紧密的知识。运用所学到的知识可以分析出公司销售额的各种增长情况,公司的销售额有什么样的季节变化规律,还能建立一个模型对未来的财务情况做出预测。 这么快一个学期统计学的学习就结束了,我才刚刚了解统计学,我知道统计学知识还能运用到店铺开设选址等等的问题上,这是我比较感兴趣的,所以我以后还要继续深入了解统计学,并且运用它服务生活。篇二:统计学学习感想 统计学学习感想 通过半个多学期的学习,我对统计学这门课程有了一定的了解,对学习这门课程也有了一定的感想。 首先,我谈谈我对这门课程的理解。 一)对统计学新的认识 在学习统计学之前,谈起统计我脑袋中就浮现出计数,一大堆枯燥的数字,还有一长串的数学计算式。在我眼中,统计学是一门非常枯燥非常单调的学科,它不像数学那样强调严密的推理和逻辑,而是仅仅需要搜集原始资料,套用数学公式而已,我甚至不是很喜欢这门
1 聚类分析 我们利用Matlab6.5中的cluster 命令实现,具体程序如下 x={ {n,m}=size(x); Stdr=std(x); xx=x./stdr(ones(n,1),;); % 标准化变换 y=pdist(xx); %计算各样本间距离(这里为欧氏距离) z=linkage(y); %进行聚类(这里为最短距离法) h=dendrogram(z); %画聚类谱系图 t=cluster(z,3) % 将全部样本分为3类 find(t==2); %找出属于第2类的样品编号 执行后得到所要结果 聚类谱系图见图1 t={3,1,3,1,1,2,2} 即全部样本分为3类。结果见表1 从图 1可以看出:七条河流中, 二干河、横套河、四干河属于一类, 污染 较重, 主要是CODmn 、BOD5超标多; 华妙河、盐铁塘属于一类, 污染一般, 主要是氨氮、石油类超标; 张家港河、东横河属于一类,污染较轻, 总的来说,各河流都存在不同程度的污染,因此全市应对各河流严格监督管理, 着力实施水污染防治工作, 太湖流域水污染源应限期治理达标排放, 巩固水污染防治工作成果,加大投入,新建或改、 扩建废水治理工程, 确保达标排放。 3.14 5.47 3.1 5.67 6.81 6.21 4.87 8.41 9.57 4.31 9.54 9.05 7.08 8.97 23.78 26.48 21.2 10.23 16.18 21.05 26.54 25.79 23.79 22.48 20.87 24.56 31.56 34.56 4.17 6.42 5.34 4.2 5.2 6.15 5.58 6.47 5.58 6.54 6.8 5.45 8.21 8.07 }
多元统计分析课程设计 题目:《因子分析在环境污染方面的应用》 姓名:王厅厅 专业班级:统计学2014级2班 学院:数学与系统科学学院 时间:2016年1月 3 日
目录 1.摘要: (3) 2.引言: (3) 2.1背景 (3) 2.2问题的研究意义 (3) 2.3方法介绍 (4) 3.实证分析 (12) 3.1指标 (12) 3.2原始数据 (12) 3.3数据来源 (15) 3.4分析过程: (15) 4.结论及建议 (27) 5.参考文献 (28)
1.摘要: 中国的环境问题,由于中国政府对环境问题的关注,环境法律日趋完善,执法力度加大,对环境污染治理的投人逐年有较大幅度的增加,中国环境问题已朝着好的方面发展。但是,仍存在着环境问题,主要体现在环境污染问题,其中主要为水污染和大气污染。 关键词:环境污染水污染大气污染因子分析2.引言: 2.1背景: 我国的环境保护取得了明显的成就,部分地区环境质量有所改善。但是,从整体上看,我国的环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布的一项报告表明:中国环境污染的规模居世界前列。 2.2问题的研究意义: 为分析比较各地环境污染特点,利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素,进一步对环境污染
原因及治理措施进行分析,让更多的人认识到环境的重要性,准确把握各地区环境治理方法以及针对不同地区制定不同的政策改善环境问题,这对综合治理环境问题具有重要意义。 2.3方法介绍 因子分析的意义:变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题,最简单和最直接的解决方案是削减变量个数,但这必然会导致信息丢失和 信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。 因子分析的步骤: ·因子分析的前提条件:要求原有变量之间存在较强的相关关系。 ·因子提取:将原有变量综合成少数几个因子是因子分析的核心内容。 若存在随机向量)(),,(1p q F F F q ≤'= 及),,(1'=p εεε ,使 ??????????+????????????????????=??????????p q pq p q p F F a a a a X X εε 1111111 简记为ε+=AF X ,且 (1)q I F D F E ==)(,0)((标准化);