当前位置：文档库 › 统计学

统计学

1.4 举例说明分类变量、顺序变量和数值变量。（P6）

分类变量：“性别”是“男”或“女”。

顺序变量：“考试成绩按等级”分为优、良、中、及格、不及格。

数值变量：“企业销售额”。

1.5★获得数据的概率抽样方法有哪些？（P6—7）

简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样。

2.2★直方图与条形图有何区别？（P19）

首先，条形图中的每一矩形表示一个类别，其宽度没有意义，而直方图的宽度则表示各组的组距。其次，由于分组数据具有连续性，直方图的各矩形通常是连续排列，而条形图则是分开排列。最后，条形图主要用于展示定性数据，而直方图则主要用于展示定量数据。(补：直方图：面积判断；条形图：高矮判断)

2.3 饼图和环形图有什么不同? (P15-17 )

第一，饼图是用圆形及圆内扇形的角度来表示数值大小的图形，它主要用于表示一个样本（或总体）中各类别频数占全部频数的比例，对于研究结构性问题十分有用。环形图中间有一个“空洞”，每个样本用一个环来表示，样本中每一类别的频数比例用环中的一段表示。

第二，简单的饼图只能显示一个样本各类别频数所占的比例，而环形图则可以同时绘制多个总体或样本的数据系列，每一个总体或样本的数据系列为一个环。因此环形图可显示多个样本各类别频数所占的相应比例，从而有利于构成的比较研究。

2.4 茎叶图与直方图相比有什么优点？它们的应用场合是什么？（P19）

茎叶图是由“茎”和“叶”两部分组成的、反映原始数据分布的图形。其图形是由数字组成的。通过茎叶图，可以看数据的分布形状及数据的离散状况。与直方图相比，茎叶图既能给出数据的分布状况，又能给出一个原始数值，即保留了原始数据的信息。而直方图不能给出原始数值。

在应用方面，直方图通常适用于大批量数据，茎叶图通常适用于小批量数据

3.1 一组数据的分布特征可以从哪几个方面进行描述？（P36）

数据的水平、数据的差异、分布的形状。

3.2 ★说明平均数、中位数和众数的特点及应用场合。

平均数（1）易受极端值影响

（2）数据对称分布或接近对称分布时，代表性较好

（3）数学性质优良，实际中最常用

中位数（1）不受极端值影响

（2）数据分布偏斜程度较大时，代表性较好

众数（1）不受极端值影响

（2）数据分布偏斜程度较大且有明显峰值时，代表性较好

（3）具有不唯一性

5.1 ★说明区间估计的基本原理。（P70）

区间估计是在点估计的基础上给出总体参数估计的一个估计区间，该区间通常是由样本统计量加减估计误差得到的。与点估计不同，进行区间估计时，根据样本统计量的抽样分布，可以对统计量与总体参数的接近程度给出一个概率度量。

5.7 解释独立样本和配对样本的含义。（P89）

独立样本：一个样本中的元素与另一个样本中的元素相互独立。

配对样本：一个样本中的数据与另一个样本中的数据相互对应。

5.9★简述样本量与置信水平、总体方差、估计误差的关系。（P87）

样本量与置信水平成正比，在其他条件不便的情况下，置信水平越大，所需的样本量也就越大；样本量与总体方差成正比，总体的差异越大，所要求的样本量也越大；样本量与估计误差的平方成反比，即允许的估计误差的平方越大，所需的样本量就越小。

6.3 ★怎样理解显著性水平？（P97）

假设检验中犯的第Ⅰ类错误的概率也称为显著性水平，记为α。是人们事先指定的犯第Ⅰ类错误概率的最大允许值。α越小，犯第Ⅰ类错误的可能性越小，犯第Ⅱ类错误的可能性则随之增大。一般情况下，人们认为犯的第Ⅰ类错误的后果更严重，因此通常取一个较小的α值（一般0.1

α≤）。

6.5 ★什么是P值？利用P值进行检验和利用统计量进行检验有什么不同？（P100）

如果原假设正确，所得到的样本结果会像实际观测结果那么极端或更极端的概率称为P 值。

P值决策优于统计量决策，P值决策提供了更多的信息。

根据统计量决策，如果拒绝原假设，也仅仅是知道犯错误的可能性是α那么大，但究竟是多少却不知道。而P值则是算出的犯第Ⅰ类错误的实际概率。

7.1 说明2χ拟合优度检验和独立性检验的用途。（P122、P126）

χ拟合优度检验：只研究一个分类变量时，可利用2χ检验来判断各类别的观察频数分布与某一期望频数是否一致。

χ独立性检验：是对列联表中的两个分类变量进行分析，通常是判断两个变量是否独立。

8.1 ★什么是方差分析？它研究的是什么？（P134）

方差分析是分析分类自变量对数值因变量影响的一种统计方法。研究的是一个分类自变量对数值因变量的影响和两个分类自变量对数值因变量的影响。

8.3 ★

↙

9.2 ★ 简述相关系数的性质。（P167）（1）取值范围在1-到1+之间。（2）具有对称性。

（3）数值的大小与x 和y 的原点及尺度无关。

（4）仅是x 和y 间线性关系的一个度量，不能用于描述非线性关系。（5）不一定意味着x 与y 一定有因果关系。

9.4 一元线性回归模型中有哪些基本的假定？（P170）（1）正态性：()0E ε=。

（2）方差齐性：对于所有的x 值，ε的方差2σ都相同。（3）独立性：()20,N ε

σ。

10.2 解释多重共线性的含义。（P196）

当回归模型中两个或两个以上的自变量彼此相关时，称回归模型中存在多重共线性。

什么是统计学？

统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。统计分析数据所用的方法大体上可分为描述统计和推断统计两大类。

二项分布

二项分布是建立在伯努利试验基础上的。正态分布

正态分布最初是由CF 高斯作为描述误差相对频数分布的模型而提出来的。离散系数

离散系数是一组数据的标准差与其相应的平均数之比，它消除了数据水平高低和计量单位对标准差大小的影响。

3.2 某银行为缩短顾客到银行办理业务等待的时间，准备采用两种排队方式进行试验。一种是所有顾客都进入一个等待队列；另一种是顾客在3个业务窗口处列队3排等待。为比较哪种排队方式使顾客等待的时间更短，两种排队方式各随机抽取9名顾客，得到第一种排队方式的平均等待时间为7.2分钟，标准差为1.97分钟，第二种排队方式的等待时间（单位：分钟）如下：

（1）计算第二种排队时间的平均数和标准差。

（2）比较两种排队方式等待时间的离散程度。

（3）如果让你选择一种排队方式，你会选择哪一种？试说明理由。

计算120家企业利润额的平均数和标准差（注：第一组和最后一组的组距按相邻组计算）。

3.4 一家公司在招收职员时，首先要通过两项能力测试。在A项测试中，其平均分数是100分，标准差是15分；在B项测试中，其平均分数是400分，标准差是50分。一位应试者在A项测试中得了115分，在B项测试中得了425分。与平均分数相比，该位应试者哪一项测试更为理想？

说明在Ａ项测试中该应试者比平均分数高出1个标准差，而在B项测试中只高出平均分数0.5个标准差，由于A项测试的标准化值高于B项测试，所以A项测试比较理想。

5.3 某大学为了解学生每天上网的时间，在全校学生中随机抽取36人，调查他们每天

求该校大学生平均上网时间的置信区间，置信水平分别为90%、95%和99%。

5.4 某居民小区共有居民500户，小区管理者准备采取一项新的供水设施，想了解居民是否赞成。采取重复抽样方法随机抽取了50户，其中有32户赞成，18户反对。

（1）求总体中赞成该项改革的户数比率的置信区间，置信水平为95%。

（2）如果小区管理者预计赞成的比率能达到80%，要求估计误差不超过10%。应抽取多少户进行调查？

6.1 一项包括了200个家庭的调查显示，每个家庭每天看电视的平均时间为

7.25小时，标准差为2.5小时。据报道，10年前每天每个家庭看电视的平均时间是6.7小时。取显著性α=，这个调查能否证明“如今每个家庭每天收看电视的平均时间增加了”？

水平0.01

，＝3.11，，拒绝，如今每个家庭每天收看电视的平均时间显著地增加了。

6.4 对消费者的一项调查表明，17%的人早餐饮料是牛奶。某城市的牛奶生产商认为，该城市的人早餐用牛奶比例更高。为验证这一说法，生产商随机抽取550人的一个随机样本，

α=显著性水平下，检验该生产商的说法是否属实。

其中115人早餐饮用牛奶。在0.05

，，，拒绝，该生产商的说

法属实。

8.1 一家牛奶公司有4台机器装填牛奶，每桶的容量为4升。下面是从4台机器中抽取的装填量（单位：升）样本数据：

α=，检验不同机器对装填量是否有显著影响。

取显著性水平0.01

8.4 某企业准备用3种方法组装一种新的产品，为确定哪种方法每小时生产的产品数量最多，随机抽取了30名工人，并指定每个人使用其中的一种方法。通过对每个工人生产

（1）完成上面的方差分析表。

α=，检验3种方法组装的产品数量之间是否有显著差异？

（2）若显著性水平0.05

应用统计学论文

应用统计学课程论文经过这学期短暂的学习应用统计学，我对这门学科也有了一定认识。应用统计学是一门运用统计学的原理和方法，研究各个领域有关数据收集、整理、分析的科学是经济、管理类专业的一门重要专业基础课程。掌握统计学的基本理论和方法，具有较好的科学素养，能熟练地运用计算机分析数据，能从事统计调查、统计信息管理、数量分析、市场研究、质量控制等工作。在当前的社会发展中，是市场经济和信息经济的时代，社会各个方面的发展都需要对信息进行收集、分析和整理，所以学好应用统计对不久即将走向社会的我们是只有好处，没有坏处的。绪论一、应用统计学的发展：从统计学的发展过程来看，可以把统计学大致分为古典统计学、近代统计学和现代统计学三个时期。第一、古典统计学时期：古典统计学时期是指17世纪初至18世纪末，这是统计学的创立时期,亦称古典统计学时期。在这时期出现了政治算术学派和德国的国势学派两个统计学派. 1、国势学派国势学派又称记述学派，产生于17世纪的德国。由于该学派主要以文字记述国家的显著事项，故称记述学派。 2、政治算术学派政治算术学派产生于19世纪中叶的英国,其创始人是威廉和约翰.“算术”是指统计方法。主要利用实际资料，运用数字、重量和尺度等统计方法对实际情况作了系统的数量对比分析，从而为统计学的形成和发展奠定了方法论基础。第二、近代统计学时期：近代统计学是指18世纪末到19世纪末这一百年的统计学，它是古典统计学的继续和发展，是古典统计学向现代统计学过渡的统计学。近代统计学的发端，不能不提到著名的统计学家阿道夫·凯特勒的卓越员献。他既继承了国势学和政治算术的传统，把统计学从作为管理国家行政的“政治医学”，扩展到作为研究社会内在矛盾及其规律性数量表现的科学认识方法，又积极地把古典概率引人统计学，以研究社会经济现象偶然变化中的规律性表现。 1、数理统计学派指概率论引进统计学形成数理统计学,以概率作为理论基础,抽象掉统计学的社会经济现象内涵,变成了抽象的数学分析和推断技术. 2、社会统计学派指研究社会现象变动的原因和规律性的实质性科学。社会统计学在这里也称为社会经济统计学,包括政治统计.经济统计.人口统计.犯罪统计等多方面内容. 第三、现代统计学时期：

统计学统计学概率与概率分布练习题

第5章概率与概率分布练习题 5.1 写出下列随机事件的基本空间：（1）抛三枚硬币。（2）把两个不同颜色的球分别放入两个格子。（3）把两个相同颜色的球分别放入两个格子。（4）灯泡的寿命（单位：h ）。（5）某产品的不合格率（%）。 5.2 假定某布袋中装有红、黄、蓝、绿、黑等5个不同颜色的玻璃球，一次从中取出3个球，请写出这个随机试验的基本空间。 5.3 试定义下列事件的互补事件：（1） A ={先后投掷两枚硬币，都为反面}。（2） A ={连续射击两次，都没有命中目标}。（3） A ={抽查三个产品，至少有一个次品}。 5.4 向两个相邻的军火库发射一枚导弹，如果命中第一个和第二个军火库的概率分别是、，而且只要命中其中任何一个军火库都会引起另一个军火库的爆炸。试求炸毁这两个军火库的概率有多大。 5.5 已知某产品的合格率是98%，现有一个检查系统，它能以的概率正确的判断出合格品，而对不合格品进行检查时，有的可能性判断错误（错判为合格品），该检查系统产生错判的概率是多少 5.6 有一男女比例为51：49的人群，已知男人中5%是色盲，女人中%是色盲，现随机抽中了一个色盲者，求这个人恰好是男性的概率。根据这些数值，分别计算：（1）有2到5个（包括2个与5个在内）空调器出现重要缺陷的可能性。（2）只有不到2个空调器出现重要缺陷的可能性。（3）有超过5个空调器出现重要缺陷的可能性。 5.8 设X 是参数为4=n 和5.0=p 的二项随机变量。求以下概率：（1）)2(

5.9 一条食品生产线每8小时一班中出现故障的次数服从平均值为的泊松分布。求：（1）晚班期间恰好发生两次事故的概率。（2）下午班期间发生少于两次事故的概率。（3）连续三班无故障的概率。 5.10 假定X 服从12=N ，7=n ，5=M 的超几何分布。求：（1）)3(=X P 。（2）)2(≤X P 。（3）)3(>X P 。 5.11 求标准正态分布的概率：（1）)2.10(≤≤Z P 。（2）)49.10(≤≤Z P 。（3）)048.0(≤≤-Z P 。（4）)037.1(≤≤-Z P 。（5）)33.1(>Z P 。 5.12 由30辆汽车构成的一个随机样本，测得每百公里的耗油量数据（单位：L ）如下：试判断该种汽车的耗油量是否近似服从正态分布 5.13 设X 是一个参数为n 和p 的二项随机变量，对于下面的四组取值，说明正态分布是否为二项分布的良好近似（1）30.0,23==p n 。（2）01.0,3==p n 。（3）97.0,100==p n 。（4）45.0,15==p n 。

应用统计学试题和答案分析

六、计算题：（要求写出计算公式、过程，结果保留两位小数，共4题，每题10分） 1、某快餐店对顾客的平均花费进行抽样调查，随机抽取了49名顾客构成一个简单随机样本，调查结果为：样本平均花费为元，标准差为元。试以%的置信水平估计该快餐店顾客的总体平均花费数额的置信区间；（φ（2）=）49=n 是大样本，由中心极限定理知，样本均值的极限分布为正态分布，故可用正态分布对总体均值进行区间估计。已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==? n S Z α 据公式 x x ±=±? 代入数据，得该快餐店顾客的总体平均花费数额%的置信区间为（，） 3 要求：①、利用最小二乘法求出估计的回归方程；②、计算判定系数R 。附：10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 3题解 ① 计算估计的回归方程： ∑∑∑∑∑--= )(22 1x x n y x xy n β) ==-??-?290 217900572129042430554003060 = =-= ∑∑n x n y ββ)) 1 0 – ×58= 估计的回归方程为：y ) =+x ② 计算判定系数： 4 计算下列指数：①拉氏加权产量指数；②帕氏单位成本总指数。 4题解： ① 拉氏加权产量指数

= 1 000 00 1.1445.4 1.13530.0 1.08655.2 111.60%45.430.055.2q p q q p q ?+?+?==++∑∑ ② 帕氏单位成本总指数= 11100053.633.858.5 100.10%1.1445.4 1.13530.0 1.08655.2q p q q p q ++==?+?+?∑∑ 模拟试卷(二) 一、填空题（每小题1分，共10题） 1、我国人口普查的调查对象是，调查单位是。 2、___ 频数密度 =频数÷组距，它能准确反映频数分布的实际状况。 3、分类数据、顺序数据和数值型数据都可以用饼图条图图来显示。 4、某百货公司连续几天的销售额如下：257、276、297、252、238、310、240、236、265，则其下四分位数 5、某地区2005年1季度完成的GDP=30亿元，2005年3季度完成的GDP=36亿元，则GDP 年度化增长率6、某机关的职工工资水平今年比去年提高了5%，职工人数增加了2%，则该企业工资总额增长了 % 。 7、对回归系数的显着性检验，通常采用的是 t 检验。 8、设置信水平=1-α，检验的P 值拒绝原假设应该满足的条件是 p e M >o M ③、x >o M >e M 3、比较两组工作成绩发现σ甲＞σ乙，x 甲＞x 乙，由此可推断 ( )