资源简介 小 课 堂数理统计与概率第一部分 统计学单一数据的统计分析1、抽样方法(1)简单随机抽样:一个总体含有N 个个体,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,这样的抽样方法叫做简单随机抽样.(2)系统抽样法(等距抽样法、机械抽样法):依据一定的抽样距离,从总体中抽取样本.从容量为N 的总体中抽取容量为 n的样本,可将总体分成均衡的若干部分,然后按照预先规定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.步骤如下:①编号:先将总体的N 个个体编号,有时可直接利用自身个体所带的号码,如学号等.②分段:确定分段间隔 k,对编号进行分段,当N /n(n是样本容量)是整数时,取 k=N /n.③确定第一个个体编号:在第一段用简单随机抽样确定第一个个体编号 l(l≤ k).④成样:按照一定的规则抽取样本,通常是将 l加上间隔 k得到第二个个体编号(l+ k),再加上 k得到第三个个体编号(l+ 2k),依次进行下去,直到获取整个样本.(3)分层抽样:分层抽样法也叫类型抽样法.是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法.★ 2、用样本估计总体众数: 出现次数最多的数据中位数:按从小到大,处在中间的一个数据 (或中间两个数的平均数 ) n= 1 x1 + x 2+ x平均数:x x 3 + + x nn i= n 平均数反映数据总体水平i=1n 2 22= 1 ( ) = 2= (x 1 x) + (x 2 x) + + (x n x )2方差S n xi x 样本标准差:s s i=1 n极差 = 最大数-最小数★ 3、频率分布直方图 频 率 组距(1)概念:在直角坐标系中,横轴表示样本数据,纵轴表示频率与频率分布直方图中,各小长方组距的比值,将频率分布表中的各组频率的大小用相应矩形面积的形面积之和为 1大小来表示,由此画成的统计图叫做频率分布直方图。( ) O 1 5 9 13 17 21 25 292 频率分布直方图的特征1 图中各个长方形的面积等于相应各组的频率的数值,所有小矩形面积和为 1.2 从频率分布直方图可以清楚地看出数据分布的总体趋势.3 从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息被抹掉.·78·(3)频率分布直方图求数据1 众数:频率分布直方图中最高矩形的底边中点的横坐标. 小 课 堂2 平均数:频率分布直方图各个小矩形的面积乘底边中点的横坐标之和.3 中位数:把频率分布直方图分成两个面积相等部分的平行于 y轴的直线横坐标.★ 4、茎叶图: 叶 茎 叶将数组中的数按位数进行比较,将数的大小基本不变或变 4 8 5 6 97 6 9 2 6 9化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶)5 5 4 2 10 7 7列在主干的后面,这样可以清楚地看到每个主干后面的几个数. 2 11 2 9成对数据的统计分析(一 )线性回归分析★ 1、回归直线方程①变量之间的两类关系:函数关系与相关关系;②制作散点图,判断线性相关关系; ③线性回归方程:y= a+ bx(最小二乘法 ),n n xi- x yi- y xiyi-nx y b= i= 1 = i= 1 n n其中 x 2 2 2i- x xi -nx . i=1 i=1 a= y - bx 注意:线性回归直线经过定点 (x,y).※ 2、相关系数:(判定两个变量线性相关性 )n n xi- x y i- y xiyi-nx y r= i= 1 = i =1 n x - x n n2 y - y 2 x2 n i 2 2 2i i -nx yi -ny i=1 i=1 i=1 i=1注: (1) r> 0时,变量 x,y正相关;r < 0时,变量 x,y负相关;r∈ [ 1,1](2) |r| 越接近于 1,两个变量的线性相关性越强;|r| 接近于 0时,两个变量之间几乎不存在线性相关关系.※ 3、回归分析中回归效果的判定:∧ ∧(1)残差:ei= yi yi;n n(2)总偏差平方和:SST = ( yi- y )2 残差平方和:SSE= (yi- y 2i) ;i=1 i=1n n n ∧(3)回归平方和:SSR= ( yi- y )2= (yi y )2- (yi yi)2;即SST =SSR+SSEi=1 i=1 i=1·79·n ∧小 课 堂 (yi yi)2(4)相关指数R2= 1 i= 1 n . (y y )2i ii=1注:①R2得知越大,说明残差平方和越小,则模型拟合效果越好;②R2越接近于 1,,则回归效果越好.★ (二 )独立性检验假设有两个分类变量X和Y,它们的值域分别为 (x1,x2)和 (y1,y2),其样本频数 2× 2列联表为: y1 y2 总计x1 a b a+ bx2 c d c+ d总计 a+ c b+ d a+ b+ c+ d若要推断的论述H:“X和Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度.: 2 2= n ( ad - bc )2具体的做法 由表中的数据算出随机变量K 的值.K (a+ b) (c+ d) ( + ,a c) (b+ d)其中n= a+ b+ c+ d为样本容量,K 2值越大,说明“X和Y有关系”成立可能性越大临界值表:P(K 2≥ k0) 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001ko 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828随机变量K 2越大,说明两个分类变量,关系越强;反之,越弱.步骤归纳:第一步:提出假设检验问题 H0:吸烟与患肺癌没有关系 H1:吸烟与患肺癌有关系2第二步:选择检验的指标K 2= n ( ad - bc ) ( + ) ( + ) ( + ) ( + ) (它越小,原假设“H0:吸烟a b c d a c b d与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H1:吸烟与患肺癌有关系”成立的可能性越大.·80· 展开更多...... 收起↑ 资源预览