资源简介
(共18张PPT)
2.相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据的线性相关程度越弱;特别地,当|r|=0时,成对数据的没有线性相关关系;当|r|=1时,成对数据都落在一条直线上.
注:若0.75≤|r|≤1,则认为y与x的线性相关程度很强;
若0.3≤|r|<0.75,则认为y与x的线性相关程度一般;
若|r|≤0.25,则认为y与x的线性相关程度较弱。
1.样本相关系数:
温故知新:
3.经验回归方程:
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法.
4. 最小二乘估计:
经验回归方程中的参数 计算公式为:
温故知新:
5.决定系数R2:
在R2表达式中, 与经验回归方程无关,残差平方和
与经验回归方程有关,因此R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.
温故知新:
已知某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
(1)求y关于x的经验回归方程;
(2)借助残差平方和与R2说明回归模型拟合效果的好坏.
学以致用:
8.3 列联表与独立性检验
8.3.1 分类变量与列联表
吸烟是否会增加患肺癌的风险?
吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题.为此,联合国固定每年5月31日为全球戒烟日.
前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100 m世界纪录和创纪录的时间等,都是数值变量. 数值变量的取值为实数,其大小和运算都有实际含义.
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等.本节将要学习的独立性检验方法为我们提供了解决这类问题的方案.
在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等. 在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义.本节我们主要讨论取值于{0,1}的分类变量的关联性问题.
1.分类变量
问题:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查. 全校学生的普查数据如下: 523名女生中有331名经常锻炼;601名男生中有473名经常锻炼. 你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗
如何利用统计数据判断一对分类变量之间是否具有关联性呢 对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法.我们先看下面的具体问题.
这是一个简单的统计问题.最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率.
上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法.
用Ω表示该校全体学生构成的集合,则Ω为样本空间,定义一对分类变量X和Y如下:对于Ω中的每一名学生,分别令
若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是 而该男生属于经常锻炼群体的概率是
为了清楚起见,我们用表格整理数据,如下表所示.
性别 锻炼 合计
不经常(Y=0) 经常(Y=1)
女生(X=0) 192 331 523
男生(X=1) 128 473 601
合计 320 804 1124
∴在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
2.列联表:
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数.
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b a+b
B(X=1) c d c+d
合计 a+c b+d a+b+c+d
解:用Ω表示两所学校的全体学生构成的集合,则Ω为样本空间,对于Ω中的每一名学生,定义分类变量X和Y如下:
例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生. 通过测验得到了如下数据:甲校43名学生中有10 名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.
将所给数据整理成如下2×2列联表.
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1)
甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1)
甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
由等高堆积条形图可知,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
由2×2列联表可得,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为:
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为:
作出等高堆积条形图如图示.
甲校
乙校
1.0
0.8
0.6
0.4
0.0
0.2
优秀
不优秀
思考:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的
事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.这就是说,样本的随机性导致了两个频率间出现较大差异.在这种情况下,我们推断出的结论就是错误的.后面我们将讨论犯这种错误的概率大小问题.
2.例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件概率 为什么
解:不能.因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性. 在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具有随机性,这种推断可能犯错误.因此,随机抽样数据不足以确定与X和Y有关的所有概率和条件概率.
1.成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即老师的名声与学生的水平之间有关联.你能举出更多的描述生活中两种属性或现象之间关联的成语吗
解:例如勤能补拙,水涨船高,登高望远等.
请看课本P127:练习
3.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语.那么
(1) 吸烟是否对每位烟民一定会引发健康问题
(2) 有人说吸烟不一定引起健康问题,因此可以吸烟. 这种说法对吗
解:(1) 从已掌握的知识来看,吸烟会损害身体的健康.但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果. 吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者. 因此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题.
(2)这种说法不正确. 虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一定引起健康问题,因此可以吸烟”的说法是不对的.
请看课本P127:练习3
4.假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如下的列联表:
性别 锻炼 合计
不经常 经常
女生 5 15 20
男生 6 18 24
合计 11 33 44
(1)据此推断性别因素是否影响学生锻炼的经常性;
(2)说明你的推断结论是否可能犯错,并解释原因.
请看课本P127:练习4
(2)推断可能犯错误.因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误.
课堂小结:
1.分类变量:
用以区别不同的现象或性质的一种特殊的随机变量,称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.
2.列联表:
将形如下表这种形式的数据统计表称为2×2列联表.2×2列联表给出了成对分类变量数据的交叉分类频数.
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b a+b
B(X=1) c d c+d
合计 a+c b+d a+b+c+d
展开更多......
收起↑