资源简介 《第八章 成对数据的统计分析》检测题一、选择题:本题共6小题,每小题5分,共30分.在每小题给出的四个选项中,只有一项是符合题目要求的.1. 相关变量x、y的样本数据如下表:x 1 2 3 4 5y 2 2 3 5 6经回归分析可得y与x线性相关,并由最小二乘法求得经验回归直线方程为 =1.1x+a,则a=( )A.0.1 B.0.2 C.0.3 D.0.42. 在某大学一食品超市,随机询问了70名不同性别的大学生在购买食物时是否查看营养说明,得到如下的列联表:女 男 总计要查看营养说明 15 25 40不查看营养说明 20 10 30总计 35 35 70附:χ2=,n=a+b+c+d.α 0.5 0.4 0.25 0.15 0.1 0.05 0.025 0.01 0.005xα 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879根据列联表的独立性检验,则下列说法正确的是( )A.在犯错误的概率不超过0.05的前提下认为该校大学生在购买食物时要查看营养说明的人数中男生人数更多B.在犯错误的概率不超过0.010的前提下认为该校女大学生在购买食物时要查看营养说明的人数与不查看营养说明的人数比为C.在犯错误的概率不超过0.025的前提下认为性别与是否查看营养说明有关系D.在犯错误的概率不超过0.01的前提下认为性别与是否查看营养说明有关系3. 下列关于回归分析的说法中错误的有( )(1)残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高.(2)若所有样本点都在上,则变量间的相关系数为±1(3)两个模型中残差平方和越小的模型拟合的效果越好.(4)甲、乙两个模型的分别约为0.88和0.80,则模型乙的拟合效果更好.A.4个 B.3个 C.2个 D.1个4. 某种产品的广告支出费用x(单位:万元)与销售额y单位:万元)之间有如下关系:x 2 4 5 6 8y 30 40 70 50 60已知y与x的线性回归方程为=5x+25,则当广告支出费用为5万元时,残差为( )A.40 B.30 C.20 D.105. 已知具有线性相关关系的两个变量x,y之间的一组数据如表:x 0 1 2 3 4y 2.2 n 4.5 4.8 6.7若经验回归直线方程是=0.95x+2.6,则下列说法不正确的是( )A.n的值是4.3 B.变量x,y呈正相关关系C.若x=6,则y的值一定是8.3 D.若x的值增加1,则y的值约增加0.956. 在对具有线性相关关系的两个变量x和y进行统计分析时,得到如下数据:x 4 m 8 10 12y 1 2 3 5 6由表中数据求得关于的回归方程为=0.65x-1.8,则(4,1),(m,2),(8,3)这三个样本点中,距离回归直线最近的点是( )A.(4,1) B.(m,2) C.(8,3) D.(4,1)或(m,2)二、选择题:本题共3小题,每小题5分,共15分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,有选错的得0分,部分选对的得2分.7. 为了解高中生选科时是否选物理与数学成绩之间的关系,某教研机构随机抽取了50名高中生,通过问卷调查,得到以下数据:选物理 不选物理数学成绩优异 20 7数学成绩一般 10 13由以上数据,计算得到χ2=≈4.844,根据临界值表,以下说法正确的是( )参考数据:α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828A.有95%的把握认为是否选择物理与数学成绩有关B.在犯错误的概率不超过0.05的前提下,认为是否选择物理与数学成绩有关C.95%的数学成绩优异的同学选择物理D.若表格中的所有数据都扩大为原来的10倍,在相同条件下,结论不会发生变化8. 下列命题正确的是( )A.已知两个变量线性相关,若它们的相关程度越强,则相关系数的绝对值越接近于1;B.通过经验回归方程得到的预报值就是响应变量的精确值C.在刻画回归模型的拟合效果时,残差平方和越小,决定系数的值越大,说明拟合效果越好;D.对分类变量x与y的随机变量χ2的值越小,判断“x与y有关系”的把握程度越大.9. 以下四个命题中,其中正确的是( )A.已知两个变量具有线性相关关系,其经验回归直线方程为y=a+bx,若b=2,=1,=3,则a=1.B.两个随机变量相关性越强,则相关系数的绝对值越接近于0C.在经验回归直线方程=0.2x+12中,当变量x每增加一个单位时,则变量平均增加0.2个单位D.以模型y=去拟合一组数据时,为了求出经验回归方程,设z=lny,将其变换后得到线性方程:z=0.3x+4,则c==0.3三、填空题:本题共3小题,每小题5分,共15分.10. 对具有线性相关关系的变量x、y,有一组观测数据(xi,yi)(i=1,2…,10),其线性回归方程是,且==9,则实数的值是___________.11. 已知变量x,y线性相关,由观测数据算得样本的平均数==5,线性回归方程=bx+a中的系数b,a满足b+a=4,则线性回归方程为________.12. 有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如表所示的列联表,已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的( )优秀 非优秀 总计甲班 10 b乙班 c 30总计 105参考数据:α 0.05 0.01 0.001xα 3.841 6.635 10.828A.列联表中c的值为20,b的值为45B.列联表中c的值为15,b的值为50C.由列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D.由列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”四、解答题:本题共4小题,共40分.解答应写出文字说明、证明过程或演算步.13. 为了研究黏虫孵化的平均温度x(单位:oC)与孵化天数y之间的关系,某课外兴趣小组通过试验得到如下6组数据:组号 1 2 3 4 5 6平均温度 12 16 17 18 19 20孵化天数 23 16 14 12 9 7 他们分别用两种模型①,②分别进行拟合,得到相应的经验回归方程并进行残差分析,得到如图所示的残差图: 经计算得,(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?(给出判断即可,不必说明理由)(2)应用最小二乘法建立y关于x的线性经验回归方程.参考公式:经验回归方程中斜率和截距的最小二乘法估计公式分别为:,14. 某地区甲校高二年级有1100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如下表:(已知本次测试合格线是50分,两校合格率均为100%)甲校高二年级数学成绩:分组 [50,60) [60,70) [70,80) [80,90) [90,100]频数 10 25 35 30 x乙校高二年级数学成绩:分组 [50,60) [60,70) [70,80) [80,90) [90,100]频数 15 30 25 y 5(1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分(精确到1分)(2)若数学成绩不低于80分为优秀,低于80分为非优秀,根据以上统计数据写下面2×2列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异?”甲校 乙校 总计优秀非优秀总计附:χ2=,n=a+b+c+d.α 0.1 0.05 0.025 0.01 0.005 0.001xα 2.706 3.841 5.024 6.635 7.879 10.82815. 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x 3 4 5 6y 2.5 3 4 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (4)请求出决定系数R2,并说明模型的拟合效果.附:,;16. “学习强国”学习平台是由中共中央宣传部主管,以习近平新时代中国特色社会主义思想和党的十九大精神为主要内容,立足全体党员、面向全社会的优质学习平台.2021年4月7日,“学习强国”上线“强国医生”功能,提供智能导诊、疾病自查,疾病百科、健康宣传等多种医疗健康服务,传播普及健康常识、卫生知识,助力健康生活.(1)为了解“强国医生”的使用次数多少与性别之间的关系,某调查机构调研了200名“强国医生”的使用者得到如下数据:男 女 总计使用次数多 40使用次数少 30总计 90 200根据所给数据完成上述表格,并判断是否有99.9%的把握认为“强国医生”的使用次数与性别有关;(2)该机构统计了“强国医生”上线7天内每天使用该服务的女性人数,“强国医生”上线的第x天,每天使用“强国医生”的女性人数为y,得到以下数据:x 1 2 3 4 5 6 7y 6 11 21 34 66 100 195通过观察散点图发现样本点集中于某一条曲线y=的周围,求y关于x的回归方程,并预测“强国医生”上线第12天使用该服务的女性人数.附:χ2=,n=a+b+c+d.α 0.1 0.05 0.025 0.01 0.005 0.001xα 2.706 3.841 5.024 6.635 7.879 10.828100.661.9 1.6 51.8 2522 3.98其中=.参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为 .《第八章 成对数据的统计分析》检测题一、选择题:本题共6小题,每小题5分,共30分.在每小题给出的四个选项中,只有一项是符合题目要求的.1. 相关变量x、y的样本数据如下表:x 1 2 3 4 5y 2 2 3 5 6经回归分析可得y与x线性相关,并由最小二乘法求得经验回归直线方程为 =1.1x+a,则a=( )A.0.1 B.0.2 C.0.3 D.0.4【答案】C【解析】由题意,==3,==3.6,∵经验回归直线方程为=1.1x+a,经验回归直线过样本点的中心(,),∴3.6=1.1×3+a,∴a=0.3.故选:C.2. 在某大学一食品超市,随机询问了70名不同性别的大学生在购买食物时是否查看营养说明,得到如下的列联表:女 男 总计要查看营养说明 15 25 40不查看营养说明 20 10 30总计 35 35 70附:χ2=,n=a+b+c+d.α 0.5 0.4 0.25 0.15 0.1 0.05 0.025 0.01 0.005xα 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879根据列联表的独立性检验,则下列说法正确的是( )A.在犯错误的概率不超过0.05的前提下认为该校大学生在购买食物时要查看营养说明的人数中男生人数更多B.在犯错误的概率不超过0.010的前提下认为该校女大学生在购买食物时要查看营养说明的人数与不查看营养说明的人数比为C.在犯错误的概率不超过0.025的前提下认为性别与是否查看营养说明有关系D.在犯错误的概率不超过0.01的前提下认为性别与是否查看营养说明有关系【答案】C【解析】根据列联表中数据,计算χ2==≈5.833>5.024=x0.025,所以在犯错误的概率不超过0.025的前提下认为性别与是否查看营养说明有关系.故选:C.3. 下列关于回归分析的说法中错误的有( )(1)残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高.(2)若所有样本点都在上,则变量间的相关系数为±1(3)两个模型中残差平方和越小的模型拟合的效果越好.(4)甲、乙两个模型的分别约为0.88和0.80,则模型乙的拟合效果更好.A.4个 B.3个 C.2个 D.1个【答案】B【解析】 对于(1),残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,故(1)错误;对于(2),所有样本点都在上,则变量间的相关系数为±1,故(2)错误.对于(3),两个模型中残差平方和越小的模型拟合的效果越好,故(3)正确;对于(4),甲、乙两个模型的分别约为0.88和0.80,且0.88>0.80,则模型甲的拟合效果更好,故(4)错误;综上,错误的命题是(1)、(2)、(4)共3个.故选:B.4. 某种产品的广告支出费用x(单位:万元)与销售额y单位:万元)之间有如下关系:x 2 4 5 6 8y 30 40 70 50 60已知y与x的线性回归方程为=5x+25,则当广告支出费用为5万元时,残差为( )A.40 B.30 C.20 D.10【答案】C【解析】当x=5时,=5×5+25=50,此时,残差为70-50=20,故选:C.5. 已知具有线性相关关系的两个变量x,y之间的一组数据如表:x 0 1 2 3 4y 2.2 n 4.5 4.8 6.7若经验回归直线方程是=0.95x+2.6,则下列说法不正确的是( )A.n的值是4.3 B.变量x,y呈正相关关系C.若x=6,则y的值一定是8.3 D.若x的值增加1,则y的值约增加0.95【答案】C【解析】∵==2,==∴样本点的中心为, 代入=0.95x+2.6,得=0.95×2+2.6,解得n=4.3.故A正确;∵y关于x的线性回归方程为=0.95x+2.6,=0.95>0,∴变量x,y呈正相关关系,故B正确;若x=6,则=8.3,y估计值是8.3,但不能断定y的值一定是8.3,故C错误;若x的值增加1,则y的值约增加0.95,故D正确.故选:C.6. 在对具有线性相关关系的两个变量x和y进行统计分析时,得到如下数据:x 4 m 8 10 12y 1 2 3 5 6由表中数据求得关于的回归方程为=0.65x-1.8,则(4,1),(m,2),(8,3)这三个样本点中,距离回归直线最近的点是( )A.(4,1) B.(m,2) C.(8,3) D.(4,1)或(m,2)【答案】B【解析】由表中数据,得====3.4,代入回归方程=0.65x-1.8中,得3.4=解得m=6.∴x=4时,=0.65×4-1.8=0.8,|1-0.8|=0.2;x=6时,=0.65×6-1.8=2.1,|2-2.1|=0.1;x=8时,=0.65×8-1.8=3.4,|3-3.4|=0.4.综上,(4,1),(m,2),(8,3)这三个样本点中,距离回归直线最近的点是(m,2).故选:B.二、选择题:本题共3小题,每小题5分,共15分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,有选错的得0分,部分选对的得2分.7. 为了解高中生选科时是否选物理与数学成绩之间的关系,某教研机构随机抽取了50名高中生,通过问卷调查,得到以下数据:选物理 不选物理数学成绩优异 20 7数学成绩一般 10 13由以上数据,计算得到χ2=≈4.844,根据临界值表,以下说法正确的是( )参考数据:α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828A.有95%的把握认为是否选择物理与数学成绩有关B.在犯错误的概率不超过0.05的前提下,认为是否选择物理与数学成绩有关C.95%的数学成绩优异的同学选择物理D.若表格中的所有数据都扩大为原来的10倍,在相同条件下,结论不会发生变化【答案】AB【解析】∵χ2=4.844>3.841=x0.05,∴有95%的把握认为是否选择物理与数学成绩有关,故A正确,在犯错误的概率不超过0.05的前提下,认为是否选择物理与数学成绩有关,故B正确,若表中的数据都扩大为原来的10倍,χ2=又48.44>10.828,故结论发生变化.故选:AB.8. 下列命题正确的是( )A.已知两个变量线性相关,若它们的相关程度越强,则相关系数的绝对值越接近于1;B.通过经验回归方程得到的预报值就是响应变量的精确值C.在刻画回归模型的拟合效果时,残差平方和越小,决定系数的值越大,说明拟合效果越好;D.对分类变量x与y的随机变量χ2的值越小,判断“x与y有关系”的把握程度越大.【答案】AC.【解析】对于A,由相关性与相关系数的关系可知,若它们的相关程度越强,则相关系数的绝对值越接近于1,故A正确,对于B,不能期望经验回归方程得到的预测值就是响应变量的精确值,它是响应变量的可能取值的平均值,故B错误;对于C,在刻画回归模型的拟合效果时,残差平方和越小,决定系数的值越大,说明拟合效果越好,故C正确,对于D,对分类变量x与y的随机变量χ2的值越大,判断“x与y有关系”的把握程度越大,故D错误.故选:AC.9. 以下四个命题中,其中正确的是( )A.已知两个变量具有线性相关关系,其经验回归直线方程为y=a+bx,若b=2,=1,=3,则a=1.B.两个随机变量相关性越强,则相关系数的绝对值越接近于0C.在经验回归直线方程=0.2x+12中,当变量x每增加一个单位时,则变量平均增加0.2个单位D.以模型y=去拟合一组数据时,为了求出经验回归方程,设z=lny,将其变换后得到线性方程:z=0.3x+4,则c==0.3【答案】ACD【解析】对于A,因为经验回归直线方程y=a+bx必过样本中心(1,3),所以3=a+2×1,解得a=1,故A正确;对于B,两个随机变量相关性越强,则相关系数的绝对值越接近于1,故B错;对于C,在经验回归直线方程=0.2x+12中,当变量x每增加一个单位时,则变量平均增加0.2个单位,故C正确;对于D,由y=两边取对数,可得lny===lnc+kx,令z=lny,可得z=lnc+kx,∵z=0.3x+4,∴lnc=4,k=0.3,∴c=故D正确;故选:ACD.三、填空题:本题共3小题,每小题5分,共15分.10. 对具有线性相关关系的变量x、y,有一组观测数据(xi,yi)(i=1,2…,10),其线性回归方程是,且==9,则实数的值是___________.【答案】【解析】因为=9,所以=0.9,且=9,所以=3,所以=0.3,故0.3=×0.9+1,解得=故答案为:.11. 已知变量x,y线性相关,由观测数据算得样本的平均数==5,线性回归方程=bx+a中的系数b,a满足b+a=4,则线性回归方程为________.【答案】=【分析】根据回归直线方程过样本中心点,结合题意得出关于a、b的方程组,求解即可.【解析】线性回归方程=bx+a过样本中心点(4,5),所以4b+a=5;又a+b=4,解方程组 ,得b=,a=所以线性回归方程为:=.故答案为:=.12. 有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如表所示的列联表,已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的( )优秀 非优秀 总计甲班 10 b乙班 c 30总计 105参考数据:α 0.05 0.01 0.001xα 3.841 6.635 10.828A.列联表中c的值为20,b的值为45B.列联表中c的值为15,b的值为50C.由列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D.由列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”【答案】AC【解析】由题意,在全部105人中随机抽取1人,成绩优秀的概率为则=,解得c=20,所以b+30=105-10-c=105-10-20=75,解得b=45,所以A正确,B错误;由χ2=≈6.109>3.841,则若按95%的可靠性要求,能认为“成绩与班级有关系”,所以C正确,D错误.故选:AC.四、解答题:本题共4小题,共40分.解答应写出文字说明、证明过程或演算步.13. 为了研究黏虫孵化的平均温度x(单位:oC)与孵化天数y之间的关系,某课外兴趣小组通过试验得到如下6组数据:组号 1 2 3 4 5 6平均温度 12 16 17 18 19 20孵化天数 23 16 14 12 9 7 他们分别用两种模型①,②分别进行拟合,得到相应的经验回归方程并进行残差分析,得到如图所示的残差图: 经计算得,(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?(给出判断即可,不必说明理由)(2)应用最小二乘法建立y关于x的线性经验回归方程.参考公式:经验回归方程中斜率和截距的最小二乘法估计公式分别为:,【解析】(1)应该选择模型①(2)=1297-6×17×13.5=-80,=1774-6×172=40,==-2,=13.5+2×17=47.5.所以y关于x的线性经验回归方程为:=-2x+47.5.14. 某地区甲校高二年级有1100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如下表:(已知本次测试合格线是50分,两校合格率均为100%)甲校高二年级数学成绩:分组 [50,60) [60,70) [70,80) [80,90) [90,100]频数 10 25 35 30 x乙校高二年级数学成绩:分组 [50,60) [60,70) [70,80) [80,90) [90,100]频数 15 30 25 y 5(1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分(精确到1分)(2)若数学成绩不低于80分为优秀,低于80分为非优秀,根据以上统计数据写下面2×2列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异?”甲校 乙校 总计优秀非优秀总计附:χ2=,n=a+b+c+d.α 0.1 0.05 0.025 0.01 0.005 0.001xα 2.706 3.841 5.024 6.635 7.879 10.828【解析】(Ⅰ)依题意知甲校应抽取110人,乙校应抽取90人,∴x=10,y=15,估计两个学校的平均分甲校的平均分乙校的平均分(Ⅱ)数学成绩不低于80分为优秀,低于80分为非优秀,得到列联表甲校 乙校 总计优秀 40 20 60非优秀 70 70 140总计 110 90 200χ2=≈4.714>3.841=x0.05故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”.15. 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x 3 4 5 6y 2.5 3 4 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (4)请求出决定系数R2,并说明模型的拟合效果.附:,;【解析】(1)由题设所给数据,可得散点图如图.(2),,=32+42+52+62=86,=3×2.5+4×3+5×4+6×4.5=66.5==0.7,=3.5-0.7×4.5=0.35.故线性回归方程为=0.7x+0.35.(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,故耗能减少了90-70.35=19.65(吨标准煤).(4)由(2)中数据列表如下:0.05 -0.15 0.15 -0.05-1 -0.5 0.5 1∴决定系数R2==1-=0.98,∴R2取值接近于1,说明模型的拟合效果较好.16. “学习强国”学习平台是由中共中央宣传部主管,以习近平新时代中国特色社会主义思想和党的十九大精神为主要内容,立足全体党员、面向全社会的优质学习平台.2021年4月7日,“学习强国”上线“强国医生”功能,提供智能导诊、疾病自查,疾病百科、健康宣传等多种医疗健康服务,传播普及健康常识、卫生知识,助力健康生活.(1)为了解“强国医生”的使用次数多少与性别之间的关系,某调查机构调研了200名“强国医生”的使用者得到如下数据:男 女 总计使用次数多 40使用次数少 30总计 90 200根据所给数据完成上述表格,并判断是否有99.9%的把握认为“强国医生”的使用次数与性别有关;(2)该机构统计了“强国医生”上线7天内每天使用该服务的女性人数,“强国医生”上线的第x天,每天使用“强国医生”的女性人数为y,得到以下数据:x 1 2 3 4 5 6 7y 6 11 21 34 66 100 195通过观察散点图发现样本点集中于某一条曲线y=的周围,求y关于x的回归方程,并预测“强国医生”上线第12天使用该服务的女性人数.附:χ2=,n=a+b+c+d.α 0.1 0.05 0.025 0.01 0.005 0.001xα 2.706 3.841 5.024 6.635 7.879 10.828100.661.9 1.6 51.8 2522 3.98其中=.参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为 .【解析】(1)2×2列联表如下:男 女 总计使用次数多 40 80 120使用次数少 50 30 80总计 90 110 200χ2==≈16.498>10.828,所以有99.9%的把握认为“强国医生”的使用次数与性别有关.(2)将两边同时取常用对数得,设,则,因为,所以,所以,所以y关于x的回归方程为,把x=12代入回归方程,得,所以“强国医生”上线第12天,使用该服务的女性约有3980人. 展开更多...... 收起↑ 资源预览