高中数学必备考试技能模板十八: 线性回归方程
展开模板十八: 线性回归方程 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
模板 构建 | 线性回归方程常用来预估某变量的值,因此选择恰当的拟合函数是解题的关键,一般解题要点如下: (1)作图.依据样本数据画出散点图,确定两个变量具有线性相关关系. (2)计算.计算出,,,xiyi的值;计算回归系数,. (3)求方程.写出线性回归直线方程y=x+. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
典型 例题 | (2020·山东省高三三模)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图. (Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:参考数据:,, ,≈2.646. 参考公式:相关系数 回归方程中斜率和截距的最小二乘估计公式分别为: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
试题 解析 | (Ⅰ)由折线图中数据和附注中参考数据得 ,,, , . 因为与的相关系数近似为0.99,说明与的线性相关相当高,从而可以用线性回归模型拟合与的关系. (Ⅱ)由及(Ⅰ)得, . 所以,关于的回归方程为:. 将2016年对应的代入回归方程得:. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
题后 反思 | (1)判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直观判断;(2)将相关数据代入相关系数公式求出,然后根据的大小进行判断.求线性回归方程时要严格按照公式求解,并一定要注意计算的准确性. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
针对训练*举一反三 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1.(2020·湖北省高三二模)某省级示范高中高三年级对各科考试的评价指标中,有“难度系数“和“区分度“两个指标中,难度系数,区分度. (1)某次数学考试(满分为150分),随机从实验班和普通班各抽取三人,实验班三人的成绩分别为147,142,137;普通班三人的成绩分别为97,102,113.通过样本估计本次考试的区分度(精确0.01). (2)如表表格是该校高三年级6次数学考试的统计数据:
①计算相关系数r,|r|<0.75时,认为相关性弱;|r|≥0.75时,认为相关性强.通过计算说明,能否利用线性回归模型描述y与x的关系(精确到0.01). ②ti=|xi﹣0.74|(i=1,2,…,6),求出y关于t的线性回归方程,并预测x=0.75时y的值(精确到0.01). 附注:参考数据: 参考公式:相关系数r,回归直线的斜率和截距的最小二乘估计分别为 【答案】(1)0.25;(2)①理由见解析,不能利用线性回归模型描述y与x的关系; ② 回归直线方程,预测值为0.24 【解析】(1)实验班三人成绩的平均值为, 普通班三人成绩的平均值为, 故估计本次考试的区分度为0.25, (2)①由题中的表格可知(0.64+0.71+0.74+0.76+0.77+0.82)=0.74, (0.18+0.23+0.24+0.24+0.22+0.15)=0.21, 故r0.13. 因为|r|<0.75,所以相关性弱,故不能利用线性回归模型描述y与x的关系; ②y与t的值如下表
因为0.86, 所以a0.21+0.860.25, 所以所求回归直线方程y=﹣0.86t+0.25, 当x=0.75时,此时t=0.01,则y≈0.24 2.(2020·湖北省高三三模)2019年11月份,全国工业生产者出厂价格同比下降,环比下降某企业在了解市场动态之后,决定根据市场动态及时作出相应调整,并结合企业自身的情况作出相应的出厂价格,该企业统计了2019年1~10月份产品的生产数量(单位:万件)以及销售总额(单位:十万元)之间的关系如下表:
(1)计算的值; (2)计算相关系数,并通过的大小说明与之间的相关程度; (3)求与的线性回归方程,并推测当产量为3.2万件时销售额为多少.(该问中运算结果保留两位小数) 附:回归直线方程中的斜率和截距的最小二乘估计公式分别为,;相关系数. 参考数据:,,. 【答案】(1),. (2)0.997;具有很强的相关性 (3),5.65 【解析】(1)依题意,,. (2)依题意,, 因为, 所以与之间具有很强的相关性. (3), 所以所求回归直线方程为, 故当时,. 3.(2020·安徽省高三三模)随着网购人数的日益增多,网上的支付方式也呈现一种多样化的状态,越来越多的便捷移动支付方式受到了人们的青睐,更被网友们评为“新四大发明”之一.随着人们消费观念的进步,许多人喜欢用信用卡购物,考虑到这一点,一种“网上的信用卡”横空出世——蚂蚁花呗.这是一款支付宝和蚂蚁金融合作开发的新支付方式,简单便捷,同时也满足了部分网上消费群体在支付宝余额不足时的“赊购”消费需求.为了调查使用蚂蚁花呗“赊购”消费与消费者年龄段的关系,某网站对其注册用户开展抽样调查,在每个年龄段的注册用户中各随机抽取100人,得到各年龄段使用蚂蚁花呗“赊购”的人数百分比如图所示. (1)由大数据可知,在18到44岁之间使用花呗“赊购”的人数百分比y与年龄x成线性相关关系,利用统计图表中的数据,以各年龄段的区间中点代表该年龄段的年龄,求所调查群体各年龄段“赊购”人数百分比y与年龄x的线性回归方程(回归直线方程的斜率和截距保留两位有效数字); (2)该网站年龄为20岁的注册用户共有2000人,试估算该网站20岁的注册用户中使用花呗“赊购”的人数; (3)已知该网店中年龄段在18-26岁和27-35岁的注册用户人数相同,现从18到35岁之间使用花呗“赊购”的人群中按分层抽样的方法随机抽取8人,再从这8人中简单随机抽取2人调查他们每个月使用花呗消费的额度,求抽取的两人年龄都在18到26岁的概率. 参考答案:,. 【答案】(1);(2)1080人;(3). 【解析】(1)由题意,,, 所以, ,所求线性回归方程为. (2)由(1)知,该网站20岁的注册用户中使用花呗“赊购”的人数百分比为,而, 所以估计该网站20岁的注册用户中使用花呗“赊购”的人数为1080人. (3)依题意,随机抽取8人,年龄在18到26岁之间有5人,年龄在27-35之间有3人,所以抽取的两人年龄都在18到26岁的概率为. 4.(2020·河南省高三三模)某手机专卖店的营业天数与销售总额的数据统计如下表所示:
(1)求关于的回归直线方程; (2)判定与之间是正相关还是负相关,用所求回归方程预测该店营业100天的销售总额. 参考公式:回归方程中,,. 参考数据:. 【答案】(1)(2)与之间是正相关;销售总额为万元 【解析】(1),. . . . 所以,. 所以回归直线方程为. (2)因为,所以与之间是正相关. 将代入回归方程可预测该店营业100天的销售总额为万元. 5.(2020·湖南省高三二模)2020年全球爆发新冠肺炎,人感染了新冠肺炎病毒后常见的呼吸道症状有:发热、咳嗽、气促和呼吸困难等,严重时会危及生命.随着疫情的发展,自2020年2月5日起,武汉大面积的爆发新冠肺炎,政府为了及时收治轻症感染的群众,逐步建立起了14家方舱医院,其中武汉体育中心方舱医院从2月12日开舱至3月8日闭仓,累计收治轻症患者1056人.据部分统计该方舱医院从2月26日至3月2日轻症患者治愈出仓人数的频数表与散点图如下:
根据散点图和表中数据,某研究人员对出仓人数与日期序号进行了拟合分析.从散点图观察可得,研究人员分别用两种函数①②分析其拟合效果.其相关指数可以判断拟合效果,R2越大拟合效果越好.已知的相关指数为. (1)试根据相关指数判断.上述两类函数,哪一类函数的拟合效果更好?(注:相关系数与相关指数R2满足,参考数据表中) (2)①根据(1)中结论,求拟合效果更好的函数解析式;(结果保留小数点后三位) ②3月3日实际总出仓人数为216人,按①中的回归模型计算,差距有多少人? (附:对于一组数据,其回归直线为 相关系数 参考数据:
,,,. 【答案】(1)回归方程的拟合效果更好;(2)①.②相差129人. 【解析】(1)由得,,令, 由上表得:, 又由已知计算 ∴ 故由,因此回归方程的拟合效果更好. (2)① ∴, 故, 即回归方程为. ②当序号时,, 而3月3日实际出仓人数为216人,相差129人. 6.(2020·陕西省西安中学高三三模)近期,西安公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,表示活动推出的天数,表示每天使用扫码支付的人次(单位:十人次),统计数据如表下所示: 根据以上数据,绘制了散点图. (1)根据散点图判断,在推广期内,与(均为大于零的常数),哪一个适宜作为扫码支付的人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由); (2)根据(1)的判断结果及表1中的数据,建立与的回归方程,并预测活动推出第8天使用扫码支付的人次; (3)推广期结束后,车队对乘客的支付方式进行统计,结果如下表: 西安公交六公司车队为缓解周边居民出行压力,以万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为万元.已知该线路公交车票价为元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有的概率享受折优惠,有的概率享受折优惠,有的概率享受折优惠.预计该车队每辆车每个月有万人次乘车,根据所给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,假设这批车需要()年才能开始盈利,求的值. 参考数据: 其中其中,, 参考公式:对于一组数据,,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,. 【答案】(1)(2),3470(3)7 【解析】(1)根据散点图判断,在推广期内, (均为大于零的常数),适宜作为扫码支付的人次关于活动推出天数的回归方程类型. (2)根据(1)的判断结果, 两边取对数得, 其中,,, , , 所以。 所以。 当时, 。 所以活动推出第8天使用扫码支付的人次3470人. (3)设一名乘客一次乘车的费用为元, 根据题意得可能取值为:1.4、1.6、1.8、2 , , 。 假设这批车需要()年才能开始盈利, 则, 解得。 所以需要7年才能开始盈利.。 7.(2020·河北省正定中学高三二模)某企业为确定下一年度投入某种产品的生产所需的资金,需了解每投入2千万资金后,工人人数(单位:百人)对年产能(单位:千万元)的影响,对投入的人力和年产能的数据作了初步处理,得到散点图和统计量表.
(1)根据散点图判断:与哪一个适宜作为年产能关于投入的人力的回归方程类型?并说明理由? (2)根据(1)的判断结果及相关的计算数据,建立关于的回归方程; (3)现该企业共有2000名生产工人,资金非常充足,为了使得年产能达到最大值,则下一年度共需投入多少资金(单位:千万元)? 附注:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,(说明:的导函数为) 【答案】(1)选择,理由见解析;(2);(3)20千万 【解析】(1)由图可知适宜作为年产能关于投入的人力的回归方程类型 若选择,则,此时当接近于0时,必小于0, 故选择作为年产能关于投入的人力的回归方程类型 (2)由,得,故与符合线性回归,. , ,即, 关于的回归方程. (3)当人均产能达到最大时,年产能也达到最大, 由(2)可知人均产能函数, , 时,,时, 时,单调递增,时,单调递减, 当时,人均产能函数达到最大值, 因此,每2千万资金安排2百人进行生产,能使人均产能达到最大, 对于该企业共有2000名生产工人,且资金充足, 下一年度应该投入20千万资金进行生产,可以适当企业的产能达到最大. 8.(2020·湖南省长郡中学高三三模)某企业积极响应国家“科技创新”的号召,大力研发新产品,为了对新研发的一批产品进行合理定价将该产品按事先拟定的价格进行试销,得到一组销售数据 如下表所示: (1)求的值; (2)已知变量具有线性相关关系,求产品销量(件)关于试销单价(百元)的线性回归方程(计算结果精确到整数位) (3)用表示用正确的线性回归方程得到的与对应的产品销量的估计值,当销量数据的残差的绝对值时,则将销售数据称为一个“有效数据”现从这6组数据中任取2组,求抽出的2组销售数据都是“有效数据”的概率 附参考公式:,, 【答案】(1)(2)或(3) 【解析】(1)由得. 求得. (2), ,(或) 所以回归方程为或. (3)当,当,当,当,;当,;当,,根据题意则“有效数据”有4个,从6组销售数据中任意抽取2组的所有可能结果有种,抽取的2组销售数据都是“有效数据”的有种,所以抽取的2组销售数据都是“有效数据”的概率为. 9.(2020·湖南省长郡中学高三三模)为提供市民的健身素质,某市把四个篮球馆全部转为免费民用 (1)在一次全民健身活动中,四个篮球馆的使用场数如图,用分层抽样的方法从四场馆的使用场数中依次抽取共25场,在中随机取两数,求这两数和的分布列和数学期望; (2)设四个篮球馆一个月内各馆使用次数之和为,其相应维修费用为元,根据统计,得到如下表的数据:
①用最小二乘法求与的回归直线方程; ②叫做篮球馆月惠值,根据①的结论,试估计这四个篮球馆月惠值最大时的值 参考数据和公式:, 【答案】(1)见解析,12.5(2)①②20 【解析】(1)抽样比为,所以分别是,6,7,8,5 所以两数之和所有可能取值是:10,12,13,15 ,,, 所以分布列为 期望为 (2)因为 所以,, ; ②, 设, 所以当递增,当递减 所以约惠值最大值时的值为20 10.(2020·安徽省高三二模)受“非洲猪瘟”的影响,月份起,某地猪肉的单价随着每周供应量的不足而上涨, 具体情形统计如下表所示:
(1)求猪肉单价关于的线性回归方程 (2)当地有关部门已于月初购入进口猪肉,如果猪肉单价超过元/斤,则释放进口猪肉增加市场供应量以调控猪肉价格,试判断自受影响后第几周开始需要释放进口猪肉? 参考数据:,参考公式: 【答案】(1);(2)应从第周开始 【解析】(1),. ,. 所以,. 故. (2)当时,,当时,, 所以应从第周开始释放进口猪肉.
|