5.2.1《数据采集的方法和工具》粤教版(2019)数据与计算必修1-课后练习(含答案)

资源下载
  1. 二一教育资源

5.2.1《数据采集的方法和工具》粤教版(2019)数据与计算必修1-课后练习(含答案)

资源简介

数据采集的方法和工具练习题
(粤教版·必修一《数据与计算》5.2.1)
一、单选题(共15题,每题5分,共75分)
1. 数据采集是指(  )
A. 对数据进行清洗和整理的过程
B. 从数据中提取有用信息的过程
C. 根据系统的需求,从数据源获取数据的过程
D. 将数据以图形化方式呈现的过程
2. 下列哪种方式属于通过传感器进行数据采集?(  )
A. 用问卷调查收集学生的身高信息
B. 用温度计测量室内温度并自动记录
C. 从统计局网站下载人口普查数据
D. 通过日志文件记录用户登录时间
3. 在智慧农业中,用于监测土壤湿度的设备是(  )
A. 网络爬虫
B. 湿度传感器
C. GPS定位仪
D. 二维码扫描器
4. 下列数据采集方法中,属于人工采集的是(  )
A. 用网络爬虫抓取网页数据
B. 使用摄像头自动抓拍违章车辆
C. 调查员入户访问填写问卷
D. 通过RFID读取货物标签信息
5. 某电商网站需要分析用户的购物行为,通常会记录用户的浏览、点击、购买等操作,这些记录主要来源于(  )
A. 问卷调查
B. 传感器
C. 系统日志
D. 人工观察
6. 以下选项中,属于专业数据采集工具的是(  )
A. Excel表格
B. 网络爬虫软件
C. Photoshop
D. PowerPoint
7. 大规模采集互联网网页数据时,常用的自动化工具是(  )
A. 网络爬虫
B. 数据库管理系统
C. 电子表格软件
D. 文字处理软件
8. 关于数据采集的原则,下列说法正确的是(  )
A. 采集的数据越全面越好,不需要考虑成本
B. 采集过程中无需考虑个人隐私问题
C. 采集的数据应当真实、准确、可靠
D. 为了效率可以随意修改原始数据
9. 智能手环记录佩戴者的心率、步数、睡眠时间等数据,主要采用的采集技术是(  )
A. 问卷调查
B. 传感器技术
C. 网络爬虫
D. 人工记录
10. 下列采集方法中,能够实时、自动获取环境数据的是(  )
A. 人工抄录水表读数
B. 使用温湿度传感器并连接物联网平台
C. 发放纸质问卷收集居民意见
D. 从图书馆借阅记录中统计借书量
11. 某研究团队需要获取近十年某城市的空气质量数据,最合适的采集方式是(  )
A. 自己购买设备每天测量
B. 从政府环保部门公开的数据平台下载
C. 通过街头随机询问市民
D. 利用网络爬虫从社交媒体抓取相关讨论
12. 关于网络爬虫采集数据,下列说法不正确的是(  )
A. 网络爬虫可以按照一定规则自动抓取网页信息
B. 使用网络爬虫时应遵守网站的robots.txt协议
C. 网络爬虫可以无限制地高速访问任何网站
D. 网络爬虫是获取公开数据的重要工具之一
13. 在校园内采集学生上下学交通方式的数据,最便捷高效的方法是(  )
A. 在每个学生身上安装GPS追踪器
B. 通过班级群发放电子问卷并收集回复
C. 人工蹲守校门口逐个询问记录
D. 调取学校门口的监控录像逐一分析
14. 下列数据中,最适合使用GPS定位技术采集的是(  )
A. 某地区的气温变化
B. 共享单车的实时位置
C. 某商场顾客的年龄分布
D. 某班级学生的考试成绩
15. 以下选项中,不属于数据采集工具的是(  )
A. 条码扫描枪
B. 问卷星(在线问卷平台)
C. Python程序(用于抓取数据)
D. MySQL数据库管理系统
二、填空题(共10题,每题2分,共20分)
1. 数据采集的方法主要分为__________采集和__________采集两大类。
2. 通过人工观察、访谈、问卷等方式获取数据的方法属于__________采集。
3. 利用温度传感器、湿度传感器、摄像头等设备自动获取数据的方法属于__________采集。
4. 网络爬虫是一种按照一定规则,自动抓取__________信息的程序或脚本。
5. 常见的传感器类型有温度传感器、__________传感器、__________传感器等。
6. 在数据采集过程中,应当遵循__________、__________、安全可靠等原则。
7. 将物理世界中的模拟信号转换为数字信号并输入计算机的设备,通常称为__________。
8. RFID技术(射频识别)常用于__________采集,如门禁卡、商品电子标签等。
9. 系统日志记录了操作系统或应用程序的运行事件,是__________采集的重要来源。
10. 手机内置的加速度计、陀螺仪、磁力计等都属于__________。
三、情景作答题(共3题)
情景一:智慧校园中的考勤数据采集
某中学计划建设智慧校园系统,需要采集学生每日到校、离校的时间数据,以便进行考勤统计和安全管理。现有以下几种方案可供选择:
方案A:由各班班长每天人工统计迟到、早退名单,上报给教务处。
方案B:在校门口安装人脸识别闸机,学生通过时自动记录时间。
方案C:给学生每人配发一张校园卡,进出校门时刷卡记录。
方案D:让学生用手机App进行签到,系统记录签到时间和位置。
请回答以下问题:
1. 以上四种方案中,哪些属于自动采集?哪些属于人工采集?(4分)
2. 从数据采集的“准确性”“实时性”“成本”三个角度,对比方案B和方案C的优缺点。(6分)
3. 如果要采集学生上课期间的课堂专注度(如是否打瞌睡、是否看手机),你认为可以采用哪些数据采集方法和工具?请提出一个合理的方案,并说明需要遵守的伦理原则。(6分)
情景二:城市共享单车运营数据采集
某共享单车公司需要在城市中投放和调度单车,需要采集以下数据:
单车的实时位置
单车的开锁、关锁时间
单车的使用频率(每天被骑行的次数)
用户的骑行轨迹
请回答以下问题:
1. 要获取单车的实时位置,应该使用什么技术或设备?(2分)
2. 开锁、关锁时间和使用频率可以通过单车上的哪个部件自动记录?(2分)
3. 用户的骑行轨迹通常如何采集?请从技术角度说明采集原理。(4分)
4. 该公司在采集用户骑行数据时,应当注意哪些法律和伦理问题?(4分)
情景三:水果价格采集与分析(创新实践)
某电商平台希望建立一套水果价格监测系统,实时采集全国主要批发市场的水果价格,以便及时调整零售价。目前可用的数据源包括:
各批发市场的官方网站发布的每日价格行情(公开数据)
市场内安装的电子显示屏数据(可通过接口获取)
市场工作人员手动输入的价格报表
社交媒体上商户发布的价格信息
请回答以下问题:
1. 针对官方网站发布的价格数据,最适合采用哪种自动化采集工具?请说明理由。(4分)
2. 如果电子显示屏数据可以通过API接口直接获取,与人工输入相比,这种方式有什么优势?(4分)
3. 从社交媒体上抓取商户发布的价格信息,可能会遇到哪些问题?请列出至少两点。(4分)
4. 为了保证采集到的价格数据真实有效,可以采取哪些验证措施?请写出两种。(4分)
参考答案与解析
一、单选题答案解析
1. C
解析:数据采集是根据系统需求,从数据源获取数据的过程。A是数据预处理,B是数据分析,D是数据可视化。
2. B
解析:传感器是能感知物理量并转换为电信号的设备。温度计测量温度属于传感器采集;问卷调查、下载数据、日志记录都不是传感器。
3. B
解析:土壤湿度监测用湿度传感器;A网络爬虫用于网页抓取;C用于定位;D用于识别。
4. C
解析:人工采集包括人工观察、访谈、问卷等。调查员入户访问属于人工采集;其他选项都是自动采集。
5. C
解析:用户浏览、点击、购买等操作会被系统自动记录在日志文件中,属于系统日志采集。
6. B
解析:网络爬虫是专门用于采集网页数据的自动化工具;A是表格处理软件;C是图像处理;D是演示文稿。
7. A
解析:网络爬虫是自动抓取网页数据的工具,适合大规模数据采集。
8. C
解析:数据采集应遵循真实、准确、可靠的原则;A要考虑成本;B要保护隐私;D不得随意修改原始数据。
9. B
解析:智能手环内置心率传感器、加速度计等传感器,自动采集生理数据。
10. B
解析:传感器连接物联网平台可实现实时、自动采集;其他选项需要人工参与或非实时。
11. B
解析:环保部门公开的数据平台已有现成的历史数据,是最合适的采集方式;自行测量成本高且无法回溯;街头询问不可靠;社交媒体数据未必准确。
12. C
解析:网络爬虫应当遵守robots.txt协议,控制访问频率,不能无限制高速访问,否则可能对网站造成负担甚至违法。
13. B
解析:电子问卷发放便捷、回收快、成本低;A侵犯隐私且成本高;C效率低;D分析监控工作量大。
14. B
解析:GPS用于定位,共享单车位置最合适;气温用温度传感器;年龄和成绩用问卷或系统记录。
15. D
解析:MySQL是数据库管理系统,用于存储和管理数据,不是采集工具;A、B、C都是采集工具或方法。
二、填空题答案解析
1. 人工;自动
2. 人工
3. 自动
4. 网页(或互联网)
5. 湿度;压力(或光、声音、距离等,合理即可)
6. 真实准确;全面有效(或“合法合规”“及时”等)
7. 传感器
8. 数据(或信息)
9. 数据
10. 传感器
三、情景作答题答案解析
情景一:智慧校园中的考勤数据采集
1. 自动采集与人工采集
自动采集:方案B(人脸识别闸机)、方案C(校园卡刷卡)、方案D(手机App签到)
人工采集:方案A(班长人工统计)
2. 方案B与方案C对比
准确性:B(人脸识别)准确率高,但受光线、戴口罩影响;C(刷卡)准确率也高,但存在代刷可能。
实时性:两者都能实时记录,数据即时上传。
成本:B成本较高(摄像头、算法);C成本相对较低(卡+读卡器)。
3. 采集课堂专注度的方案
可采用摄像头(视频采集)结合姿态识别算法,自动分析学生头部姿态、眼睛开合等;或使用脑电波头环(传感器)采集注意力数据。伦理原则:必须提前告知学生和家长,获得同意;数据仅用于教学改进,不得公开或滥用;保障学生隐私,视频数据匿名化处理。
情景二:城市共享单车运营数据采集
1. 实时位置
使用GPS(全球定位系统)模块和移动通信模块(如4G/5G)将位置上传服务器。
2. 开锁关锁记录
智能锁内置控制芯片,记录开锁/关锁时间,并通过网络上传。
3. 骑行轨迹采集
单车每隔一段时间(如几秒)记录一次GPS坐标,连续记录形成轨迹。原理:终端定时采集经纬度,打包发送至后台,后台按时间排序生成轨迹线。
4. 法律和伦理问题
需告知用户采集哪些数据及用途,获得授权;不得将轨迹数据用于营销或转卖;应匿名化处理,避免可识别个人身份;遵守《个人信息保护法》。
情景三:水果价格采集与分析
1. 自动化采集工具
网络爬虫。理由:官方网站数据是结构化的网页,可编写爬虫定期抓取价格行情,自动更新,节省人力。
2. API接口 vs 人工输入
API接口可实现自动、实时、准确的采集,避免人工输入的错误和延迟;还能高频采集,捕捉价格变动。
3. 社交媒体抓取的问题
① 数据格式不统一,难以解析(图片、非结构化文本);② 信息真实性难保证(商户可能虚报价格);③ 可能存在版权或隐私问题。
4. 验证措施
① 多源对比:将爬取的价格与其他官方渠道数据交叉验证;② 设立异常检测:若某价格与历史均值偏差过大,自动报警进行人工复核;③ 随机抽样核实:人工电话或实地询问部分商户验证。

展开更多......

收起↑

资源预览