1.1 从数据到数据科学 教学设计 2023—2024学年人教_中图版(2019)高中信息技术选择性必修3 数据管理与分析

资源下载
  1. 二一教育资源

1.1 从数据到数据科学 教学设计 2023—2024学年人教_中图版(2019)高中信息技术选择性必修3 数据管理与分析

资源简介

第 1 章 数据与数据科学
1.1 从数据到数据科学
教学设计
教学背景
信息科技是现代科学技术领域的重要部分,主要研究以数字形式表达的信息及其应用中的科学原理、思维方法、处理过程和工程实现。当代高速发展的信息科技对全球经济、社会和文化发展起着越来越重要的作用。
义务教育信息科技课程具有基础性、实践性和综合性,为高中阶段信息技术课程的学习奠定基础。信息科技课程旨在培养科学精神和科技伦理,提升自主可控意识,培育社会主义核心价值观,树立总体国家安全观,提升数字素养与技能。
教材分析
本节课的教学内容选自人教/地图出版社选择性必修3 数据管理与分析 第 1 章 数据与数据科学 1.1 从数据到数据科学 。
自然界的各种现象,植物的生长、动物的习性、人类的思想行为......都可以用数据的形式存储在各类载体之中。随着大数据、云计算和人工智能技术的发展和应用,数据已经成为信息社会的重要资源,成为支撑科学研究、技术进步和社会发展不可或缺的基础。因此,我们可以从社会生产生活中提取数据,然后利用计算思维、运算方法、算法模型等,研究这些数据的类型、状态、属性以及变化形式和规律,并通过科学的管理和分析,获取有价值的信息,从而构建知识、获得智慧,为社会经济发展提供决策依据。
教学目标
1.进一步理解数据的含义及其价值。
2.进一步理解大数据及其应用价值。
3.了解数据、大数据与数据科学的关系。
4.认识数据科学的内涵,感受数据科学研究的重要意义。
教学重点与难点
教学重点:进一步理解数据的含义及其价值。
教学难点:了解数据、大数据与数据科学的关系。
教学方法与教学手段
案例分析法、讲授法、任务驱动法。
教学过程
问题导入
体验探索
城市里的数据
提起城市,你的脑海中会闪现什么样的景象?请用几个关键词描绘城市印象。
透过城市的表面现象(图 1.1.1),你认为是什么在“暗暗地”支撑着城市的正常运转呢?城市的一般印象往往离不开高楼大厦、宽阔的街道、车水马龙、人来人往、繁忙的地铁、设施齐全的社区......在描述是什么在支持城市运转时,也许你会想到“技术”“管理”“监控”“决策”等词汇。事实上,“数据”既是城市运转与发展的无形资源支持,也是巨大的财富。不仅是城市,其实只要有人生活的地方,人们都在不断地创造数据、产生数据。
观察与思考:观察周围环境(学校、社区和街道)并描述其景象;思考:这些景象可能涉及哪些数据?人们的哪些活动在创造和产生数据?
数据及其价值
前面的体验探索告诉我们:在热闹繁华的城市景象中隐藏着丰富的数据。数据是描述事物的符号记录,是信息的载体。在计算机科学中,数据是计算机识别、存储和加工的对象,例如字符、图像和音频等。
每个人都在创造数据,例如:打电话产生的数据可以用来改进通话网络;乘坐公共交通工具的数据可以用来优化公交网络;购买商品产生的数据可以用来调整生产与进货规模。与此同时,人们在不断通过各种信息工具获取数据,如交通拥堵、空气质量、天气、高校录取率、医院专家出诊、居民收入水平等。数据已成为重要的信息资源。
人们可以从数据中获得对自己有价值的信息,更重要的是可以学习知识、增长智慧。要理解“数据具有价值”这句话,首先要了解数据、信息、知识与智慧的关系。
思考活动
对牙膏瓶盖的思考
赵明生活在北方,冬天比较干燥。他买了一支按盖型牙膏,才用了 2 天,挤牙膏就很费劲。他发现,瓶口被干硬的牙膏堵住了。他很快意识到:该品牌按盖的密封性不好,北方干燥的气候使牙膏水分被快速蒸发掉。他陷入了思考:该品牌的按盖设计有什么缺陷?其他品牌的按盖又是如何设计的?通过对比后,他决定以后改买拧盖型的牙膏或另一个品牌的按盖型牙膏。
思考:对牙膏瓶盖的缺陷,赵明经历了怎样的一个思维过程?
赵明以上的思维过程,可以按数据、信息、知识、智慧逐层来分析(图 1.1.2),他的思考不仅可以改进产品,为厂家提升效益,同时也为自己以后购买牙膏时提供了决策。
数据描述了事物客观存在的各种属性,信息是经过加工处理后的数据,知识是有组织的、被记忆的信息,智慧是知识的有效应用。通常,人们能相对容易地从数据中获取对自己有用的信息,但要把数据或信息转化为知识、智慧,往往需要深入的分析与挖掘。只有这样,才能发挥数据的价值,让它成为改造社会的智慧工具。
图 1.1.3 所示的 DIKW(data information knowledge wisdom,数据信息知识智慧)金字塔,表明了从“数据”到“智慧”的转变过程,同时也是“从认识部分到理解整体、从描述过去与现在到预测未来”的过程,简明地描绘了数据、信息、知识、智慧的联系。
数据的价值在于发现其背后的事实与规律,并通过信息、知识、智慧三个层面体现。对个人来说,只要能从数据中获得有用的信息、支持自己做决策,数据就有价值;而这些信息让你对事物有了新的认知或者构建了新的知识,数据的价值就得到了提升;如果这些信息或知识让你在思考和创新方面取得了进步,就产生了智慧的价值。
思考活动
维修数据与遥控器的改良
陈捷是多家品牌电视机的售后修理人员。他在整理和打印工作清单(包含设备名称、品牌、损坏部位、修理措施、费用等)时,得到这样的信息:遥控器修理中,99% 的用户都是修理开关键和频道切换键,极个别用户修理音量调节键。
思考:你能从以上数据中获得更多信息吗?你认为从陈捷的工作清单中,还可以进行哪些方面的数据调查?你会给厂家提出什么建议?
不难发现,从数据到信息、知识、智慧,其中的任何一个环节都需要对数据进行有效的管理与分析。对个人来说,这些工作很多时候是潜移默化、无意识展开的。事实上,大脑在进行这一系列思维活动时,已经涉及数据分析与呈现的相关知识。
项目实施
了解送货机器人与数据的关系
小组成员一起细化项目学习计划,调查送货机器人的应用情况,以及送货机器人送货过程中所涉及的数据。
1. 小组成员一起讨论,确定要调研的内容、活动过程和具体实施方法,然后进行任务分工,明确各自的任务。
2. 参考表 1.1.1 进行调研,了解国内外有哪些公司正在研制送货机器人,这些送货机器人在哪些城市或路段试用。
表 1.1.1 送货机器人研制与试用调研表
研制送货机器人的公司 送货机器人功能简介 试用的城市或路段
3. 简述送货机器人在送货过程中涉及的主要数据,以及这些数据对送货机器人所起的决策作用(参考表 1.1.2)。
表 1.1.2 送货机器人涉及的数据及其作用
数 据 数据隐含的价值 决策作用
与物流相关的数据
与路线相关的数据
大数据及其应用价值
大数据正在改变着人们的工作、生活与思维模式,进而对文化、技术和学术研究产生深远的影响。
思考活动
大数据与流感趋势预测
新型流感病例的发现到通告,时间上一般会有延迟,从而导致公共卫生机构无法
及时应对。在流感高发地区,流感相关知识的搜索趋势与流感的流行趋势及严重程度
存在一定的相关性。把这些搜索结果汇总起来,达到足够数量时,就可以建立一个数据系统,用于实时监控流感疫情,预测未来疫情状况。2008 年,工程师们曾推出了流感指数的相应产品,用于预测流感疫情。我国相关机构也根据搜索的数据进行了分析,为预测流感提供了决策依据,并为居民提供预警服务。例如,自2015年3月以来,深圳市疾病预防控制中心开始定期提供流感指数预警服务(图 1.1.4),提醒人们注意防范。
思考:如何从流感程度、流感周期、疾病特征、需求特征、地域特征、人群特征等方面入手,利用网络大数据监测和预防流感疫情?
物联网、移动互联网、人工智能、大数据计算等技术的发展,实现了人与人、人与物、物与物之间的互联,引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入大数据时代。
大数据的内涵
不同领域的专家对大数据有不同的理解,下面从不同角度列举主要的三种。
计算机科学与技术。当数据的量、复杂程度、处理的任务要求等超出了传统数据的存储与计算能力时,就可以称为“大数据”。这是从存储和计算能力的视角来认识的,主要涉及数据存量、数据增量、复杂程度和处理要求等。
统计学。当能够收集足够的全部或绝大部分个体的数据,且计算能力足够强,可以不用抽样,在总体数据上就可以进行统计分析时,就被称为“大数据”。可见,这一领域认为大数据不是绝对概念,而是相对于总体规模和统计分析方法选择的相对概念。
机器学习。当训练集足够大且计算能力足够强,只需通过对已有的实例进行简单查询即可达到“智能计算的效果”时,这里的数据一般需要大数据的支撑。机器学习就是用数据或以往的经验优化计算机程序的性能标准,这也是大数据应用的典型案例。
阅读拓展
人工智能与数据库
在人工智能系统中,除了先进的硬件、软件系统,还需要大型数据库的支撑。 例如,阿尔法围棋(AlphaGo)不仅记忆超强、计算速度快,还能够自主学习。其核心系统是基于神经网络的深度学习,即模拟人脑的神经网络,通过数据分析,学习了大量的职业棋手棋谱,再通过增强学习方法的自我博弈,寻找比基础棋谱更多的打点来击败人类。
大数据的主要特征
从不同的领域看,大数据表现出多种不同的特征。但通常认为,它具有巨量性、多样性、迅变性、价值性等特征(图 1.1.5)。
巨量性。数据量已经大到无法在可容忍的时间内用传统技术和软硬件工具进行感知、获取、管理、处理和服务。数据规模已从 GB到 TB 再到 PB 级,甚至开始以 EB 和 ZB 来计数。
早在 2011 年,国际数据集团的研究报告就指出:未来 10 年全球大数据将增加 50 倍,管理数据仓库的服务器数量增加 10 倍。例如,当前一些机构之所以能预测流感的发生,实际上是得益于其拥有大量的数据,他们保存了多年来的搜索记录,而且每天会收到全球超过几十亿条的搜索指令。
多样性。大数据技术采集的各种类型数据,既包括传统数据库里结构化的数据,也包括非结构化的数据。在大数据中,目前仅有20% 左右属于结构化数据,其余数据属于广泛存在于社交网络、电子商务、物联网等领域的非结构化或半结构化数据。例如,人们网络购物后,通常会对商品和服务进行评价。评定的星级通常属于结构化数据,写的评语、上传的图片或视频则属于非结构化数据,分析处理这类数据需要采用专门的数据处理技术和方法。又如,一个关系数据库管理系统中可能存储着支持呼叫中心的呼叫日志。管理系统将呼叫的特征存储为结构化数据,这些数据具有时间戳、机器类型、问题类型和操作系统等属性。管理系统还可能存储着非结构化数据或半结构化数据,如电子邮件故障单、客户聊天记录、描述问题的通话记录等。
迅变性。互联网和物联网(图 1.1.6)是大数据的主要来源,各类传感器、智能仪表、监控系统和智能终端等,能够实时自动采集和生成数据,使得数据以空前的速度产生。同时,大数据往往以数据流的形式动态产生,数据的状态与价值随时空的变化而发生演变,具有很强的时效性(图 1.1.7)。只有掌控好数据流,才能有效利用这些数据。
价值性。虽然数据的价值巨大,但是基于传统思维与技术,人们在实际环境中往往面临着信息泛滥而知识匮乏的窘境,大数据的价值利用密度比较低。有价值的数据往往被隐藏在大量无用的数据之中,只有进行深度分析和挖掘才能发现其中的价值。例如,在一段 24 小时的不间断监控视频中,有用数据可能仅有几秒,甚至多数时候没有用。因此,如何在大数据中发现有价值的数据并转化为信息、知识,已成为大数据分析与管理的重要研究领域。
还有一种观点认为真实性也是大数据的一个特征。真实性主要指数据质量的反映。越接近真实的数据越有助于正确决策,数据规模并不能完全决定能否为决策提供充分依据,但大数据的大样本甚至全样本有利于接近或反映真实性。
思考活动
技术促进数据的感知和应用
有些东西无法用眼睛看到(如黑暗中的物体),但人们可以借助手和身体去感知;有些东西无法看到,也无法触摸到,如音乐、对话等,但可以借助耳朵来感知;还有些东西无法用感官直接感知到,如紫外线、红外线、细胞、粒子、电磁波等,但可以利用仪器和工具来感知它们的存在。
思考:技术的进步、工具的使用,对人们感知和应用数据会产生哪些影响?对大数据领域的发展和研究带来什么意义?(例如,传感技术的进步和相关工具的应用。)
我们被淹没在数据的海洋之中,却又在忍受着知识的饥渴。
大数据的应用价值
目前,大数据的应用价值主要体现在商业价值、产业价值、科研价值、社会价值等方面。
商业价值。精准预测商业价值是大数据技术发展带来的一种新型能力。在商业领域,客流数据、经营数据、商品数据、浏览人数和点击量等看似简单的数据背后其实隐藏着很大的商机。通过把相关算法运用到数据处理中,就可以获得有价值的产品、服务以及对发展趋势的预测。例如,企业通过分析大量客户的生活方式、行为习惯、网页访问频率、信息搜索记录、商品购买记录等,可以了解客户的爱好、职业、性格等信息,进而分析他们的需求,并预测他们近期的消费行为,从而有针对性地为他们提供服务。 此外,大数据能够满足人们不同应用场景的需要,将生活的各个方面融合,让人享受到非常便捷和舒适的信息服务。例如,当你来到一座城市,地图导航软件会及时推送当地的游玩攻略、美食地图、天气信息等。
产业价值。大数据是现有产业升级与新产业诞生的重要推动力量。大数据时代的到来,产业界需求与关注点发生了转变。例如,企业关注的重点转向数据,计算机行业从追求计算速度转变为关注大数据处理能力,软件也将从以编程为主转变为以数据为中心。又如,采用大数据处理方法,新材料研制生产的流程会发生革命性的变化,可以通过数据处理能力较强的计算机并行处理,同时进行大批量的仿真比较和筛选,从而提高科研和生产效率。
科研价值。大数据技术的研发与应用助推了科学技术的快速发展,引发了科技界对科学研究方法的重新审视。最早的科学研究只有实验科学,随后出现了以研究各种定律和定理为特征的理论科学和以模拟仿真为特征的计算科学。大数据的出现催生了一种新的科研模式,图灵奖得主詹姆士·格雷(James Gray)提出了科学研究的第四范式——数据密集型科学。他认为,科研人员只需从数据中直接查找或挖掘所需要的数据信息,甚至无须接触需研究的物理对象。
例如,地质学家不再需要每次都亲临地质现场拍照勘察,而是从大数据中发现所需的高清地质影像等数据。第四范式不仅是科研方式的转变,而且是人们思维方式的转变。
社会价值。大数据是与自然资源、人力资源一样重要的战略资源。
大数据时代,国家层面的竞争力将部分体现为拥有大数据的规模、活性,以及对数据解释和运用的能力。同时,科学技术发展的最终目的都要落到促进人类社会发展、增进人的幸福感等方面。大数据为我们带来的不仅是便利,还有紧密的生活服务网络。例如,在重大节假日活动中,容易出现因人群过度拥挤而引发的危险,通过大数据分析,可以预测人流情况,从而能及早采取疏散措施(图1.1.8)。
大数据的来源
大数据可以通过不同方式和渠道来获取。物联网、云数据库、移动互联网、车联网、手机、平板计算机、台式计算机以及遍布各个角落的各种传感器,都是数据来源或承载的媒介。
归纳起来,大数据主要来源于以下三方面。
传统数据库。大数据是政府、企业、组织、机构等社会各部门实施科学管理和决策分析的基础,这些部门往往构建了基于网络的事务处理系统和办公自动化系统,用传统的数据库来记录存储事务处理的各种数据。传统数据库中的数据蕴含着更多的潜在价值,对形成科学决策起着关键作用,是大数据的重要来源。
互联网数据。互联网上的任何行为都会产生数据并被记录下来。从电子邮件、博客、微信等社交媒体产生的数据,到文本、图片、音频、视频文件的交流与共享,再到在线交易、网上购物、电子商务等,每时每刻都在产生大量数据。目前,这些互联网数据是大数据最有价值的来源。
互联网企业、机构是大数据的主要记录和收集地。早在 2011 年,据 IDG 统计,全球创建和复制的数据总量已达 1.8 ZB,其中 75% 来自个人(图片、视频和音乐等),远远超过人类有史以来所有印刷材料的数据总量。
教育领域有很多信息系统,如学校的选课系统、成绩管理系统、在线阅卷系统、高考志愿填报与录取系统、校园一卡通系统等,这些系统的运行都离不开传统数据库的支撑。
物联网数据。物联网利用互联网、电信网络等信息承载体,把所有能行使独立功能的普通物体连接起来,形成人员、机器、物体的互联互通,而大数据技术真正把人类带进人、机、物融合的世界。
通过物联网可以对设备、人员进行集中管理、控制,也可以对家庭设备、汽车等进行遥控,以及搜索位置,防止物品被盗等。物联网(图 1.1.9)的发展同时又是大数据应用的又一推动力。目前,各类传感器、智能仪表、视频监控、智能终端等,都在以不同方式实时地采集、生成和传递大量数据。
综合来看,大数据的来源可以粗略地分成两类:一类来自物理世界;另一类来自人类社会。前者多半是科学实验数据或传感数据,后者与人的活动有关,特别是与互联网有关。
数据科学
云计算、物联网、移动计算等新技术的兴起拓展了人们有关数据获取和数据计算的能力,促使大数据时代的到来,同时成为数据科学兴起的必要条件,并进一步推动了数据科学的发展。
数据科学的兴起
1974 年,计算机科学家彼得·诺尔(Peter Naur)在自己的一部著作中首次明确提出了数据科学的概念:“数据科学是一门基于数据处理的科学”。此后直到 2001 年贝尔实验室的克利夫兰(Cleveland)发表论文,主张数据科学是统计学的一个重要研究方向,数据科学再度受到统计学领域的关注。2013 年,马特曼(Mattmann)和达尔(Dhar)发表论文,从计算机科学与技术视角讨论了数据科学的内涵,使数据科学被纳入该领域的研究范畴。与此同时,数据科学逐渐进入实际应用,如模拟与仿真、集成学习、视频与图像分析、文本分析、语音分析、模型管理、自然语言问答等。
数据科学的内涵
2010 年, 德鲁·康威(Drew Conway)提 出 了 数据科学的维恩图(图 1.1.10),首次明确了数据科学的学科定位:数据科学处于统计学、机器学习和领域实物知识的交叉处,是一门交叉型的新兴学科。图中的“黑客”(Hacker)并不是指“骇客”(Cracker),“黑客精神”是指“大胆创新、喜欢挑战、勇于创新、追求完美和不断进取”的积极精神。
目前,学术界对数据科学的内涵基本达成共识:数据科学是以数据为中心的科学。朝乐门博士所著的《数据科学》一书中对数据科学有以下阐述。
· 将“现实世界”映射到“数据世界”之后,在“数据层次”上研究“现实世界”的问题,并根据“数据世界”的分析结果,对“现实世界”进行预测、洞见、解释或决策的一门新兴科学。
·以“数据”尤其是“大数据”为研究对象,并以数据统计、机器学习、数据可视化等为理论基础,主要研究数据加工、数据管理、数据计算、数据分析和数据产品开发等活动的一门交叉性新兴学科。
从研究目的看,数据科学是将数据转化成信息、知识或智慧的过程。这一转变过程是一种从不可预知到可预知的增值过程,即数据通过还原其真实发生的背景成为信息,信息赋予其内在含义之后成为知识,而知识通过理解转化成智慧。
数据科学横跨计算机科学与技术、信息学、数络科学、系统科学、心理学、经济学等诸多领域。从计算机科学与技术角度看,数据科学研究主要包括数据加工、数据计算、数据管理、数据分析和数据产品开发等方面以及数据科学的基础理论(图 1.1.11)。
数据加工。为了提升数据质量、降低数据计算的复杂度、减少计算量并提升数据处理的精准度,数据科学需要对原始数据进行一定的加工处理,如数据审计、数据清洗、数据变换、数据集成、数据脱敏、数据归约和数据标注等。值得一提的是,与传统数据处理不同,数据科学中的数据加工更强调数据处理中的增值过程,即如何将数据科学研究人员的创造性设计、批判性思考和好奇性提问融入数据的加工活动之中。
数据计算。在数据科学中,计算模式发生了根本性变化——从集中式计算、分布式计算、网格计算等传统计算过渡到云计算。比较 有 代 表 性 的 有 GFS、BigTable、MapReduce、Hadoop MapReduce、Spark 等。
数据管理。完成数据加工和计算之后,还需要对数据进行管理与维护,以便进行数据分析以及数据的再利用和长久存储。在数据科学中,数据管理方法与技术也发生了重要变革,出现了一些新兴的数据管理技术,如 NoSQL、NewSQL 技术等。
数据分析。数据科学中采用的数据分析方法具有较为明显的专业性,通常以开源工具为主。目前,Python 语言和 R 语言已成为使用较为普遍的数据分析工具。
数据产品开发。这是数据科学与其他科学的主要区别。与传统产品开发不同,数据产品开发具有以数据为中心、多样性、层次性和增值性等特征。数据科学的研究目的之一就是提升数据产品的设计与开发能力。
数据科学作为一门与领域知识和行业实践高度交融的学科,从目前的研究来看,主要包括两个层面:用数据的方法研究科学和用科学的方法研究数据。
用数据的方法研究科学。主要指以数据为中心来开展各学科的研究,如基因组学、蛋白组学、天体物理学、脑科学、生物信息学、地球环境学等研究。随着数据科学相关技术的发展,越来越多的科学研究将直接针对数据展开,人类通过认识数据,进一步认识自然和社会。与此同时,这些学科的研究又产生了更多的数据。例如,用电子显微镜重建大脑中的突触网络,1 mm 3 大脑的图像数据就超过1 PB,处理这些数据需要数据科学相关技术与方法的支持。未来,各个学科领域还将形成相应的数据科学研究理论与方法。
用科学的方法研究数据。主要指选用科学的方法来研究数据的采集、存储、加工、管理、分析、可视化等问题。例如,当要处理的数据量巨大、给计算带来挑战时,需要随机方法或分布式计算来解决问题。当错误或异常数据较多、给数据分析带来困难时,需要有一定修正功能的数学、统计学等模型来进行处理。
课后作业
1. 结合身边大数据的应用案例,思考大数据及其技术的价值体现。
2. 数据科学涵盖哪些知识体系?哪些学科与数据科学相关?
3. 当前,从事哪些专业领域的工作需要学习数据科学的相关知识?
4. 数据、信息、知识与智慧的转化关系,对你的学习有哪些启示?
板书设计
第 1 章 数据与数据科学 
1.1 从数据到数据科学
1.数据及其价值
2.大数据及其应用价值
3.数据科学
普通高中教科书
信息技术 选择性必修 3 数据管理与分析
编著
人民教育出版衬课程教材研究所信息技术课程教材研究开发中心
中国地图出版社教材出版分社
总 主 编 :祝智庭 樊 磊
副总主编 :高淑印 郭 芳 李 锋
本册主编:黄应会 倪俊杰
编写人员 :杜宗飞 杨 俊 赵婕瑜 钱华斌 徐建东

展开更多......

收起↑

资源预览