高中信息技术必修 1《 数据与计算》知识点总结 (含思维脑图、章节巩固练习)

资源下载
  1. 二一教育资源

高中信息技术必修 1《 数据与计算》知识点总结 (含思维脑图、章节巩固练习)

资源简介

信息技术必修 1《 数据与计算》知识点总结
(含思维脑图、章节巩固练习)
说明:
本知识点覆盖教材全章节核心内容,思维脑图采用 “层级递进 + 考点关联” 创新设计,便于学生构建知识体系。
第一章 数据与信息
一、核心知识点
1、数据、信息的定义与关系
数据:现实世界客观事物的符号记录(如数字、文字、图像、音频),是信息的载体,是计算机加工的对象。
信息:经过加工处理、具有实际意义的数据(如 “体温 36.5℃” 是信息,单纯 “36.5℃” 是数据)。
关系:数据是信息的原料,信息是数据的价值体现(数据→加工→信息)。
2、数据的核心特征
特征 核心内涵 实例
二进制 计算机中数据以二进制(0/1)形式存储和加工,因物理上易实现(高低电平) 十进制 “5” 在计算机中表示为 “101”
语义性 需通过语义解释将数据符号对应到客观事物,无语义的数据无意义 数据 “85” 需结合场景解释为 “考试分数” 或 “商品价格”
分散性 数据是分散的记录,分别对应不同事物的运行状态 超市中商品的单价、库存、销量数据分散记录
多样性与感知性 数据形式多样(文本、图像、音频、视频),可通过视觉、听觉等感知 手机拍摄的风景照片(视觉数据)、录音文件(听觉数据)
3、信息的七大特征
普遍性(万物运动皆有信息)
传递性(突破时空限制)
共享性(交流不损耗)
依附性(需载体呈现)
时效性(随事物变化失效)
真伪性(可能与事实不符)
价值相对性(对不同人价值不同)
4、数据编码
(1)编码本质:将各类信息转化为计算机可识别的二进制信号(计算机仅能识别 0 和 1)。
(2)模拟信号 vs 数字信号:
类型 核心特点 优势 劣势 适用场景
模拟信号 连续变化 处理简单、信息密度高 保密性差、抗干扰弱 近距离传输(如老式电话)
数字信号 离散存储(0/1) 保密性强、抗干扰强、传输差错可控制 占用频带宽、有量化误差 远距离传输(如网络、通信)
(3)常用编码类型及计算:
a.文字编码:
编码标准 字节数 适用范围 实例
ASCII 码 1 字节 英文字母、数字、符号 “A”=65(十进制)、“0”=48
GBK 码 2 字节 简体 / 繁体汉字(兼容 ASCII) “中”=0xD6D0(十六进制)
Unicode 2-4 字节 全球多语言(中文、英文等) “P”=0x0050、“国”=0x56FD
文件格式 - 文字存储格式 txt(纯文本)、doc(可编辑)、pdf(不可编辑)
b.图像编码:
位图与矢量图对比:
类型 最小单位 放大效果 适用场景 文件格式
位图 像素(光栅点) 失真模糊 照片、截图 png、jpg、bmp、gif(动图)
矢量图 数学向量(线条 / 形状) 不失真 Logo、工程图 ai、dwg、cdr
BMP 位图文件大小计算:
文件大小(字节B)= 14(文件头)+ 40(信息头)+ 颜色表项(颜色总数×4,24位
无)+ 图像分辨率×量化位数÷8
实例:1024×768 像素、24 位真彩色 BMP 图
大小 = 14+40+0 +(1024×768×24)÷8 = 54 + 2359296 = 2359350 字节 ≈ 2.25MB
c.声音编码:
编码过程:采样(连续声波→离散点)→ 量化(离散点→数值)→ 编码(数值→二进制)
WAV 声音存储容量计算:
存储容量(字节B)= 采样频率(Hz)×量化位数×声道数×时间(秒)÷8
实例:44.1kHz 采样频率、16 位量化、双声道(立体声)、10 秒 WAV 文件
容量 =(44100×16×2×10)÷8 + 44 = 1764000 + 44 = 1764044 字节 ≈ 1.68MB
关键参数:
采样频率:CD 音质为 44.1kHz(需满足 “奈奎斯特定理”:采样频率≥2× 信号最高频率);
量化位数:256 级量化需 8 位(2 =256),最高位表示符号(0 = 正,1 = 负)。
d.数据压缩(新增补充):
压缩类型 核心特点 适用场景 工具 / 格式
无损压缩 可完全还原原始数据,无损失 文档、程序、重要图片 Zip、RAR、PNG 格式
有损压缩 牺牲部分数据换压缩率,不可还原 音频、视频、普通图片 MP3 格式、JPG 格式、格式工厂工具
二、思维脑图(层级递进式)
三、章节巩固练习(5 道选择题)
1、下列关于数据与信息的说法,正确的是( )
A. 单纯的 “20℃” 是信息
B. 信息是未经加工的原始符号
C. 数据是信息的载体,信息是数据的意义
D. 信息的价值对所有人都相同
答案:C 解析:A 选项 “20℃” 是数据,需结合语境(如 “室内温度 20℃”)才是信息;B 选项是数据的定义;D 选项体现信息的价值相对性;C 选项符合数据与信息的核心关系,为高频考点。
2、手机导航软件定期更新地图以保证路线准确,这体现了信息的( )特征
A. 共享性 B. 时效性 C. 依附性 D. 真伪性
答案:B 解析:信息会随事物变化失效,导航地图更新是为了保证信息的时效性,符合信息七大特征高频考点。
3、某位图图像分辨率为 1024×800,量化位数为 24 位,其图形数据大小(不含头文件)为( )字节
A. 1024×800×24÷8 B. 1024×800×24
C. 1024×800÷8 D. 1024×800×24×8
答案:A 解析:位图图形数据大小公式 = 图像分辨率 × 量化位数 ÷8,不含头文件时无需加 14B 和 40B,属于编码计算类高频考点。
4、下列属于数字信号核心优势的是( )
A. 信息密度高 B. 抗干扰能力强
C. 处理简单 D. 无量化误差
答案:B 解析:数字信号优势包括保密性强、抗干扰强、传输差错可控制;A、C、D 是模拟信号的特点,考查信号类型对比考点。
5、下列编码中,可用于表示中文的是( )
A. ASCII 码 B. 莫尔斯码 C. GBK 码 D. 以上都可以
答案:C 解析:ASCII 码和莫尔斯码是单字节码,仅支持英文 / 数字;GBK 是双字节码,支持简体中文,考查文字编码考点。
第二章 知识与数字化学习
一、核心知识点
1、数据→信息→知识→智慧的递进关系
层级 定义 案例 核心特征
数据 原始符号记录(无意义) “5Ω 电阻、3V 电压” 零散、无语境
信息 数据 + 语境(有意义) “5Ω 电阻两端加 3V 电压” 有明确指向性
知识 系统化提炼的规律 / 经验 欧姆定律(I=U/R) 普适性、可复用
智慧 应用知识解决问题的创新能力 设计可变电阻调节台灯亮度 创新性、实践性
2、递进关系:
数据→(加工理解)→信息→(系统化提炼)→知识→(创新应用)→智慧
实例链:超市 “商品销量数据”→分析得出 “牛奶销量高”(信息)→总结 “周末牛奶销量是工作日 2 倍”(知识)→调整 “周末牛奶库存”(智慧)。
3、知识发现与科学研究方法
知识发现的有效途径:
做实验获取观察数据→分析处理数据→推理建立数学模型→实验验证模型→形成知识→应用知识解决问题
实例:伽利略通过斜面实验(数据)→分析得出 “自由落体速度与时间成正比”(模型)→验证后形成 “自由落体定律”(知识)。
4、科学研究的三种方法
方法 核心逻辑 适用学科 实例
理论方法 基于数学推导和逻辑推理 数学、物理理论研究 用公式推导 “万有引力定律”
实验方法 通过实验获取数据验证假设 物理、化学、生物 拉瓦锡 “空气成分” 实验
计算方法 用计算机模拟和处理数据 计算科学、气象学 用计算机模拟 “台风路径”
5、数字化工具与资源
工具分类(按功能):
采集工具:扫描仪、相机、声卡(获取原始数据)。
检索工具:百度搜索引擎、电子词典(查找信息)。
表达工具:Xmind 思维导图、PPT(呈现内容)。
存储工具:U 盘、云盘、硬盘(保存数据 / 资源)。
加工工具:Python、多媒体制作软件(处理数据 / 创作)。
资源优势:获取便捷、形式多样、共享性强、互动性强、内容可扩展。
6、数字化学习的五大特点
特点 核心内涵 实例
问题化 以解决实际问题为导向学习 围绕 “如何设计校园垃圾分类方案” 展开学习
合作性 多人协同完成学习任务 小组合作制作 “信息技术发展史” PPT
个性化 按需选择学习内容与进度 在线平台根据薄弱点推荐习题
创造性和再生性 生成新的学习成果并分享 将学习笔记整理为思维导图分享
开放性 学习资源和空间不受限制 利用全球公开课学习前沿知识
7、思维导图工具
(1)常用工具:Xmind(操作简洁,适合新手)、MindManager(功能强大,支持复杂图表)、Freemind(开源免费,跨平台)。
(2)应用场景:梳理知识框架(如 “算法三大结构” 思维导图)、规划学习任务(如 “期末复习计划”)、总结学习成果(如 “数据编码知识点”)。
易错提醒:
数字化工具≠数字化资源:思维导图软件(Xmind)是工具,多媒体课件、电子书是资源。
计算方法是独立于理论、实验的第三种科学研究方法,并非 “辅助方法”。
数字化学习的 “开放性”≠“无约束”,需遵守网络规范和知识产权。
二、知识点思维脑图(关联应用式)
三、章节巩固练习(5 道选择题)
1、下列属于 “知识” 范畴的是( )
A. 小明的身高 180cm B. 标准大气压下,水的沸点是 100℃
C. 一组学生的考试成绩 D. 手机拍摄的风景照片
答案:B 解析:知识是系统化的规律;A、C 是数据,D 是数据载体(图像数据),考查四级递进关系核心考点。
2、用 Python 分析实验数据,验证物理定律,属于科学研究的( )方法
A. 理论方法 B. 实验方法 C. 计算方法 D. 以上都不是
答案:C 解析:计算方法通过计算机模拟与数据分析验证规律,符合三大研究方法考点。
3、下列工具中,属于数字化表达工具的是( )
A. 扫描仪 B. 百度搜索引擎 C. Xmind 思维导图 D. U 盘
答案:C 解析:A 是采集工具,B 是检索工具,D 是存储工具;Xmind 用于梳理逻辑、可视化表达,属于表达工具考点。
4、数字化学习的 “个性化” 特点体现在( )
A. 可根据自身进度调整学习内容 B. 需与同学合作完成任务
C. 以解决问题为学习起点 D. 可随时随地学习
答案:A 解析:B 是合作性,C 是问题化,D 是开放性;A 体现个性化(自主调节),考查数字化学习特点考点。
5、下列关于数字化资源的说法,错误的是( )
A. 形式包括数字图像、音频、视频等 B. 具有共享性,可多人同时使用
C. 必须通过网络才能获取 D. 内容可不断扩展更新
答案:C 解析:数字化资源可通过本地存储(如 U 盘拷贝)获取,并非必须依赖网络,考查数字化资源特征考点。
第三章 算法基础
一、核心知识点
1、计算机解决问题的四步流程
步骤 核心任务 实例(求 “1+2+…+100”)
分析问题 明确需求(未知)与已知条件,确定解决目标 已知 “1 到 100 的整数”,目标 “求累加和”
设计算法 制定解决问题的步骤(可执行、无歧义) 步骤 1:初始化 sum=0;步骤 2:i 从 1 到 100;步骤 3:sum 累加 i
编写程序 用编程语言实现算法(如 Python) sum=0 for i in range(1,101): sum+=i print(sum)
调试运行 输入程序并运行,排查错误(语法错误、逻辑错误) 若循环范围写为 “range (100)”,需修正为 “range (1,101)”
2、算法的定义与五大特征
定义:有限步骤内求解某一问题的一组明确规则(可机械执行)。
核心特征:
有穷性:步骤有限(不能无限循环)。
确定性:每一步含义唯一(无歧义)。
可行性:步骤可通过计算机实现。
输入:允许 0 个或多个输入。
输出:至少 1 个输出(无输出则无意义)。
3、算法的三种描述方法
描述方法 优势 不足 适用场景
自然语言 通俗易懂,无需专业知识,适合口头交流 多分支 / 循环描述模糊,易产生歧义(如 “适量加盐”) 简单算法、非专业场景
流程图 图形化展示,步骤清晰,无歧义,便于梳理复杂逻辑 篇幅大,流程线灵活易混乱,绘制耗时 复杂算法、程序设计前
伪代码 介于自然语言与编程语言之间,格式紧凑,易过渡到代码 无统一规范,不同人写法差异大,易误解 算法设计与编程衔接
流程图标准图形(高频考点):
开始 / 结束:圆角矩形 ;
输入 / 输出:平行四边形 ;
处理:矩形 ;
判断:菱形 ;
流程线:箭头 。
4、算法三大基本结构
(1)顺序结构:
a.逻辑:自上而下依次执行,无分支、无循环。
b.流程图:矩形框(处理步骤)用箭头依次连接(如 “输入 a→计算 a →输出结果”)。
(2)选择结构:
a.类型:单选择(满足条件执行,不满足不执行)、双选择(二选一)、多选择(多选一)。
b.实例(双选择):判断 “num 是否为偶数”→是则输出 “偶数”,否则输出 “奇数”。
(3)循环结构:
a.类型:当型循环(先判断条件,满足则循环,如 while)、直到型循环(先执行一次,再判断条件)。
b.核心:“循环变量初始化→条件判断→循环体→循环变量更新”,避免死循环。
(4)核心结论:任何复杂算法均可由三大结构组合而成。
5、程序设计语言发展历程
程序定义:为得到特定结果,由计算机执行的指令序列(如 Python 代码、C 语言代码)。
程序设计语言发展:
语言类型 核心特点 是否需翻译 优势 不足
机器语言 二进制指令(0/1) 无需翻译,计算机直接执行 执行效率最高,直接操作硬件 难理解、难编写、移植性差(不同硬件指令不同)
汇编语言 用符号表示指令(如 ADD、MOV) 需 “汇编程序” 翻译为机器语言 比机器语言易理解,执行效率高,适合硬件控制 依赖特定硬件,移植性差,需掌握硬件原理
高级语言 接近自然语言(如 Python、C++) 需 “编译 / 解释” 为机器语言 易理解、易编写、移植性强(跨硬件) 执行效率低于机器 / 汇编语言,需依赖编译 / 解释器
编译型 vs 解释型语言:
类型 核心逻辑 实例 优势 不足
编译型 先整体编译为机器码,再执行 C、C++、Java 执行速度快,可脱离编译环境运行 编译耗时,修改后需重新编译
解释型 逐行解释为机器码,边解释边执行 Python、JavaScript 开发效率高,修改后无需重新编译,跨平台性强 执行速度慢,依赖解释环境
易错提醒
算法的 “有穷性”≠“步骤少”,而是 “有限步内必然结束”(如 “计算 1-100 求和” 是有穷,“无限循环” 无有穷性)。
流程图中 “判断” 图形(菱形)必须有两个及以上出口(是 / 否)。
高级语言不能直接被计算机执行,需翻译为机器语言。
二、知识点思维脑图(逻辑推导式)
三、章节巩固练习(5 道选择题)
1、下列关于算法特征的说法,错误的是( )
A. 算法必须有至少一个输出
B. 算法的步骤可以是无限的
C. 算法的每一步都必须有明确含义
D. 算法的步骤必须是可行的
答案:B 解析:算法的核心特征是有穷性(步骤有限),B 选项违反有穷性,考查算法五大特征考点。
2、用流程图描述算法时,表示 “条件判断” 的图形是( )
A. 圆角矩形 B. 菱形 C. 矩形 D. 平行四边形
答案:B 解析:圆角矩形表示开始 / 结束,矩形表示处理,平行四边形表示输入 / 输出,菱形表示判断,考查流程图图形高频考点。
3、下列不属于计算机解决问题流程的是( )
A. 设计算法 B. 编写程序 C. 调试运行 D. 手动计算结果
答案:D 解析:计算机解决问题流程为 “分析问题→设计算法→编写程序→调试运行”,手动计算不属于该流程,考查核心流程考点。
4、下列算法描述方法中,最易过渡到计算机编程的是( )
A. 自然语言 B. 流程图 C. 伪代码 D. 以上都一样
答案:C 解析:伪代码介于自然语言与计算机语言之间,格式紧凑,易转化为代码,考查算法描述方法对比考点。
5、下列属于高级程序设计语言的是( )
A. 机器语言 B. 汇编语言 C. Python 语言 D. 二进制代码
答案:C 解析:机器语言是二进制代码,汇编语言是符号语言,均为低级语言;Python 是高级语言,考查语言发展历程考点。
第四章 程序设计基础
一、核心知识点
(一)Python 基础语法
1、常量与变量:
常量:值不变(如 3.14、"hello");
变量:值可变化,格式 “变量名 = 值”。
变量名规则:字母 / 数字 / 下划线组成,首字符非数字,区分大小写,不冲突关键字(if、else、for)。
Python 是动态语言:无需提前定义数据类型(如 x=5 是 int,x="5" 自动转为 str)。
2、核心数据类型:
类型 标识符号 核心特点 示例
字符串(str) 单 / 双引号 有序,索引从 0 开始 "abc"("abc"[0]='a')
列表(list) 方括号 [] 有序、可修改 [1, "good", 3.14]
元组(tuple) 圆括号 () 有序、不可修改 (1, "good", 3.14)
集合(set) 大括号 {} 无序、不重复 {1,2,3}
字典(dict) 大括号 {} 无序 “键 - 值” 对,键唯一 {"牛奶":5, "面包":3}
(二)运算符与优先级
1、优先级从高到低:
1.括号(())→ 2. 指数(**)→ 3. 乘(*)、除(/)、求余(%)、整除(//)→ 4. 加(+)、减(-)→ 5. 关系运算符(>、<、==等)→ 6. 逻辑运算符(not→and→or)→ 7. 赋值运算符(=、+=等)
2、赋值运算符:
赋值运算符 示例 原形(等价表达式) 实例(设 x=3,y=2) 结果
= x = y x = y x = y x=2
+= x += y x = x + y x += y x=5
-= x -= y x = x - y x -= y x=1
*= x *= y x = x * y x *= y x=6
/= x /= y x = x / y x /= y x=1.5
%= x %= y x = x % y x %= y x=1
**= x **= y x = x ** y x **= y x=9
//= x //= y x = x // y x //= y x=1
三、程序三大控制结构
1、顺序结构:自上而下执行(如 “输入购买数量→计算优惠→输出结果”)。
2、选择结构:
单分支:if 条件:语句(缩进);
双分支:if 条件:语句 A else: 语句 B;
多分支:if 条件 1: 语句 1 elif 条件 2: 语句 2 ... else: 语句 N。
3、循环结构:
for 循环:for 变量 in 列表 /range (): 语句(如 for i in range (1,11): 累加求和);
while 循环:while 条件:语句(需含变量自增 / 自减,避免死循环);
循环嵌套:循环语句中包含另一个循环(如 for 嵌套 for、while 嵌套 for)。
实例(打印 99 乘法表):
for i in range(1,10):
for j in range(1,i+1):
print(f"{j}×{i}={i*j}", end="\t")
print() # 换行
循环控制语句:
语句 功能 实例(遍历 1-6) 输出结果
break 终止当前循环,跳出循环体 for i in range(1,7): if i==5: break; print(i) 1 2 3 4
continue 跳过当前循环剩余语句,进入下一次循环 for i in range(1,7): if i==5: continue; print(i) 1 2 3 4 6
(四)常用内置函数
函数名 功能描述 实例 结果
len(x) 计算序列(字符串、列表)长度 len("Python")、len([1,2,3]) 6、3
sum(x) 计算列表 / 元组中数值总和 sum([1,2,3,4]) 10
min(x) 求列表 / 元组中最小值 min([5,2,8,1]) 1
max(x) 求列表 / 元组中最大值 max([5,2,8,1]) 8
int(x) 将 x 转换为整型 int("123")、int(3.8) 123、3
float(x) 将 x 转换为浮点型 float("3.14")、float(5) 3.14、5.0
input() 接收用户输入,返回字符串 name = input("请输入姓名:") 输入 “张三”→name="张三"
print() 输出内容 print("Hello", end="-") 输出 “Hello-”(不换行)
易错提醒
赋值运算符 “=” 与关系运算符 “==” 的区别:前者用于赋值(x=5),后者用于判断相等(x==5)。
for 循环中 range (1,10) 生成 1-9(不包含终止值);range (10,1,-2) 生成 10、8、6、4、2(降序)。
循环嵌套中 break 仅中断当前所在循环,不影响外层循环。
Python 严格缩进(4 个空格),缩进错误会导致程序报错。
二、知识点思维脑图(实操导向式)
三、章节巩固练习(5 道选择题)
1、下列 Python 变量名,定义正确的是( )
A. 1a = 5 B. a_1 = 5 C. a-b = 5 D. if = 5
答案:B 解析:A 选项以数字开头,C 选项含减号(非法字符),D 选项是关键字;B 选项符合变量名规则,考查变量定义高频考点。
2、执行 Python 代码 “print (5 + 3 * 2 2)”,输出结果是( )
A. 22 B. 17 C. 14 D. 26
答案:B 解析:算术运算符优先级 “>*>+”,先算 2**2=4,再算 3×4=12,最后算 5+12=17,考查运算符优先级高频考点。
3、下列代码中,能实现 “判断数字是否为偶数” 的是( )
A. if num % 2 == 0: print ("偶数") B. if num / 2 == 0: print ("偶数")
C. if num % 2 = 0: print ("偶数") D. if num / 2 = 0: print ("偶数")
答案:A 解析:判断偶数需用 “取余运算 %”(余数为 0 是偶数),且关系运算符是 “==”;B、D 用除法错误,C 用赋值运算符错误,考查选择结构考点。
4、执行 Python 代码 “for i in range (2, 11, 2): print (i, end=' ')”,输出结果是( )
A. 2 4 6 8 10 B. 2 4 6 8 C. 1 3 5 7 9 D. 1 2 3 4 5
答案:A 解析:range (2,11,2) 表示 “从 2 开始,到 11 结束(不含 11),步长 2”,生成 2、4、6、8、10,end=' ' 表示不换行,考查 for 循环与 range () 函数考点。
5、下列关于 Python 循环控制的说法,正确的是( )
A. break 用于中断当前次循环,继续下一次
B. continue 用于中断整个循环,执行循环外代码
C. for 循环和 while 循环都可使用 break 和 continue
D. 循环嵌套中,break 会中断所有层级循环
答案:C 解析:break 中断整个循环,continue 中断当前次循环;A、B 说法颠倒;D 选项 break 仅中断当前层级循环;C 选项正确,考查循环控制考点。
第五章 数据处理和可视化表达
一、核心知识点
(一)大数据的定义与特征
1、定义:无法用常规软件在可承受时间内高效捕捉、管理和处理的海量、高增长、多样化信息资产。
2、三大视角特征(4V,高频考点):
视角 特征描述 实例
互联网产生视角 4V 特征:Volume(体量)、Variety(类型)、Velocity(速度)、Value(价值密度) Volume:1 天视频数据达 PB 级;Value:监控视频有用数据仅几秒
互联网思维视角 3 个转变:样本→总体、精确→模糊、因果→相关 样本→总体:分析全量用户数据,而非抽样;相关:电商推荐 “买 A 的人也买 B”,无需因果
存储计算视角 2 大核心:分布式存储、分布式并行计算 分布式存储:数据分散存储在多台服务器;并行计算:多服务器同时处理数据
(二)大数据的影响
1、积极影响:
a.生活便捷:移动支付(微信 / 支付宝)、智能导航(高德地图)、精准推荐(电商);
b.医疗进步:病历数据分析辅助诊断、药物开发加速;
c.交通优化:实时路况分析优化路线、无人驾驶技术。
2、消极影响及应对:
消极影响 应对措施
个人信息泄露 开启账户双重认证、不随意授权 APP 权限
信息过载 用筛选工具(如关键词过滤)获取有效信息
算法偏见 监管算法设计,避免歧视性推荐
(三)数据采集与存储
1、采集方法:
采集方法 核心逻辑 工具 / 技术 实例
系统日志采集 收集服务器、应用的运行日志数据 Flume(日志采集工具)、服务器自带日志功能 采集电商网站的用户访问日志
网络数据采集 从网页爬取公开数据 Python 爬虫(Requests 库、BeautifulSoup 库)、Scrapy 框架 爬取豆瓣电影评分、知乎问答数据
传感器采集 物联网设备实时采集物理数据 温湿度传感器、GPS 定位器、摄像头 智能大棚采集温度、湿度数据
社交网络采集 调用 API 获取社交平台数据 微博 API、微信公众号 API 采集微博话题讨论数据、公众号文章数据
2、Python 采集扩展库:
库名 功能描述 应用场景
Numpy 数值计算,处理数组数据 采集后的数据预处理(如计算平均值)
Scipy 科学计算,含统计、优化功能 数据的统计分析(如方差计算)
Pandas 数据清洗、分析,处理表格数据 整理采集的日志数据为表格格式
Matplotlib 数据可视化 绘制采集数据的趋势图
3、数据的存储与保护
(1)存储方式:本地存储(硬盘 / U 盘)、云存储(分布式服务器,按使用量付费)。
(2)数据保护:备份(拷贝 / 镜像 / 持续备份)、加密(对称式 / 非对称式)、隐私保护(匿名化 / 访问控制)。
(四)数据分析核心模块
数据分析五步骤:特征探索→关联分析→聚类分析→数据分类→模型评价
分析方法 核心逻辑 算法 / 工具 实例
特征探索 预处理数据,发现数据规律 缺失值填充(均值填充)、异常值删除、绘制直方图 分析学生成绩数据,删除 “年龄 200” 的异常值
关联分析 发现数据间的关联性 Apriori 算法(频繁项集挖掘) 电商分析 “购买牛奶的用户 80% 会购买面包”
聚类分析 无监督分类,自动分组 K-Means 算法(K 个聚类中心) 按消费习惯将用户分为 “高频消费”“低频消费” 组
数据分类(数据分析处理最基本的方法) 有监督分类,基于样本构建模型 贝叶斯分类、决策树算法 根据历史成绩数据,预测学生是否通过考试
模型评价 评估模型准确性 准确率、召回率、混淆矩阵 测试分类模型,准确率达 90%
(五)数据可视化表达
1、可视化图表选择(高频考点):
分析目标 推荐图表 适用场景举例
趋势变化 折线图、柱形图 近 5 年 GDP 变化、每月销量
比例分布 饼图、圆环图 各学科成绩占比
数据关联 散点图、雷达图 身高与体重关系
文本关键词 词云 新闻标题关键词提取
2、核心工具:Matplotlib(基础绘图)、Seaborn(统计可视化)、Bokeh(交互式可视化)。
易错提醒
大数据的 “价值密度低”≠“无价值”,需通过分析挖掘核心价值(如监控视频需提取关键帧)。
聚类分析(无监督学习,无标签)vs 数据分类(有监督学习,有样本标签)。
爬虫采集数据需遵守网站 robots 协议,尊重知识产权。
二、知识点思维脑图(应用拓展式)
三、章节巩固练习(5 道选择题)
1、下列不属于大数据 4V 特征的是( )
A. 体量大(Volume) B. 类型多(Variety) C. 价值高(High Value) D. 速度快(Velocity)
答案:C 解析:大数据 4V 特征是体量大、类型多、价值密度低、速度快,C 选项 “价值高” 不符合,考查大数据特征高频考点。
2、用 Python 爬虫获取电商平台商品价格数据,属于( )数据采集方法
A. 系统日志采集法 B. 网络数据采集法 C. 传感器采集法 D. 合作获取法
答案:B 解析:网络数据采集法通过爬虫或 API 获取网页数据,符合数据采集方法考点。
3、要展示某班级各学科成绩占比情况,最适合的可视化图表是( )
A. 折线图 B. 散点图 C. 饼图 D. 词云
答案:C 解析:饼图适合展示比例分布,折线图展示趋势,散点图展示关联,词云展示文本关键词,考查可视化图表选择高频考点。
4、下列关于 K-Means 算法的说法,正确的是( )
A. 属于数据分类算法 B. 需预设分类标签
C. 是一种聚类分析算法 D. 无法自动分组
答案:C 解析:K-Means 算法是经典聚类分析算法,无需预设标签,自动按距离分组,考查数据分析模块考点。
5、下列 Python 库中,可用于网络数据采集的是( )
A. NumPy B. requests C. Matplotlib D. Pandas
答案:B 解析:NumPy 用于数值计算,Matplotlib 用于绘图,Pandas 用于数据处理;requests 用于爬虫采集网页数据,考查 Python 数据处理库考点。
第六章 人工智能及其应用
一、核心知识点
1、人工智能(AI)的定义与判定
定义:计算机科学的分支,模拟人的感知、思维、学习等智能行为(如推理、规划、识别)。
核心判定:图灵测试 —— 测试者与被测试者(人 + 机器)隔开提问,若超过 70% 答复无法区分人 / 机器,则机器具备类人智能。
2、智能问答机器人结构
五大核心模块:
常见问题解答(FAQ):匹配用户问题与已有答案,核心技术为 Jaccard 相似度系数(交集 / 并集);
问题理解:分词、提取关键字、确定问题类型(自然语言处理技术);
信息检索:从文档库中查找相关知识材料;
文档库:存储领域知识(如空调客服的常见问题与答案);
答案抽取:从候选材料中提取最佳答案(模式匹配、聚类)。
Jaccard 相似度计算示例:问句 A“空调有什么功能?” 与 B“空调的功能有哪些?”,相似度 = 4/7≈0.57。
3、人工智能发展三阶段
第一阶段(20 世纪 50-80 年代):符号主义快速发展(基于逻辑推理),因计算能力不足陷入瓶颈。
第二阶段(20 世纪 80-90 年代末):专家系统兴起,因知识获取难、开发成本高进入低谷。
第三阶段(21 世纪初至今):大数据 + 算法革新 + 计算能力提升,迎来繁荣期(如 AlphaGo、智能客服)。
4、人工智能七大应用领域
应用领域 核心技术与实例 高频考点
智能制造 工业机器人、智能生产、个性化定制 智能汽车工厂
智能家居 语音控制、指纹识别锁、智能家电 语音开灯、智能冰箱
智能教育 智能导师、个性化学习方案 一对一教学
智能交通 ETC(不停车收费)、智能导航、交通流量优化 ETC 技术应用
智能安防 视频分析、人脸识别、区域入侵检测 街道监控人脸识别
智能医疗 辅助诊疗、医疗影像识别、疾病预测 流感疫情监测
智能物流 分拣机器人、路径规划、库存动态调整 物流分拣机器人
5、生物特征识别技术
指纹识别:采集指纹图像→预处理→特征提取→匹配(身份认证)。
人脸识别:检测定位→特征提取→人脸确认(受光照、角度影响)。
指静脉识别:近红外成像,利用静脉血管唯一性(内部特征,稳定性强)。
声纹识别:提取语音特征→与声纹模型匹配(身份认证)。
易错提醒
人工智能≠“万能”,其智能源于数据与算法,无法替代人类的创新思维(如艺术创作)。
智能问答机器人的核心是 “自然语言处理”,而非 “人工预设答案”。
图灵测试是 “类人智能” 的判定标准,而非 “智能” 的唯一标准。
二、知识点思维脑图
三、章节巩固练习(5 道选择题)
1、下列关于人工智能的说法,正确的是( )
A. 人工智能可以完全替代人类思维 B. 图灵测试是判断 AI 是否存在的标准
C. AI 的智能源于数据与算法 D. 智能问答机器人无需存储知识
答案:C 解析:A 选项 AI 无法替代人类创新思维;B 选项图灵测试是 “类人智能” 判定标准;D 选项智能问答机器人需文档库存储知识;C 选项正确,考查 AI 核心本质考点。
2、智能问答机器人中,用于匹配用户问题与已有答案的核心技术是( )
A. 数据加密 B. Jaccard 相似度系数 C. 传感器采集 D. 聚类分析
答案:B 解析:FAQ 模块通过 Jaccard 相似度匹配问题与答案,考查智能问答机器人结构考点。
3、下列属于人工智能第三发展阶段(21 世纪至今)特征的是( )
A. 符号主义快速发展 B. 专家系统陷入低谷
C. 大数据驱动,应用繁荣 D. 计算能力不足
答案:C 解析:A 是第一阶段,B 是第二阶段,D 是第一阶段瓶颈;C 选项符合第三阶段特征,考查 AI 发展历程考点。
4、下列应用中,属于 “智能交通” 领域的是( )
A. 工业机器人生产汽车 B. ETC 不停车收费 C. 语音控制开灯 D. 医疗影像识别
答案:B 解析:A 是智能制造,C 是智能家居,D 是智能医疗;B 是智能交通领域的典型应用,考查 AI 应用领域考点。
5、下列生物特征识别技术中,基于人体内部特征的是( )
A. 指纹识别 B. 人脸识别 C. 指静脉识别 D. 声纹识别
答案:C 解析:指静脉识别利用人体内部静脉血管特征,稳定性强;A、B、D 是外部特征,考查生物特征识别技术考点。

展开更多......

收起↑

资源预览