资源简介 (共82张PPT)必修一数据与计算复习2024第一章 数据与信息 》》数据、信息、知识、智慧1、数据是什么(无意义)2、编码是什么(为什么要编码 编码种类有哪些 怎么编码的)3、文件是什么(文件和数据有什么关系 你会找文件名吗? 结构化、半结构化、非结构化)3、大数据是什么(1T? 特征4V 怎么用 )判断题1、计算机中的数据都以ASCII码存在?2、传统数据库技术一般用于非结构化数据管理?3、在个人计算机中,数据常以文件的形式存在4、计算机编码是指对输入到计算机中的各种数据用二进制数进行编码的方式5、一个英文字符一个字节 ,一个汉字两个字节6、针对计算机病毒,需要坚持查杀为主,预防为辅的原则7、自然环境下的光线是数据结构化:通常以关系数据库的形式存储,如 Excel、Oracle、MySQL 等。半结构化:存储:通常以 XML、JSON 等形式存储。非结构化:通常以文件的形式存储,如图片、音频、视频等文件。非结构化:未经整理归类的数据,数据的表现形式,文字、图片……下列哪些属于半结构化数据?(多选)A. 评论中的文本内容B. 邮件中的附件C. JSON 格式的数据D. HTML 页面中的内容下列哪些属于非结构化数据?(多选)A. 社交媒体上的帖子B. 扫描的文档C. 图片中的像素值D. 音频文件中的内容下列哪些属于结构化数据?(多选)A. 文本评论B. 图像C. 数字D. 数据库中的数据1、根据下图说明数据、信息、知识与智慧的关系。1、根据下图说明数据、信息、知识与智慧的关系。数据本身没有明确的意义,将数据放在某个语境中,或在某个真实场景中使用,数据就有了意义,这就是信息。人们通过归纳、演绎、比较等手段对信息进行挖掘,形成知识。智慧是一种更高层次的综合能力,表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法。【2023学】1.下列关于数据和信息的说法,正确的是( )A.在数据处理过程中不会有新的信息产生B.信息的保存和传播可以不依附于载体C.信息的价值因人而异,但信息不会有虚假D.计算机中的数据表现形式不同,但都以二进制方式存储【2022学】支付宝中的( )是数据 P5①支付宝好友的聊天语音 ②付钱码③支付宝头像图片 ④账户余额数字⑤每天的运动步数A.①②③B.④⑤C.③④⑤D.①②③④⑤6.圆的面积计算方法是( ),是经过研究、总结归纳出来的科学方法。A.信息B.知识C.数据D.信息技术P10 知识的定义模拟信号A数字信号D编码文件大数据进制转换采样、量化、编码采样、量化、编码4V、()1、为什么要编码2、是什么[定义]3、编码有哪些编 码定义:是信息按照某种规则或格式,从 一种形式 转换为另一种形式的过程。计算机中编码:按一定规则将文本、图形、图像、声音、视频等数据编成可在计算机中处理的二进制数字。编 码解 码 是 什 么 ?解码:解码是编码的逆过程。1、为什么要编码2、是什么[定义]3、编码有哪些编 码字符编码条形码二维码声音编码图像编码视频编码ascii码字符编码ascii码课本P186汉字编码数字字母标点、运算符?字符编码流量》容量》一个ascii码字符的容量怎么计算?( )不是将模拟音频数字化需要经过的步骤A.采样 B.量化 C.编码 D.输入P14 模拟信号数字化的过程 计算机存储的最小单位计算机存储的基本单位(B)1 0 0 0 1 0 0 0一位二进制数码: 1bit(比特位)1Byte(字节)= 8bit★ 未标明是b,B,默认是B1KB=1024B1B=8b1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB1ZB=1024EB1EB=1024PBb↓B↓KB↓MB↓GB↓TB1.3.4 编码——数据的存储容量单位8位二进制能表示几种信息?1000种信息需几位二进制?字符编码ascii码汉字编码数字字母标点、运算符范围:0-1270,A,空格单位>127 (D) 7F(H)外码交换码机内码字形码存储、操作、传输等处理显示屏输出、打印输出等输出利用键盘等输入字符输入怎样将汉字输入计算机?在计算机内部怎样处理汉字?在各计算机之间怎样交换汉字信息 计算机怎样实现汉字信息的输出(显示)?汉字编码1 汉字输入码(外码)汉字输入汉字存储汉字显示汉字打印汉字传输123342 处理码(内码)3 字形码4 区位码(交换码)中 国 C h i n a某字库采用点阵方式描述汉字字形,点阵规模为16×16,每个点用1个二进制位表示,“0”表示白点,“1”表示黑点,逐行编码。汉字“和”的字形如右图所示,下列描述正确的是 ( )A、该汉字字形编码需要16×16个字节B、该汉字字形第一行编码需要2个字节C、该汉字字形编码的第一个字节内容是OFHD、该汉字字形编码的最后一个字节内容是FFHB一段未经压缩的Wave格式立体声音频,时长为5分钟,采样频率为44.1kHz,量化位数是8bit,已知上传音频后音频进行了压缩,压缩比为8:1,则压缩后的音频存储容量约为( )A 25.2MBB 25.2KBC 3.2MBD 126KB内码观察软件示例:如用16进制显示了“PC个人电脑”这几个字的内码:50 43 B8 F6 C8 CB B5 E7 C4 D4,问“个”字内码是什么?50 43 B8 F6 C8 CB B5 E7 C4 D4PC个人电脑有几个ASCII码几个汉字?字符编码条形码二维码声音编码图像编码视频编码ASCII、Unicode汉字编码我国普遍采用EAN13条形码,由13位数字组成,前3位数字表示国家代码,最后一位叫校验码是用某种特定的几何图形按一定规律在平面上(二维方向)分布的黑白相间的图形记录数据符号信息Wave格式音频文件的存储容量可以通过下面的公式进行计算存储容量=采样频率(Hz)*量化位数(bit)*声道数*时长(s)/8B数字图像包括矢量图形与位图图像,图像存储容量计算存储容量=总像素数*颜色位深度/8BPAL制式的视频每秒播放25帧,NTSC制式每秒播放30帧。常见的视频编码方式有MPEG1、MPEG2、MPEG4等信息编码基本的共有128个,用1个字节中的低7位编码。二进制范围为00000000~01111111,即十六进制的00~7FASCII码1KB=1024B 1MB=1024KB 1GB=1024MB1TB=1024GB 1PB=1024TB 1EB=1024PB1ZB=1024EB (1B=8bit)1、为什么要编码2、是什么[定义]3、编码有哪些编 码进制转换十进制二进制十六进制除2倒取余除16倒取余位权展开相加位权展开相加4位转1位1位转4位进制转换15. 二进制数码在不同的数位上, 对应不同的权值,有二进制数(11011),其中虚线框中红色的"1"对应的权值为( )A. 20 B. 21 C. 22 D. 2311.十六进制数4B用二进制数来表示,下列选项中正确的是( )A.1001001 B. 1001011 C. 1010101 D. 1011011 12.以下四个数中,最大的数是 (注意:B表示二进制,D表示十进制,H表示十六进制) ( )A. 11101B B.10111B C.103H D.170D BCa=int(input(‘请您输入十进制数:’))m=’ ’while a>0: #除到0为止m=m+str(a%2) #a对2求余,添加到字符串m最后a=a//2 #被除数print(m[::-1]) #倒着输出十进制转换为二进制代码还可以怎么修改?while a>0:m=str(a%2) +ma=a//2return convert_s[n]return Convert_toB(n//base,base)+convert_s[n%base]1、基础语法2、是什么[定义]3、编码有哪些python计算机解决问题一般步骤算法定义与特征定义:“算法”指的是计算机解决问题的步骤,是为了解决问题而需要让计算机有序执行的,无歧义的,有限步骤的集合。有穷性有0个或多个输入可行性确定性有1个或多个输出算法描述自然语言流程图伪代码程序设计语言①输入a、b值②如果a>b,输出a,否则输出b输入a、b值if a>b输出aelse输出ba=float(input("输入a:"))b=float(input("输入b:"))if a>b:print(a)else:print(b)1、变量名命名规则2、数据类型3、算术运算、关系运算、逻辑运算4、函数与模块5、分支语句6、循环语句易错点a1 1a _a max “ab”整型、实型、布尔型、字符串型 3/2 4**0.5运算顺序 a=b 和 a==b 的区别 True 首字母大写要有返回值、调用、参数个数a=[1,2,3,4,5]for i in range(len(a)): for i in a:单分支、双分支、多分支 if elif else输入一个整数,如果该数既是3的倍数又是7的倍数则输出ok。参考答案:n = int( input("请输入整数:") )if n % 3 == 0 and n % 7 == 0:print("ok")区间测速代码,下面代码输入后,程序报错t = input("请输入用时(小时):")s = 25v = s / tif v <= 100: print("正常")else:print("平均车速:" + str(v))print("超速")float( input("请输入用时(小时):") )作业本 3.4分支某体育馆中的游泳池有水位调节和水温控制的功能。(1)该游泳池水位用变量w表示,其值范围是low<=w<=high,用变量state存储水位的正常、偏低和偏高三种状态,其值分别为0,1,2.下列Python选项不正确的是()A if w>high:state=2elif wstate=1else:state=0B if wstate=1if w>high:state=2else:state=0C state=0if wstate=1else:state=2D if wstate=1else:if w>high:state=2else:state=0python综合运用函数min( ) max( )math.sqrt( ) pow( )int( ) float( ) str( )input( ) print( )random.randint(a,b) chr( )random.random( ) ord( )IPO输入处理输出1、数据类型2、初始化顺序、分支、循环函数(返回值)、倒着做题,逻辑推理s=”one day i’ll fly away, leave all this to yesterday ”a=””b=[]for i in range(len(s)): a=a+s[i] if s[i]==” ” or i== len(s)-1:#如果红色部分,这题的最后一个单词yesterday就容易遗漏 b.append(a) a=””print(b)程序运行后,len(b)的值是( )A 9 B 10 C 11 D 12个位十位百位g=a%10s=a//10%10b=a//100进制转换r=n%2 n=n//2 倒着输出r=n%16 n=n//16 倒着输出r=n%10 n=n//10 倒着输出求最大值代码lst1=[91,93,88,89,92]max1=lst1[0]for item in lst1[1:]:if item>max1:max1=item?5【2310强基】1. 表格数据的整理与计算。2. 数据图表呈现的方法与意义。3. 几种不同类型大数据的处理架构及原理。4.利用pandas模块处理数据。5.利用matplotlib模块绘图,实现数据可视化。6.文本数据处理。7.大数据的典型应用下图是学生体质健康数据的部分原始数据,观察该数据存在什么问题。缺失数据为空错误数据不准确重复重复的数据非标准数据单位格式不一致1.数据整理的目的是( )①检测和修正错漏的数据 ②整合数据资源③规整数据格式 ④提高数据质量 ⑤预测趋势A.①②⑤ B.②④⑤C.①②③④ D.②③④⑤C二、Pandas模块——创建DataFrame对象_从excel文件读入二维数据表import pandas as pddf=pd.read_excel(‘abc.xlsx’)print(df)创建方法4:从excel文件读入二维数据表,pd.read_excel()print(df[2:3])print(df[2:5])print('----------------------')print(df.head(2))print('----------------------')print(df.tail(3))print('----------------------')df.姓名df['姓名']df[ df['英语']>110 ]df[ df.英语>110 ]df.at[2,'姓名']班级 语文 数学 信息0 1班 210 235 801 2班 194 255 58班级 语文 数学 信息1班 210 235 802班 194 255 58df1df2as_index=True时,“as_index”就类似表示将组标签(类似“主键”)作为索引;as_index=False时,索引为0,1,2,3…name 班级 语文 数学 信息0 学生甲 1班 100 110 451 学生乙 2班 89 120 302 学生丙 1班 110 125 353 学生丁 2班 105 135 28df1=df.sort_values('总分',ascending=True)ascendng=True:升序排序ascendng=False:降序排序count() 和 sum()区别计数 数字才可用indexcolumnsvalues4、获取身高>163的5、获取李四的性别6、获取身高列indexcolumnsvalues1、获取身高>163的2、获取第2-3行3、按身高排序(降序)二、文本数据处理的一般过程非结构化数据非结构化数据分词数据分析文本数据源特征提取结果呈现1.文本数据处理的主要步骤包括:①数据分析 ②特征提取 ③分词 ④结果呈现 ⑤文本数据获取下列文本数据处理顺序正确的是( )A.①⑤②③④ B.②⑤③①④C.⑤①③②④ D.⑤③②①④2. 下列关于中文分词方法的描述中,属于基于词典的分词方法的是( )A.在分析句子时与词典中的词语进行对比,词典中出现的就划分为词B.依据上下文中相邻字出现的频率统计,同时出现的次数越高就越可能组成一个词C.让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,然后分词D.依据词语与词语之间的空格进行分词DA人工智能表现形式:1、人脸识别2、机器翻译3、语音识别历史发展:1、符号主义2、联结主义(深度学习)3、行为主义应用:1、领域人工智能2、跨领域人工智能3、混合增强人工智能041AI的发展历程:主要方法2逻辑推演符号主义联结主义行为主义数学推理证明生物学、神经科学深度学习进化主义行为反馈试错自调整海量数据为基1该系统的下列应用中,体现人工智能技术的是A.打开赛事通查看赛事资讯B.使用实时翻译解决语言障碍C.在支付宝中搜索“智能亚运一站通”D.在系统中购票后自动生成二维码电子票B2.下列关于人工智能的说法,不正确的是A.领域人工智能依赖于知识库和推理引擎B.深度学习模拟人类大脑处理数据的机制,需要大量数据进行训练C.强化学习不依赖人类提供的数据,如AlphaGo Zero是通过自我博弈进行能力提升D.人工智能客服与人类客服一起合作服务顾客是混合增强智能的应用C[202301]3.该系统的下列应用中,体现人工智能技术的是A.将现场录制的教学视频保存到服务器B.系统自动生成考勤报表C.学生进教室时通过摄像头刷脸签到D.教师将教学资源发送到学生的移动终端[202306]2.下列关于人工智能的说法,不正确的是A.深度学习方法一般脱离数据进行学习B.采用行为主义方法的智能体通过与环境的交互学习提升智能C.符号主义人工智能的实现依赖对符号的推理和运算D.人工智能促进社会发展的同时也会带来一定的社会担忧3.指纹考勤机(如下图所示)是通过提取指纹图像对人员的考勤进行管理,其工作流程可以分为:(1)指纹图像处理(2)指纹图像特征匹配(3)指纹图像采集(4)指纹图像特征提取,正确的顺序应该是A.1234 B.3124 C.3142 D.3412C2.下列关于人工智能及其应用的说法,正确的是A.符号主义人工智能包含知识库和推理引擎两个部分B.联结主义人工智能是一种在问题引导下的试错学习C.行为主义人工智能通过模仿人类大脑中神经元之间的复杂交互来进行认知推理D. AlphaGo从围棋人工智能跨界到电力控制领域,属于混合增强智能【2】在人工智能的研究中,有如下推理过程:所有浙江省普通高中学生都可以选考技术(大前提);小明是浙江省普通高中学生(小前提);小明可以选考技术(结论)。采用上述方式研究并实现人工智能的方法称为( )A.神经网络 B.联结主义 C.行为主义 D.符号主义D分——将问题分解为规模更小的子问题治——将规模更小的子问题逐个击破合——将已解决的子问题合并,最终得出原问题的解大数据处理基本思想与架构分治算法①静态数据:在处理时已收集完成、在计算时不会发生改变的数据,一般采用批处理方式。②流数据:不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,通过实时分析计算可以得到更有价值的分析结果。③图数据:现实世界中的许多数据,如社交网络、道路交通等数据,可采用图计算进行处理。积跬步,志千里2024 展开更多...... 收起↑ 资源预览