资源简介 第一章 认识数据与大数据 检测练习一、选择题1.以下关于大数据描述正确的是( )A.“浙江大学”近十年来招生汇总数据规模庞大,可以称之为大数据B.大数据给生活带来便利的同时,也带来了数据安全等方面的社会问题C.大数据技术涉及到的数据均是非结构化数据D.大数据思维着重关注数据之间的因果关系的探究2.“10月8日上午,中国队结束了所有参赛项目的争夺,最终,中国体育代表团本届亚运会奖牌数量为201金、111银和71铜,共383枚奖牌。”结合上述报道,下列对数据、信息的说法正确的是( )A.在纸上单独书写383,它就已经被赋予一定意义B.题干中的文字即信息C.上述报道发布于一个月前,已经不具有价值性D.由金、银、铜牌数计算出奖牌总数体现了统计者对知识的运用3.若将十进制数n转换为二进制数,该二进制数的末位是1,下列说法不正确的是( )A.该十进制数一定是奇数B.十进制数n和n+1所对应的二进制数的位数可能不同C.十进制数n*10得到的值与在二进制数末尾添加数字0得到的值相同D.如在转化后的二进制数的末尾添加一个“1”,此时除以4的余数是34.下列关于大数据的说法,正确的是( )A.大数据要分析的是全体数据,而不是抽样数据,且要求数据必须是精确无误的B.处理大数据时,一般采用分治思想C.处理大数据时,更注重事物的因果关系而不是相关性D.实现对实时数据的获取、传输和存储可以采用分布式系统完成5.2023年杭州举办亚运会。在开幕式上,由亿万星火汇聚而成的亚运数字火炬人经过全网转播,惊艳全球。亚运数字火炬人由来自130多个国家和地区、105791208位数字火炬手汇聚而成,在万众瞩目中跨越钱塘江,点燃主火炬塔。这是亚运历史上首次由数字人点燃火炬,也是综合性国际体育大赛的首创。对于材料中的数据和信息等,下列说法不正确的是( )A.单独的“105791208”是数据,不具备任何意义B.130多个国家和地区的人民参与传递数字火炬,说明信息是可以共享的C.为了开幕式的点火仪式,技术团队写下了超20万行代码,是智慧的体现D.为了保护和提升亚运会数据安全,不仅要提高数据本身的安全,还要保护存储数据的介质6.下列进制运算结果正确的是( )A.14D+1011B=25D B.1001B+9D=1010BC.1101B-1011B=10D D.1001B+1AH=37H7.现如今共享单车已经成为人们出行中必不可少的一部分。当手机扫描单车上的二维码时,会将车锁编号发送给服务器,服务器接收到编号会给单车发送开锁信号,打开车锁。已知某黑白二维码(如第3题图所示)点阵图规模为16×16,若用“1”表示黑,“0”表示白,则下列描述正确的是( )A.存储该二维码需要256BB.该二维码整体上是左右对称的C.二维码的规模与能够表示的信息量成正比D.二维码的应用不会给人们的生活带来安全隐患8.下列关于数字化与信息编码说法正确的是( )A.模拟信号数字化过程需要先量化再采样B.计算机只能处理二进制和十六进制数据C.电流表指针指向的电流值是模拟信号D.把 bmp 格式图像改成jpg 格式图像的过程是数字化9.小申打算下次与同学一起乘坐地铁前往科技馆,经查询,目前上海地铁投入运营和在建的共有33条线路,小明用n位二进制数对线路和站点分别进行编码。已知所有线路中站点数最多为36,那么n最小为( )A.10 B.11 C.12 D.1310.关于信息数字化,以下说法错误的是( )A.小申拍照的过程属于信息数字化过程B.小申录音的过程属于信息数字化过程C.小申用画图软件处理照片的过程属于信息数字化过程D.信息数字化是计算机处理信息的基础11.小申用Ultra Edit软件查看“25分钟后拥堵”字符内码部分界面如下图所示。下列说法不正确的是( )A.字符“分”的内码占两个字节B.字符“后”的十六进制码是“D3 BA”C.字符“25”的十六进制码是“32 35”D.字符“8”的二进制码是“00111000”12.小申准备和父母一起驾车去参观上海科技馆,他用某导航软件查询了线路,下面两张图是他的手机截图,左图是当前路况和用时,右图是未来用时。 关于大数据,以下说法错误的是( )A.该导航软件能预测未来用时,使用的是大数据技术B.大数据具有海量的数据规模、多样的数据类型、快速的数据流转和价值密度高等特征C.要预测未来用时,导航软件要依次经历数据采集、数据预处理和数据分析等过程D.大数据给生活带来便利的同时,也会引发一些社会问题13.关于信息编码的说法,正确的是( )A.一个字节和16位二进制的存储容量相同B.十进制数28D转换为二进制数是11010BC.每个ASCII码字符在计算机中用1字节的低7位进行编码D.使用手机录音的过程是将数字信号转换成模拟信号14.下列关于数制和编码的说法正确的是( )A.文字“神舟”使用GB2312编码存储时占用2个字节B.二进制数1001011转为十六进制数为93C.声音数字化的过程中若其他条件不变,采样频率越高,则声音更保真D.64级灰度图像的颜色位深度为8位15.下列关于大数据的说法错误的是( )A.更注重事物的相关性而不是因果关系B.速度快是大数据的特征之一,仅指数据的产生速度快C.不再追求个别数据的精确性,允许数据混杂D.大数据要分析的是全体数据,而不是抽样数据二、填空题16.以下是字符“1小时30分”在计算机内部的表示形式,其中,字符“3”对应的二进制是 、转换成十六进制是 。17.小申准备和父母一起驾车去参观上海科技馆,他用某导航软件查询了线路,下面两张图是他的手机截图,左图是当前路况和用时,右图是未来用时。 导航软件提供了三条线路供小申选择,小申选择了公里数用二进制表示为1010111的线路,他选择的是第 条线路。18.进制转换(1)100转换成二进制( ) (2)1010 0101转换成十进制( )19.进制转换100(10)= (2)= (8)= (16)11111111(2)= (8)= (16)20.请完成下列进制转换:(10101101)2 = ( )10 (45)10 = ( )2(B5)16 = ( )10三、判断题21.数据的无损压缩就是未压缩或不压缩。( )22.知识就是智慧,数据就是信息。( )23.数字化工具与资源和传统的学习工具与资源相比较,其最大的优势是互动性。( )24.将声音、文字、图片等信息转化为二进制形式的过程就是信息的数字化。( )25.大数据变化快、多样化,所以需要通过深入挖掘分析才能找到它的价值。( )四、操作题26.二维码是用某种特定的几何图形按一定规律在平面上(二维方向)分布的黑白相间的图形记录数据符号信息。现有点阵规模为 24*24 的二维码图像,通过黑、白像素进行逐个编码,每个点用 1 个二进制位(bit)表示,如果用“0”表示白点,用“1”表示黑点,如下图所示:请回答下列问题:(1)该二维码的第九行第一个字节(如上面左图加框处,放大后如上面右图所示),其二进制编码为 B,转化为十六进制编码是 H。(2)存储该二维码需要的空间是 Byte。(3)二维码目前广泛应用于汉字、数学、图片、指纹、声音等信息的存储。下列关于二维码的说法,正确的是( )(多选)A.二维码是记录数据符号信息的图形,不同黑白相间的组合确定了二维码的意义B.手机扫描二维码,属于信息的编码过程C.扫一扫政府部门官方发布的二维码,一般不存在安全隐患D.扫描二维码可能感染病毒是因为二维码本身携带病毒E.付款二维码每隔一定时间自动更新,主要体现了信息的价值性27.GeoHash 是空间索引的一种方式,其基本原理是将地球理解为一个二维平面,通过把二维的空间经纬度数据编码为一个字符串,可以把平面递归分解成更小的子块,每个子块在一定经纬度范围内拥有相同的编码。以经纬度为(121.43737,31.192932)为例。第一步:将经纬度转换为二进制编码规则为:先将纬度范围(-90, 90)平分成两个区间(-90, 0)和(0, 90),如果目标维度位于前一个区间,则编码为 0,否则编码为 1,然后根据目标纬度所落的区间再平均分成两个区间进行编码,以此类推,直到精度满足要求,经度也用同样的算法。4 (22.5, 45.0) (22.5, 33.75) (33.75, 45.0) 05 (22.5, 33.75) (22.5, 28.125) (28.125, 33.75) 1…… …… …… …… ……最后得到纬度的二进制编码为:101011000101110, 用同样的方式可以得到经度(121.43737)的二进制编码:110101100101101第二步:将经纬度的二进制编码合并,从偶数 0 开始,经度占偶数位,纬度占奇数位。经度110101100101101,纬度 101011000101110,得到的二进制编码为:111001100111100000110011110110偶 奇 偶 奇 偶 奇 偶 奇 偶 奇 偶 奇 … 偶 奇 偶 奇 偶 奇 偶 奇 偶 奇索引 0 1 2 3 4 5 6 7 8 9 10 11 … 12 21 22 23 24 25 26 27 28 29经纬度 1 1 1 0 0 1 1 0 0 1 1 1 … 0 0 1 1 1 1 0 1 1 0第三步:将合并后的二进制数做 Base32 编码按照每 5 位一组,分成 6 组,每组计算其对应的十进制数值,按照 Base32 表进行编码。11100 11001 11100 00011 00111 10110 转换成十进制是 28 25 28 3 7 22,查表编码得到最终结果,wtw37q。林老师想编写一个 Python 程序,输入编码后的字符串,输出该编码对应的经纬度范围,运行结果如图 a 所示:图a(1)Python 程序如下,请在划线处完成填空。def qj(l,r,a):#将二进制 a 转成对应的经纬度范围#该代码省略def find(c):#在 base32 表中查找对应的十进制数 for i in ① : if base32[i]==c: return ibase32="0123456789bcdefghjkmnpqrstuvwxyz"s=input("请输入编码:")res=""jd=[]wd=[]for i in range(len(s)): ② ans="" j=0 while③ : ans=④ n=n//2 j+=1 res=res+ansfor i in range(len(res)): if i%2==0: jd+=res[i] else: wd+=res[i]print("经度对应的二进制:",jd,"纬度对应的二进制:",wd)print("经度范围:",qj(-180,180,jd),"纬度范围:",qj(-90,90,wd))(2)若经纬度编码是 wm3,那么对应的经度二进制是 。五、简答题28.常见的压缩分为哪两种并各举2个例子?29.请简述数据与信息的区别与联系。30.当用户登录某网站购买、浏览、收藏了某些书籍后,再次登录该网站时,会发现网页上增加了“你可能感兴趣的书”以及“购买此商品的顾客也同时购买”之类的推送条目,如下图所示。问题1:网站给用户自动推荐商品的依据是什么?采用了什么分析方法?问题2:网站数据可能对用户产生哪些影响?参考答案:1.B2.D3.C4.B5.C6.A7.C8.C9.C10.C11.B12.B13.C14.C15.B16. 0011 0011 3317.二18. 110 0100 16519. 1100100 144 64 377 FF20. 173 101101 18121.错误22.错误23.正确24.正确25.正确26. 11100110 E6 72 AC27. range(0,len(base32))或 range(len(base32))或 range(0,32)或 range(32) n=find(s[i]) j<5或n>0 or j<5 str(n%2)+ans 1100100128.无损压缩:WAV、FLAC等有损压缩:mp3、jpg等29.区别:(1)数据是对客观事物记录下来的可以鉴别的符号。这些符号不仅指数字,而且包括字符、文字、图形等;信息是经过加工后并对客观世界产生影响的数据。(2)数据是数据采集时提供的,信息是从采集的数据中获取的有用信息。(3)数据反映的是事物的表象,信息反映的是事物的本质。(4)数据的形式变化多端,很容易受载体的影响,信息则比较稳定,不随载体的性质而随意改变。联系:数据是反映客观事物属性的记录,是信息的具体表现形式。数据经过加工处理之后,就成为信息;而信息需要经过数字化转变成数据才能存储和传输。30.问题1:网站给用户自动推荐商品的依据是用户行为。用户行为用户行为也叫做用户事件,是指用户作用于产品或网站页面的一系列行为。比如用户在一个电商网站访问、注册、登陆、搜索商品、浏览商品、对比商品、加入购物车、提交订单、支付订单等具体的操作行为。采用了 聚类分析,聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发、自动进行分类。问题2:任何事物都有两面性,我们上网浏览、出行、购物都被记录了,人人都成了数据的生成者和贡献者。数据带来的整体性变革,也使得数据的隐私保护的形势显得越发严峻。 展开更多...... 收起↑ 资源预览