资源简介 中小学教育资源及组卷应用平台第五章第三节数据分析课后练习1、数据分析的方法不包括()A.数据分类B.关联分析C.线性分析D.聚类分析2、某超市通过研究销售数据,发现购买商品A的人购买商品B的概率很大,这种属于数据的()A.关联分析B.分类分析C.回归分析D.聚类分析3、K-平均算法属于()分析方法。A.线性B.关联C.聚类D.聚类4、()和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。A.特征探索B数据分类C.聚类分析D.关联分析5、N维数组对象ndarray是()的基本数据结构。A.NumPyB.SciPyC.PandasD.Matplotlib6、()类型类似于数据库表结构的数据结构,其是含有行索引和列索引的二维数组结构。A.ndarrayB.SeriesC.DataFrameD.字典7、若要求你对本班同学喜欢看的书籍进行分类统计,并对其进行数据分析,你会如何做?谈谈你的想法。参考答案:1.C2.A3.C4.B5.A6.C7.略21世纪教育网www.21cnjy.com精品试卷·第2页(共2页)HYPERLINK"http://21世纪教育网(www.21cnjy.com)"21世纪教育网(www.21cnjy.com)(共19张PPT)数据分析粤教版高中信息技术必修一目录特征探索1关联分析2聚类分析3数据分类4数据分析数据分析一般包括特征探索、关联分析、聚类与分类、建立模型(数据呈现)和模型评价(分析报告)等。数据分析的一般过程数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。特征探索数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。importpymysqlimportnumpyasnpyimportpandasaspdaimportmatplotlib.pylabaspylimportmatplotlib.pyplotasplt做特征分析需要用到的第三方库:连接mysql服务器的库,numpy库、pandas库、matplotlib库,使用之前需要进行安装Numpy的基本数据结构ndarrayNumPy最重要的一个特点是其N维数组对象ndarray,它是一系列同类型数据的集合,别名array,以0下标为开始进行集合中元素的索引。ndarray对象是用于存放同类型元素的多维数组。ndarray中的每个元素在内存中都有相同存储大小的区域。包含丰富的函数用法示例关联分析关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。关联分析的基本算法如下:(1)扫描历史数据,并对每项数据进行频率次数统计。(2)构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。(3)对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,从而形成频繁项集L1。(4)对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或者最大频繁项集。认识lambda()函数在进行编程时,一般我们会给一个函数或者变量起一个名字,该名称是用于引用或寻址函数变量。但是有一个低调的函数,你不需要赋予它名字,因此该函数也叫匿名函数。该函数就是Python中的Lambda函数,匿名函数可以在程序中任何需要的地方使用,但是这个函数只能使用一次,即一次性的。因此PythonLambda函数也称为丢弃函数,它可以与其他预定义函数(如filter(),map()等)一起使用。相对于我们定义的可重复使用的函数来说,这个函数更加简单快捷。例如:a=lambdax,y:xyprint(a(3,7))21认识map()函数map函数的用法:map()函数接收两个参数,一个是函数,一个是Iterable,map将传入的函数依次作用到序列的每一个元素,并把结果作为新的Iterable返回。其语法格式为:????map(fun_ction,iterable...)????fun_ction---函数名????iterable---一个或多个序列(字符串、列表或元组)例如:map(lambdax:x2,[1,2,3,4,5])返回结果:[1,4,9,16,25]Pandas的基本数据结构Series Series是一个类数组的数据结构,同时带有标签(lable)或者说索引(index)。Pandas的基本数据结构DataFrame DataFrame类型类似于数据库表结构的数据结构,其含有行索引和列索引,可以将DataFrame想成是由相同索引的Series组成的Dict类型。在其底层是通过二维以及一维的数据块实现。聚类分析聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。K-平均(K-Means)算法是一种经典的自下而上的聚类分析方法。K-平均算法的基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果。聚类分析的基本算法聚类分析的基本算法如下:(1)从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。(2)对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。(3)重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。第三方模块Sklearn简介Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(DimensionalityReduction)、分类(Classfication)、聚类(Clustering)等方法。它有如下特点:(1)简单高效的数据挖掘和数据分析工具(2)让每个人能够在复杂环境中重复使用(3)建立NumPy、Scipy、MatPlotLib之上数据分类数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。贝叶斯分类技术贝叶斯分类技术在众多分类技术中占有重要地位,也属于统计学分类的范畴,是一种非规则的分类方法。贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类函数(对离散变量的预测称作分类,对连续变量的分类称为回归),利用训练得到的分类器实现对未分类数据的分类。贝叶斯简介贝叶斯,英国数学家,发明了概率统计学原理,将归纳推理法用于概率论基础理论,创立了贝叶斯统计理论,对统计决策函数、统计推断、统计的估算等做出了贡献。概率分类运用贝叶斯定理对事物进行分类,是一种非常有效的思维方法,是贝叶斯决策理论方法的基本思想。例如,假设有一个数据集,由两类组成,且已知每个样本的分类,求出表示数据点(x,y)属于红色一类的概率p1(x,y),表示数据点(x,y)属于蓝色一类的概率p2(x,y),选择概率高的一类作为新点C(x,y)的分类。若有多个分类,而要求新点属于哪一类,要求新点属于哪一类,只需求出新点在所有类别中概率最大的一类。这就是贝叶斯决策理论的核心思想,即选择具有最高概率的决策。谢观看谢https://www.21cnjy.com/help/help_extract.php 展开更多...... 收起↑ 资源列表 第五章第三节数据分析课后练习.doc 粤教版高中信息技术必修一5.3数据分析.pptx