资源简介 (共18张PPT)5.3-1 特征探索数据的特征探索系统日志采集法网络数据采集法(网络爬虫)其他数据采集法0.数据分析的步骤【练习一】阅读教材P111,思考下列问题:数据分析的作用是:探索数据内在的结构和规律,构建教学模型,并进行可视化表达通过验证将模型转化为知识,为预测诊断过去、预测未来发挥作用数据分析的常用方法有:特征探索关联分析聚类分析数据分类建立模型模型评价一、数据分析的作用二、特征探索数据预处理——数据特征探索数据清洗:利用散点图发现并处理缺失值、异常值、重复值求最大、最小、极差等描述性统计量绘制直方图观察分析数据的分布特征二、特征探索数据预处理——数据特征探索利用散点图发现和处理缺失数据、异常数据、重复数据1.重复值处理重复值一般采取删除法来处理但有些重复值不能删除,例如订单明细数据或交易明细数据等2.缺失值处理:需要根据实际情况定义可以采取直接删除法有时候需要使用替换法或者插值法常用的替换法有均值替换、前向、后向替换和常数替换二、特征探索数据预处理——数据特征探索利用散点图发现和处理缺失数据、异常数据、重复数据3.异常值处理指那些偏离正常范围的值,不是错误值异常值出现频率较低,但又会对实际项目分析造成偏差一般用过箱线图法(分位差法)或者分布图(标准差法)判断异常值异常值往往采取盖帽法或者数据离散化二、特征探索的过程1.创建MySQL数据库启动本地web服务和数据库服务创建数据库创建数据表导入数据#导入数据conn=pymysql.connect(host=“127.0.0.1”,user=“root”,passwd=“”,db=“taobao”)sql=“select * from taobao” #编写SQL语句data=pda.read_sql(sql,conn) #执行SQL语句,从数据库中导入名为taobao的表数据库的IP地址 127.0.0.1user=“root” :用户名为rootpasswd=“”:无密码db=“taobao”:数据库的名字2.数据清洗:发现并处理缺失值二、特征探索的过程#1.首先把价格为零的数据变为空值,将缺失值修改为36x=0data["price"][(data["price"]==0)]= Nonefor i in data.columns:for j in range(len(data)):if(data[i].isnull())[j]: #如果为空值,即为Truedata[i][j]=“36“ #将缺失值用36代替x+=1print(x)把价格为零的数据变为空值二、特征探索的过程# 画散点图(横轴为价格,纵轴为评论数)# 获得价格data2 = data.Tprice = data2.values[2]# 获得评论数:comt = data2.values[3]plt.xlabel('price') #显示X坐标标签plt.ylabel('paynum') #显示Y坐标标签pyl.plot(price, comt, 'o')pyl.show()价格评论数2.数据清洗:用散点图发现异常值部分二、特征探索的过程# 异常值处理:评论数异常为>200000;价格异常为>2300;line = len(data.values)col = len(data.values)da = data.valuesfor i in range(0, line):for i in range(0, col):if(da[i][2]>2300): #如果价格大于2300,则修改为36da[i][2] = "36"if(da[i][3]>"200000"): #如果价格大于200000,则修改为58da[i][j] = "58"2.数据清洗:用散点图处理异常值部分二、特征探索的过程# 画散点图,查看异常值处理后的数据:da2 = da.T #da = data.valuesprice = da2[2]comt = da2[3]plt.xlabel('price') #显示X坐标标签plt.ylabel('paynum') #显示Y坐标标签pyl.plot(price, comt, 'o')pyl.show()2.数据清洗:用散点图显示异常值处理后的数据二、特征探索的过程3.求最大值、最小值、极差、组距等描述性统计量#求最值pricemax=da2[2].max()pricemin=da2[2].min()paynummax=da2[3].max()paynummin=da2[3].min()#分布分析:# 极差:最大值-最小值;pricerg=pricemax-priceminpaynumrg=paynummax-paynummin# 组距:极差/组数;pricedst=pricerg/13paynumdst=paynumrg/13二、特征探索的过程4.绘制直方图#绘制价格直方图#npy.arrange(最小,最大,组距)pricesty=npy.arange(pricemin,pricemax+1,pricedst)plt.xlabel('price') #显示X坐标标签plt.ylabel('number') #显示Y坐标标签pyl.hist(da2[2],pricesty)pyl.show()结论:价格在10-30块之间的商品种类最多;此价位的商品竞争最激烈。二、特征探索的过程#绘制销量数直方图#npy.arrange(最小,最大,组距)paynumsty=npy.arange(paynummin,paynummax+1,paynumdst)plt.xlabel('paynum') #显示X坐标标签plt.ylabel('number') #显示Y坐标标签pyl.hist(da2[3],paynumsty)pyl.show()4.绘制直方图结论:销量在10以下的商品种类最多,大部分商品销量一般。三、课堂小结5.数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是( )A.数据清洗 B.异常数据处理C. 数据缺失处理 D.数据分类处理7.大数据时代已经悄悄地改变我们的日常生活,也使人们的日常生活更为便捷,如移动支付、网络购物、网络预约挂号等。以下不属于大数据分析的是( )A.特征探索 B.关联分析 C.聚类与分类 D.建模分析四、课堂练习—《活动手册》P117-119DD8.电子警察采用拍照的方式来约束车辆的行为,拍照的过程属于( )A.数据分析 B.数据采集C.数据分类 D.数据可视化表达10数据采集的基本方法包括( )、网络数据采集法和其他数据采集法。A.数据库采集法 B.访问记录采集法C.数据目录采集法 D.系统日志采集法四、课堂练习—《活动手册》P117-119AD五、实践操作【项目练习】以小组为单位,按照下列步骤修改代码,体验数据特征探索的过程,并观察分析结果,得出结论。修改“程序5-5-1 数据预处理(教材范例).py”代码,对采集到的商品销售数据进行预处理,包括发现和处理缺失值、异常值和重复值,求最大值、最小值、极差、组距、绘制直方图,观察数据的分布特征,分析数据, 展开更多...... 收起↑ 资源预览