资源简介 第五章 数据处理和可视化表达网络购物平台客户行为数据分析报告—— 以网络购物平台零食销售数据分析为例一、引言随着移动互联网和物联网的飞速发展,人类社会产生的数据以惊人的 速度增长。海量的数据几乎包含一切形式的结构化、半结构化以及非结构 化的数据,如网络日志、音频、视频、图片、地理位置信息等。如何高效 地对这些数据进行采集、存储、处理,并从中发掘到有价值的信息,是大 数据分析处理需要解决的问题。二、分析目的在日常工作,生活和学习中,大数据已成为人们提取信息、做出决策 的重要依据。大数据分析,使得商家可以通过分析网络购物平台客户的行 为数据,如客户购物订单中包含的商品,客户的购物行为特征、消费特征 等数据,为商品的区域摆放、捆绑销售等决策提供依据,甚至根据客户的 购物喜好,为客户提供个性化需求或服务,以提升市场的占有率。通过完成“网络购物平台客户行为数据分析和可视化表达”项目,认 识大数据及其特征,认识大数据对人们日常生活的影响,了解数据采集、 分析和可视化表达的基本方法;学会选用恰当的软件工具或平台处理数 据,完成分析报告;理解对数据进行保护的意义。三、数据需求1.零食销售数据包括零食名称(title)、店铺名称(store)、零食价格(price)、零食 订单量(paynum)等数据。· 1 ·2.客户订单数据包括客户订单中商品名称等数据。3.客户消费特征数据包括客户年龄、平均每次消费金额、平均消费周期(天)等数据。 4.客户购物行为特征数据包括客户身高、体重、年龄以及客户属性等数据。四、数据采集1.确定数据来源项目所需的零食销售数据、客户订单数据、客户消费特征数据、客户 购物行为特征数据等,来源于网络购物平台。2.数据的采集通过网络数据采集法,利用Python爬虫程序等工具从网络购物平台采集 零食销售数据、客户订单数据、客户消费特征数据以及客户购物行为特征 数据。爬虫程序采集零食销售数据关键代码如下所示。·2 ·爬虫程序运行关键过程如下。(请输入要搜索的商品名称:零食请输入想要搜索的商品页数:100爬取到3036条商品数据写入excel表格成功!)爬虫程序采集零食销售数据如图5-1所示。图 5-1 采集零食销售数据3.数据的保存管理项目数据都来自网络购物平台的非隐私数据,可以保存在本地电脑或 数据库中,以便数据分析时使用,还可以通过云盘等方式把数据分享给小 组成员或他人,实现数据共享。五、数据分析和可视化表达1.数据分析数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模·3 ·型评价等。(1)特征探索。大数据特征探索的主要任务是对数据进行预处理,发 现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求 最大值、最小值、极差等描述性统计量。零食销售数据特征探索过程如下。①使用XAMPP建站集成软件创建零食销售数据数据库datas,数据如图 5-2所示。图 5-2 使用 XAMPP 建站集成软件创建零食销售数据库 datas②运行“程序5-4-2 商品销售数据特征探索.py”,连接数据库程序代 码如下所示。(conn=pymysql.connect(host="127.0.0.1",user="root",passwd="",db="datas")sql="select*fromdatas"data=pda.read_sql(sql,conn))③程序运行过程中依次生成数据清洗前的散点图,异常数据处理后的 散点图,价格直方图、销量直方图,如图5-3所示。·4 ·图 5-3 运行结果特征探索的结果:从散点图中可以看到,经过异常数据处理后的散点 图数据分布比较均匀;从价格直方图可以看到,价格区间在8~24的零食种 类比较多;从销量直方图可以看到,销量在2000的零食种类占比大。(2)关联分析。关联分析就是分析并发现存在于大量数据之间的关联 性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。客户订单中商品关联分析如图5-4所示, 图左部分为客户订单中包含的 商品名称,图右部分为关联分析结果。图 5-4 订单商品名称和关联分析结果·5 ·关联分析程序关键代码如下:(data=pd.read_excel('orders.xls',header=None)#导入文件orders.xls中的数据ct=lambdax:pd.Series(1,index=x[pd.notnull(x)])#转换0-1矩阵的过渡函数b=map(ct, data.as_matrix()) #用map方式执行data = pd.DataFrame(list(b)).fillna(0) #实现矩阵转换,空值用0填充delb #删除中间变量b,节省内存support = 0.2 #最小支持度confidence= 0.5 #最小置信度ms='---' #连接符,默认'--',用来区分不同元素,如A--B。#需要保证原始表格中不含有该字符find_rule(data, support, confidence, ms).to_excel('apriori_rules.xls')#保存结果)关联分析结果:从支持度中可以看到,“面包-牛奶”“牛奶-面包” 支持度较高,说明客户同时购买面包和牛奶的概率较大,可以捆绑销售; 从置信度中可以看到,客户购买了黄油后,继续购买面包和牛奶的概率较 大,可以把黄油、面包和牛奶摆放在一起。(3)聚类分析。聚类分析是一种探索性的分析,在分类的过程中,人 们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进 行分类。客户消费特征数据如表5-1所示,聚类分析K-平均算法如图5-5所示。表 5-1 客户消费特征数据表年龄 / 岁 平均每次消费金额 / 元 平均消费周期 / 天23 317 1022 147 1324 172 17·6 ·(续表)年龄 / 岁 平均每次消费金额 / 元 平均消费周期 / 天27 194 6737 789 3525 190 029 281 1027 142 1228 186 823 126 022 287 3232 499 2625 181 9026 172 024 190 1627 271 3140 382 25图 5-5 聚类分析 K- 平均算法聚类分析程序导入客户消费特征数据关键代码如下所示。(fname="company.csv" #导入文件company.cvs中的数据dataf=pda.read_csv(fname,encoding="gbk")x=dataf.as_matrix())·7 ·聚类分析结果如表5-2所示。表 5-2 聚类分析结果聚类分析 聚类分析结果年龄-消费金额 五边形点表示消费金额最小,为普通用户;五角星点表示消 费额偏高,为高级用户;正方块点表示为超级用户。周期-消费金额 五边形点表示周期不定,消费额不高;五角星点表示消费额中 等,周期稳定;正方块点表示消费额高周期短,属于超级用户。年龄-消费时间 里面的点杂乱无章,说明两者关系不强。(4)数据分类。数据分类是大数据分析处理中最基本的方法。数据分 类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。客户购物行为特征数据分类如表5-3和表5-4所示,表5-3为客户购物行 为特征数据表,表5-4为数据分类结果。表 5-3 客户购物行为特征数据表客户 特征 A 特征 B 特征 C重要客户 182.8 81.6 30重要客户 180.4 86.1 29重要客户 170.0 77.1 30重要客户 180.4 74.8 28普通客户 152.4 45.3 24普通客户 167.6 68.0 26普通客户 165.2 58.9 25普通客户 175.2 68.0 27表 5-4 数据分类结果客户特征 运行结果 数据分类结果特征A 特征B 特征C [0] 普通用户182.8 58.9 26·8 ·数据分类程序代码如下所示:import numpy as np from sklearn.naive_bayes import GaussianNB X = np.array([[182.8,81.6,30],[180.4,86.1,29],[170.0,77.1,30],[180.4,74.8,28], [152.4,45.3,24],[167.6,68.0,26],[165.2,58.9,25],[175.2,68.0,27]]) Y = np.array([1,1,1,1,0,0,0,0]) clf = GaussianNB().fit(X, Y) print(clf.predict([[182.8,58.9,26]]))数据分类结果:程序运行结果为0,说明特征值为182.8,58.9,26的客 户为普通用户。2.数据可视化表达数据可视化是指以图形、图像、地图、动画等生动、易于理解的方式 展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。 从常用和实用的维度,大数据可视化的呈现类型主要分为探索和解释两 种。探索类型可以帮助人们发现数据背后的价值,而解释类型则把数据简 单明了地解释给人们。在数据分析处理过程中,使用的数据可视化工具,可视化相关数据分 析、呈现类型以及呈现效果如表5-5所示。表 5-5 数据分析常用可视化工具可视化工具 可视化数据 分析类型 可视化呈现 类型 可视化呈现效果matplotlib 逻辑关系 散点图·9 ·(续表)可视化工具 可视化数据 分析类型 可视化呈现 类型 可视化呈现效果matplotlib 逻辑关系 直方图WordCloud 逻辑关系 词云Seaborn 逻辑关系 直方图· 10 ·(续表)可视化工具 可视化数据 分析类型 可视化呈现 类型 可视化呈现效果Bokeh 逻辑关系 正弦图六、分析成果1.大数据来源广泛,深刻地影响着人们的日常生活大数据的产生是与人类日益普及的网络行为所伴生的:物联网、云 计算、移动互联网、车联网、手机、电脑以及遍布地球各个角落的各种 各样的传感器,无一不是数据的来源或是承载的方式。它们产生的文档、 照片、视频、音频、定位信息、聊天记录、网购订单、科学实验数据等遍 布于世界的每一个角落。这些结构化、半结构化以及非结构化的数据,标 准不一,大多数毫无关联,一般以文件或数据库的方式分散存储在世界各 地,聚集起来就形成了大数据。大数据已成为人们提取信息、做出决策的重要依据,是推动信息社会 发展的重要资源。我们在享受大数据带来便利的同时,又要养成保护数据 的习惯,防止数据泄露,特别是隐私数据泄露。2.采集与使用大数据要合理规范采集大数据首先要规范采集流程,要先从明确大数据应用项目的需求 出发,围绕选定的项目主题,制订大数据采集的需求清单和内容大纲,再 到选用合适的方法和工具采集数据。采集数据要合理合法,充分尊重社会 伦理道德及知识产权。大数据的使用要在数据安全的前提下,实现数据共· 11 ·享,创造数据价值,这也正是大数据真正的目的。3.Python语言是数据采集与分析的高效工具Python语言因其简洁、易读、开源、包容等特性,备受青睐。在数据采 集时,爬虫程序能够让我们快速高效地获取网络上各种数据。在数据分析 时能够让我们在杂乱无章的数据中,探索数据内在的结构和规律,构建数 学模型,并进行可视化呈现,从而以易于理解的方式展示数据和诠释数据 之间的关系、趋势与规律等,以便我们更好地理解数据,也为我们做出各 种决策提供依据。七、结语在本项目的开展过程中,我们进行了自主、协作、探究学习,认识了 大数据及其特征、大数据对人们日常生活的影响,了解数据采集、分析和 可视化表达的基本方法;学会选用恰当的软件工具或平台处理数据,完成 分析报告;理解对数据进行保护的意义,从而将知识建构、技能培养与思 维发展融入运用数字化工具解决问题和完成任务的过程中,促进信息技术 学科核心素养达成,达成项目学习目标。· 12 · 展开更多...... 收起↑ 资源预览