资源简介 (共33张PPT)项目9 整理与分析市场调查资料《市场调查与预测》目 录任务9.1 整理市场调查资料任务9.2 分析市场调查资料任务9.1 整理市场调查资料整理市场调查资料是根据市场分析研究的需要,对市场调查获得的大量原始资料进行审查、检验、分类、汇总等初步加工的工作过程。其任务在于使市场调查资料综合化、系统化、层次化,为揭示和描述调查现象的特征、问题和原因提供初步加工的信息,为进一步的分析研究准备数据。整理市场调查资料是从信息获取过渡到分析研究中承上启下的重要环节。一般来说,整理市场调查资料需要遵循以下五个步骤:审核市场调查资料、编码、录入市场调查资料、检查市场调查资料、绘制频数分布表与统计图。9.1.1 审核市场调查资料审核市场调查资料主要是为了检查数据资料是否具备齐备性、完整性、准确性和及时性等特点,以及剔除或修改不完整、不清楚、不一致或模棱两可的答案,从而提高市场调查资料的可用度。1.市场调查资料的审核内容市场调查资料的审核主要包括齐备性审核、完整性审核、准确性审核和及时性审核。1)齐备性审核即审核回收的问卷份数是否齐全,是否满足样本量的要求,以便及时补充不足的样本。2)完整性审核即审核应报送的单位有无遗漏,报送的资料是否填写齐全。如果发现单位漏查或项目漏填的情况,应及时查明原因加以补报。3)准确性审核即审核市场调查资料的口径、计算方法、计量单位等方面是否符合调查设计的基本要求。准确性审核一般可以通过逻辑审核、计算审核和经验判断来确定。9.1.1 审核市场调查资料1.市场调查资料的审核内容4)及时性审核即审核市场调查资料是否在规定的时间内及时提供,送达调查问卷或调查表填写的资料是否是最新的。由于市场变化较快,调查人员只有收集市场最新状态的信息才能最大限度地满足预测与决策的要求。如果迟报,调查人员还应对迟报原因进行分析,并提出改进意见,以求做到各单位按时或提前上报,进一步提高市场调查资料的质量。9.1.1 审核市场调查资料2.不合格市场调查资料的处理1)不合格的市场调查资料不合格的市场调查资料一般包括无效问卷和不满意问卷两类。(1)无效问卷。出现下列情况的问卷属于无效问卷:① 回答不完全,即一份试卷中至少有1/3的问题没有被回答;② 调查对象不符合抽样要求,如调查中规定某行业的人员不能成为调查对象,若问卷由这一类人作答,则为无效问卷;③ 答案选择高度一致,如所有题目都选择第一个答案;④ 截止日期后收回的问卷。(2)不满意问卷。出现下列情况的问卷属于不满意问卷:① 模糊不清,如将“√”打在两个答案之间;② 前后不一致或有明显错误,如一个年龄为15岁的调查对象的职务为高级经理、一天睡觉时长超过24个小时等;③ 模棱两可,如单项选择题选择了多个答案;④ 不符合作答要求,如跳答或不按要求回答。9.1.1 审核市场调查资料2.不合格市场调查资料的处理2)不合格市场调查资料的处理方式一般情况下,对于无效问卷可直接丢弃;对于不满意问卷,调查人员可以通过不同的方式进行处理,如返回现场重新调查、填补或删除缺失数据等。(1)返回现场重新调查。在样本量较少、调查对象容易确认的情况下,调查人员可以返回调查现场,重新联系调查对象,再次获取符合要求的数据资料。需要注意的是,返回现场重新调查可能会因调查时间或调查形式的不同而导致前后两次获取的数据不同。(2)填补或删除缺失数据。在缺失数据占比较少且缺失数据的变量不是关键变量的情况下,调查人员可以对缺失数据自行处理,主要有以下三种处理方法:① 用中间值来代替,如某变量的平均值;② 用逻辑答案来代替,如家庭总收入缺失,可根据家庭中就业人数及职业情况来估计;③ 对于样本量众多的数据资料,可以将缺失数据的整个样本资料全部删除。9.1.1 审核市场调查资料审核完市场调查资料后,接下来就是编码工作。编码是指按照某种规则,给每个问题每种可能的答案分配一个计算机可以识别的代码,通常是一个数字。合理的编码不仅可以减少数据录入的工作量,还可以区分、理解和计算不同的数据。9.1.2 编码1.编码方式编码方式包括事先编码和事后编码。事先编码是在实施市场调查活动之前,主要是在设计问卷时就对答案进行编码,一般只适用于封闭性问题。例如,对于“是”“否”两个答案的问题进行编码时,“是”编码为“1”,“否”编码为“0”。事后编码是在回收问卷后,通过逐一浏览问卷,对答案进行编码,一般适用于开放性问题,即在实施调查前不可能知道答案的问题。2.编码内容1)问卷编码问卷编码一般包括调查人员代码、问卷编号、调查对象代码等,其组合顺序可以自由规定,也可以按照设计的标准规定。但是,每一份问卷的编码必须唯一。为方便记录,问卷编码也可以只有问卷编号。例如,某问卷编码为“10308005”,其中,数字“1”代表“北京”,数字“03”代表“海淀区”,数字“08”代表“调查人员编号”,数字“005”代表“调查人员成功完成的第5份问卷”。9.1.2 编码2.编码内容2)问题编码问卷中的问题一般分为封闭性问题和开放性问题两种。因此,问题编码分为封闭性问题编码和开放性问题编码两种。(1)封闭性问题编码。一般情况下,封闭性问题可供选择的答案是事先设计好的,在实施调查之前便可对每个问题及可供选择的答案进行编码。封闭性问题编码包括两项选择题编码和多项选择题编码。(2)开放性问题编码。开放性问题的答案可能多种多样,需要对所有可能的答案分别进行编码。9.1.2 编码3)编码表的制作确定好答案编码后,数据录入员就可以直接录入答案的代码。为了说明每一个数字代码的具体含义,数据录入员还需要编制编码表。编码表一般包括代码所处的位置(列数)、变量名称及变量说明、问题编号、编码说明等。当采用纸质问卷收集数据资料时,数据录入是在数据收集完成后通过键盘录入计算机的。当采用计算机辅助收集数据资料时,计算机可以自动录入数据,使数据录入与数据收集同时完成。一般情况下,数据录入员可利用Excel工具录入数据。仍以上述手机用户市场调查问卷为例,假设收到20份调查问卷,录入的数据格式如图所示。9.1.3 录入市场调查资料在大量数据录入的过程中,尤其是采用键盘录入数据资料时,错误很可能发生。因此,数据录入员需要对已录入的数据进行详细检查,常用的方法包括以下几种。(1)双机分别录入,即由两名数据录入员分别在两部计算机上同时录入原始数据,然后将录入结果进行对比。完全相同的数据可视为录入正确,存在不一致的地方则需要与调出的原始数据进行再次核对。(2)对已录入的数据进行抽查。一般随机抽取20%左右的问卷与录入的数据资料进行复查。(3)一致性查错,主要考查变量和取值范围是否与规定的范围一致。例如,性别的取值范围是1(男)、2(女)和0(未回答),如果出现了3、4、5、6等其他代码,则说明超出了变量的正常取值范围,需要进行核对。(4)逻辑查错,主要是检查数据有无逻辑错误。一是样本结构上的逻辑错误,如年龄为20多岁的退休人员;二是回答内容上的逻辑错误,如回答不知道某个品牌的调查对象在同一问卷上又选择使用了该品牌,回答不收看某个频道节目的调查对象在同一问卷上又选择了对该频道播出的节目很感兴趣。9.1.4 检查市场调查资料1.绘制频数分布表1)频数分布表频数分布是反映变量的各类别或各个值出现的频数和频率的一种分布状态。其中,频数是指变量的各类别或各个值出现的次数;频率是指各个值出现的次数与所有值出现的总次数的比值。频数分布表是将数据资料按照类别分为不同组段,呈现数据资料的频数分布的表格。9.1.5 绘制频数分布表与统计图市场调查的目的在于了解总体的一般情况,而非单个调查对象的详细情形。通过编码后,调查人员需要通过绘制频数分布表或统计图把隐藏在这些大量分散数据中的重要信息揭示出来。仍以上述手机用户市场调查问卷中调查对象的月收入数据为例,假设收到20份调查问卷,则这些手机用户月收入情况的频数分布如表9-2所列。调查对象的月收入 频数 频率/% 累积频数 累积频率/%3000元以下 5 25 5 253000~5 000元 3 15 8 405000~10 000元 11 55 19 9510000元以上 1 5 20 100合计 20 1009.1.5 绘制频数分布表与统计图表9-2 手机用户月收入情况的频数分布表通过表9-2可以看出,调查对象的月收入在3000元以下、3000~5000元、5000~10000元、10000元以上分别有5人、3人、11人、1人,即频数分别为5、3、11、1,频率分别为25%、15%、55%、5%。1.绘制频数分布表2)频数分布表的绘制(1)确定组数。组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数可以按斯特杰斯经验公式来确定,计算公式如下:式中:k为组数,n为数据的个数。(2)确定组距。组距可以根据所有数据的最大值和最小值之差来确定,计算公式如下:组距=(最大值 最小值)÷组数(3)绘制频数分布表,即统计出各组的频数并利用计算机整理成频数分布表。9.1.5 绘制频数分布表与统计图2.绘制统计图统计图可以将调查资料以图的形式直观地反映出来,有利于研究人员准确了解数据的分布特征和规律。常用的统计图有直方图、柱形图、饼图、折线图。1)直方图直方图是以组距为横轴、频数为纵轴的一系列连接起来的矩形块图。例如,某调查企业抽取500人调查某高校大学生月消费支出情况,并依据频数分布表(见表9-4)绘制直方图,如图9-2所示。9.1.5 绘制频数分布表与统计图表9-4 某高校大学生月消费支出的频数分布表月消费支出/元 频数 频率/% 累积频率/%500以下 51 10.2 10.2500~1000 147 29.4 39.61000~1500 179 35.8 75.41500~2000 74 14.8 90.22000以上 49 9.8 100.0合计 500 100通过图9-2可以看出,该校大学生月消费支出基本集中在500~1000元、1000~1500元两档,合计占65.2%;而消费支出在500元以下、2000元以上的则比较少,分别仅占10.2%和9.8%。9.1.5 绘制频数分布表与统计图图9-2 某高校大学生月消费支出统计直方图2)柱形图柱形图是用来展示分类数据分布的一种图形,在横轴上以宽度相同的多个柱状图形代表变量的各个类别,在纵轴上以柱形高度来表示数据的大小。柱形图与直方图的区别在于:① 柱形图主要用于不同数据类别之间的比较,而直方图主要用于观察连续数据的分布情况;② 柱形图的分组数据是分开排列的,而直方图的分组数据具有连续性,是连续排列的。例如,某调查机构为了解消费者对热水器品牌的喜爱程度,抽取1184名消费者进行问卷调查,并依据频数分布表绘制柱形图。9.1.5 绘制频数分布表与统计图品牌 频数 频率/%西门子 321 27.1欧莱克 204 17.2万家乐 302 25.5美的 109 9.2华帝 98 8.3海尔 70 5.9其他 80 6.8合计 1 184 100.09.1.5 绘制频数分布表与统计图3)饼图饼图是用圆形及扇形来表示数据大小的图形,主要用来表示总体或样本中各组成部分所占的比例。例如,某调查机构为了解消费者对热水器品牌的喜爱程度,抽取1184名消费者进行问卷调查,并依据频数分布表绘制饼图。9.1.5 绘制频数分布表与统计图4)折线图折线图是用来反映某种现象在时间上的动态变化,或者某种现象随另一种现象的变化趋势。例如,某洗发水公司为了解消费者对某品牌洗发水价格的接受程度,选取了1200个样本量进行问卷调查,并依据频数分布表绘制折线图。9.1.5 绘制频数分布表与统计图价格分组/元 频数 频率/%20以下 250 20.820~50 450 37.550~80 300 25.080以上 200 16.7合计 1200 100.0任务9.2 分析市场调查资料9.2.1 市场调查资料的分析方法整理市场调查资料,确保数据的有效性,目的就是在保证数据质量的前提下,对数据进行各种分析,进而得到隐含在其中的结论。市场调查资料的分析是指根据市场调查的目的,运用多种分析方法对市场调查收集整理的各种资料进行对比研究,通过综合、提炼、归纳、概括得出结论的过程。1.定性分析法定性分析法是从事物“质”的方面入手,利用经验判断、辩证思维、逻辑思维、创造性思维等思维方法进行判断和推理。定性分析法主要是界定事物的大小、变化的方向、发展的快慢、产品的优劣、态度的好坏、问题的性质等方面。9.2.1 市场调查资料的分析方法2.定量分析法定理分析法是从事物“量”的方面入手,运用一定的统计分析方法和工具进行研究,挖掘事物的本质特征和规律,从数据中提炼有价值的信息。定量分析的本质是数据的深加工,从数据导向结论。定量分析法包括描述分析、统计推断、差异分析、关联分析、预测分析等五种常用的统计分析方法。分析方法 使用目的 例子 统计概念描述分析 概括数据,推出总体的一般结果 描述典型的调查对象;描述与典型调查对象的类似程度 平均数、中位数、众数、频数分布、标准差统计判断 决定总体参数、检验假设 估计总体值 标准误差、零假设差异分析 确定组与组之间是否存在差异 估计一个样本中两组均值差异的统计显著性 对差异进行t检验,方差分析关联分析 确定相关性 确定变量之间是否系统相关 相关系数预测分析 以统计模型为基础进行预测 在给定x数值的情况下预测y的水平 回归分析9.2.2 数据的描述统计分析1.数据的集中趋势分析集中趋势是指数据趋向于一个中心的分布。常用于分析数据集中趋势的统计量有平均数、众数和中位数。1)平均数平均数是描述数据集中程度的一个统计量。在实践中,它既可以用来反映一组数据的一般情况,也可以用于不同组数据的比较,进而识别组与组之间的差别。常用的平均数有简单算术平均数和加权算术平均数。(1)简单算术平均数是用变量值的总和除以数值的个数,计算公式如下:式中: 为简单算术平均数,xi为各个变量值,n为变量的个数。9.2.2 数据的描述统计分析1)平均数(2)加权算术平均数是指具有不同比重的数据(或平均数)的算术平均数,计算公式如下:式中: 为加权算术平均数,mi为各组的组中值,fi为各组的频数,k为组数,n为各组频数之和。所谓组中值是指上限与下限之间的中点数值,是各组上下限数值的简单平均,计算公式如下:组中值=(下限+上限)÷22)众数众数是指数据中出现次数最多的变量值,主要测定数据的集中趋势。在实践中,众数用来反映最普遍的现象或最主要的问题。它虽然弥补了平均数指标受极端值影响的缺陷,但仍存在不足之处。例如,如果一组数据中的各变量值只出现了一次,那么这组数据就没有众数;又如,如果存在两个或两个以上变量值出现次数都是最多的,那么出现次数最多的这几个数都是这组数据的众数。9.2.2 数据的描述统计分析3)中位数中位数是将数据按大小顺序排列起来,居于数列最中间位置的那个数据。中位数位置平均,不受极端变量值的影响。在具有极大值和极小值的数列中,中位数比算术平均数更具有代表性。例如,在研究城乡居民收入水平时,总体中既存在极高收入者,也存在极低收入者,这时居民收入的中位数比算术平均数更能代表居民收入的一般水平。中位数的计算方法有以下两种。(1)如果总体个数是奇数,按从小到大的顺序排列,选取位于中间位置的那个数。例如,求“2,3,4,5,6”的中位数。这个数列共有5项,则中位数的位置=(n+1)/2=(5+1)/2=3即位于第三位的数字“4”就是中位数。(2)如果总体个数是偶数,按从小到大的顺序排列,选取位于中间位置的两个数的平均数。例如,求“2,4,5,7,9,15”的中位数。这个数列共有6项,中位数的位置落在第三个数和第四个数之间,即中位数=(5+7)/2=69.2.2 数据的描述统计分析9.2.2 数据的描述统计分析2.数据的离散程度分析离散程度是指数据偏离分布中心的程度,用来反映数据之间的差异程度。常用于分析数据离散程度的统计量有全距、方差和标准差。1)全距全距,又称“极差”,是指总体内两个极端值之差,计算公式如下:R=最大值 最小值全距可以检验平均值的代表性大小,全距越大,平均值的代表性越小;全距越小,平均值的代表性越大。需要注意的是,全距是数据两个极端值的差额,只受最大值和最小值的影响,因此,它只是一个粗略测量离散程度的指标,不能如实反映中间数据的分布状况。2)方差、标准差和标准差系数(1)方差和标准差。方差是各变量值与其均值之差的平方再求平均;标准差是方差的平方根。方差和标准差的计算公式分别如下:式中:s 为方差,s标准差,xi为变量值, 为变量值的平均数,n为变量值的个数。这两个指标都是测量离散程度最重要的方法。指标数值越大,表示组中各个数据越离散,平均数的代表性就越小;指标数值越小,表示组中各个数据越集中,平均数的代表性就越大。9.2.2 数据的描述统计分析2)方差、标准差和标准差系数(2)标准差系数。标准差系数是指标准差与平均数的比值,通常用百分数表示,计算公式如下:X100%在对比不同规模的两个总体的变异程度时,直接比较标准差是没有意义的,此时可用标准差系数来进行比较,标准差系数越小,数据的离散程度越小。9.2.2 数据的描述统计分析9.2.2 数据的描述统计分析3.数据变量间的关系分析1)数据的方差分析方差分析是一种常见的统计数据分析方法,主要用来分析市场调查和实验数据中不同来源的变异对总变异的影响程度,从而了解数据中的自变量是否对因变量有重要影响。在具体应用中,如果方差分析研究的是一个因素对于调查结果的影响,就称作单因素方差分析。因素是一个独立的变量,也是方差分析研究的对象。因素中的内容称为水平。例如,研究产品包装是否对产品的销售量产生影响,其中,包装是控制变量,销售量是观察变量。假如设计3种不同类型的包装A、B、C,那么,A、B、C就是变量的不同水平。一般情况下,通过比较差异源F与Fcrit即可判断因变量是否影响自变量。如果F>Fcrit,表示有显著影响;如果F≤Fcrit,表示不产生影响或产生的影响不大。例9-10中,通过图9-32可以看出,F值(0.18307)9.2.2 数据的描述统计分析3.数据变量间的关系分析2)数据的相关分析相关是指一个变量与另一个变量之间的连带性。也就是说,一个变量的值发生变化,另一个变量的值也会随着发生变化,那么,这两个变量就是相关的。例如,收入水平与受教育程度之间的关系,商品的消费量与居民收入之间的关系,等等。相关系数r是用以反映变量之间相关关系密切程度的统计指标,其取值范围为 。当 越接近1,变量之间的线性相关程度越密切;当 越接近0,变量之间的线性相关程度越弱。通常情况下,当 >0.8时,变量之间为高度线性相关。谢 谢 观 看 展开更多...... 收起↑ 资源预览