当前位置: 主页 > 建站知识 > 软件开发

数据分析和软件测试-南京农业大学工学院数据分析与软件运用课程实验报告

发布时间:2023-06-13 07:07   浏览次数:次   作者:佚名

数据分析与软件运用实验指导详细资料》由会员分享,可在线阅读,更多相关《数据分析与软件运用实验指导详细资料(12页珍藏版)》请在人人文库网上搜索。

1、数据分析与软件运用实验指导书 / 12南京农业大学工学院王明芳2011-8-3 / 121. 实验内容数据分析与软件运用课程实验是我系管理科学与工程类学科下工业工程、物流工程、工程管理等专业学生的重要教案实践环节之一,通过课程实验可以进一步掌握数据的分析方法及相应软件的运用,从而增强分析实际问题的能力。2. 课程实验的主要工作任务及要求我院设计的数据分析与软件运用实验以及开发的实验环境主要用于统计、工程管理、工业工程、物流工程等专业本科数据分析课程的辅助教案。另外,此套实验也适用于统计机构、市场调查公司进行基础培训。(一)掌握数据的收集、整理及分析方法(二)学会用图表展示数据;概括数据的基本特

2、征;从数据中找出特征;学会对未知的总体进行推断;检验你所提出的假设;比较几个总体见有无差异;如何应用统计方法控制产品质量等内容3. 课程实验的进度安排实验一:建立数据集、数据集的预处理、数据的描述统计分析学时 2实验地点:管理系机房实验二:均值、方差、相关与回归分析学时 2实验地点:管理系机房实验三:多变量分析学时 2实验地点:管理系机房实验四:综合实验学时 2实验地点:管理系机房4. 课程实验报告(一)课程实验总结报告按统一格式、采用统一报告纸,报告内容应包括实验名称、目的、内容、原理和实验成果等。(二)实验报告格式要求:排版打印具体如下:1、封面主标题名称:写明实验的名称姓名:班级:实验时

3、间:2、正文一级标题:宋体,四号字,加粗;二级标题:宋体,小四号,加粗;三级标题:宋体,小四号,加粗;正文:宋体,小四号,单倍行距;插入页码(居中)3、文中页面设置采用默认值;4、文中图表均需要统一编号并标出,符号、图形等所表达的意义,必须清晰完整3/125. 课程实验的考核成绩(一)考核等级根据实验报告进行评分,分为优、良、中、及格和不及格五个等级(二)打分依据1、是否达到实验的基本要求2、报告的完整性,资料收集和整理的全面程度和准确性3、报告的整洁与排版的规范性实验一 建立数据集( 1)【实验目的】1、掌握统计数据的基本结构2、了解原始样本数据与SPSS数据集之间的对应关系3、熟练掌握SP

4、SS数据集的建立方法4、熟悉 SPSS主窗口及主要界面【知识准备】1、变量及其类型的划分2、数据的结构【实验内容】时下大学生逃课成了一种比较普遍的现象数据分析和软件测试,对各高校来说是一个不容忽视的问题,它会影响到学校教案质量和学生专业知识的提高,正常的教案秩序会促进校风的建设,同时也可为学生的学习创造一个良好的环境经历了“黑色”的六月数据分析和软件测试,千辛万苦,好不容易迈进梦寐以求的大学校园,背负着父母殷切希望的大学生本应珍惜学习机会,努力学习,可他们为什么要逃课呢,逃课后又在做什么逃课是否会影响学习成绩呢,带着这些疑问,请针对大学生“必修课选逃,选修课必逃”现象展开调查,把调查的资料录入到SPSS文档中【实验步骤】1、确定

5、变量个数2、定义变量属性3、录入样本数据【问题思考】1、调查问卷中的问答设计一般有哪几种方式可采用?2、根据本次调查的研究目的,本问卷是否有必要增加变量,多提一些问题3、本实验中的样本数据不包含数值型变量,如出现数值型变量,应如何定义其SPSS 数据集中的 10 个变量【实验总结】就您所感兴趣的课题,自主设计调查方案,搜集有关数据,并建立一个包含品质变量和数值型变量的SPSS数据集实验一数据集的预处理(2)【实验目的】1、 了解对原始数据进行预处理的意义2、进一步熟悉SPSS主窗口中的数据浏览界面4、熟悉掌握针对SPSS数据集进行编辑、整理和初步加工的方法和步骤4/12【知识准备】1、数据的审

6、核2、数据分组【实验内容】前面根据大学生逃课设计的问卷过于简单,不能满足进一步深入和展开问题研究的需要。为此,还必须搜集100 多位以上的同学的英语、数学、经济学、统计学等几门课程的期末考试成绩。所获取的数据是一个Excel 文档,参见数据data2-1,现在需要把这个Excel格式的文件转换为spss 数据集,再与实验一中的数据data1-1 合并为一个完整的spss 数据集【实验步骤】1、转换 Excel 格式文件为spss 数据集 2、合并数据3、排序 4、简单计算5、选择观测6、清点观测7、分类汇总8、分组9、拆分数据【问题思考】1、为何要进一步搜集 100 多位同学的各门课的考试成绩

7、?可通过何种方式、何种途径获得这些数据2、清点观测中,如果仅仅是针对男生且各门课考试成绩85 分以上者,应如何操作3、若要对逃课后活动和对逃课的看法两个变量中的不同情况进行双重拆分,应当如何操作?【实验总结】结合实验内容和本实验中提供的数据,自主完成 Edit , View , Data, Transform4 个主菜单中所有操作。实验一数据的描述统计分析(3)【实验目的】1、 掌握定类数据、定序数据和数值型数据的图表表示方法2、掌握定类数据、定序数据和数值型数据图表表示的Spss操作3、熟练描述统计量的类型划分及其作用4、准确理解各种描述统计量的构造原理并熟练掌握描述统计量的spss操作5、

8、培养运用描述统计方法解决身边之际问题的能力【知识准备】1、定类数据的频数分布表、分布图(条形图、帕累托图、饼形图)2、数值型数据的频数分布表、分布图(茎叶图、盒行图、直方图)3、描述集中趋势、离散趋势及分布形态的统计量【实验内容】随着证券市场的发展,基金理财目前已成为一种非常普遍的投资方式。统计数据显示,目前基金持有人账户总数已过1.1 亿户,估计约有四分之一的城镇居民家庭参与了基金投资。投资者面对300 多只基金,如何选择基金公司,投资何种类型的基金,需要对基金作出全面了解的基础上进行决策。这里搜集了晨星开放式基金2007 年业绩业绩评级资料,供您分析使用。此数据以2007 年 12 月 2

9、8 日最后一个交易日为截止日期,反映了317只开放式基金的综合数据。见数据data3-1.sav,这些变量中,V24 是我们比较关心的一个丁磊变量, V5 , V6 为比较典型的两个定序变量。针对这些变量数据制作频数分布表和分布图5/12为帮助您了解和分析上海的综合状况,我们搜集到上海A 股的一部分财务数据并建立了 Spss 数据集。见数据data4-1.sav,此数据级反映上海A 股中 32 各行业840 家上市公司2007 年 12 月 28 日,即本年度最后一个交易日的资料,请根据需要制作品数分布图表进行通描述绝大多数课程的期末考试成绩成对称的钟形分布,但这也不是绝对的规律。“证券市场模

10、拟实战”是一门深受学生喜爱的选修课程,课程性质有其特殊性,那么其期末考试成绩是否也有其分布规律的特殊性?这里有一份 2008 年期末 5 个班 263 名学生的考试成绩,见数据 data5-1.sav,请运用统计量描述手段对此数据做一个分析【实验步骤】1、 V24 频数分布表与频数分布条形图打开数据集Analyze-Descriptive Statistics Frequencies 根据提示进行操作V5 的频数分布饼形图帕累托图Graphs Pie ; Pareto 根据提示进行操作2、 V3 茎叶图打开数据集Analyze-Descriptive Statistics Explore 根据

11、提示进行操作3、 V8 频数分布盒形图V10 频数分布直方图Graphs Boxplot , Histogram4、 263 名学生成绩整体的统计量描述Analyze-Descriptive Statistics Descriptives5、各班级学生成绩的统计量描述DataSplit File 系统将数据拆分成5 组Analyze-Descriptive Statistics Descriptives【问题思考】1、定类数据和定序数据的频数分布表有何不同?2、欲制作不同投资类型下的V5 和 V6 的聘书分布图表,应如何操作3、数据集中的大量数据可谓我们选择具体的基金管理公司提供什么帮助?4、

12、直方图与条形图有什么不同5、欲比较不同行业在同已变量上的频数分布直方图,应如何操作6、由此数据集中的数据我们可以认识到上海A 股股市的哪些特点7、 Spss中还可以通过哪些途径计算有关的描述统计量8、试对此数据集进行图表描述,并结合本实验中的输出结果评述此课程考试成绩的频数分布特征【实验总结】观察上述实验步骤中的输出结果,发现问题,思考原因,撰写一份数据分析报告实验二 均值分析( 1)【实验目的】2、 准确掌握单样本、两个独立样本和配对样本t 检验的方法原理2、熟练掌握单样本、两个独立样本和配对样本t 检验 Spss 操作3、学会利用单样本、两个独立样本和配对样本t 检验的方法解决身边的实际问

13、题4、熟悉 SPSS主窗口及主要界面【知识准备】1、 t 检验的基本概念2、 t 检验的基本步骤【实验内容】6/12某对外汉语教案中心进行了一项汉语教案实验,同一年级的两个平行班参与了该实验。两个班分别采用两种不同的教案方式学习 40 个生字,其中一个班采用的是集中识字的方式,即安排外国留学生在学习课文前集中学习生字,然后再学课文;二班采用的是分散识字的方式,即安排学生一边学习课文一边学习生字。为了考察两种教案方式对生字读音的记忆效果是否有影响,教案效果是否有差异,分别从一班和二班随机抽取 20 名学生,要求他们对 40 个汉字进行注音,每注对一个得一分,注错不得分,从而获得了两个独立样本的数

14、据。 Data7-1.sav 试根据此数据集评价两种教案方式的优劣。为研究某种减肥茶是否具有明显的减肥功效,某健身机构对35 名肥胖志愿者进行了减肥效果跟踪调研。首先,将其喝减肥茶以前的体重记录下来,三个月后在依次将这35 名志愿者核查后的体重记录下来,从而获得一个数据集data8-1.sav ,试推断减肥茶是否具有明显的功效【实验步骤】1、对测试成绩进行描述性分析(计算两个班级整体的测试成绩的平均值、标准差、最高和最低分;分别计算一班和二班学生测试成绩的平均值、标准差、最高和最低分)2、两个独立样本的t 检验 Compare Means Independent Sample T Test根据

15、提示进行操作3、分析输出结果【问题思考】1、如果不采用 Explore 对话框,是否还可以通过其他对话框来计算两个班级学生总成绩的平均值、标准差、最高和最低分等描述统计量2、对 data8-1.sav 的数据集该采用什么检验,如采用独立样本他检验过程来实现,会有什么结果,请比较两者的差异【实验总结】结合实验内容重复上述操作步骤,整理输出结果,得出分析结论实验二方差分析( 2)【实验目的】3、 掌握单因素、多因素方差分析和协方差分析的基本理论和基本步骤2、掌握单因素、多因素方差分析和协方差分析的Spss 操作3、能够利用单因素、多因素方差分析和协方差分析工具解决身边的实际问题【知识准备】1、单因

16、素、多因素方差分析和协方差分析的基本概念2、单因素、多因素方差分析和协方差分析的理论假设3、单因素、多因素方差分析和协方差分析基本思路4、单因素、多因素方差分析和协方差分析基本步骤5、单因素方差中的多重比较【实验内容】2006 年全国五省的一项调查显示,企业的担保方式和信用程度对企业获得的贷款金额具有显著影响。此次所获得的部分数据如数据集 data11-1.sav 所示,试分析本次调查中主要担保方式和信用等级两个变量对变量贷款金额的影响是否显著。如果显著,再分析各因素的不同水平对其影响是否显著。社会经济因素能否影响人的语言表达能力?这是一个有趣的心理学和社会学问题。本实验讲演示如何运用协方差分

17、析方法来解决这个问题。7/12考虑成年人的表达能力会受到后天的很多因素的影响,我们选择幼儿园进行测验,获取了有关变量的观察值如 data12-1.sav。问题中的 Language 为观测变量, level 为可控制变量。根据研究目的,可以以 level 为自变量, Language 为因变量做单因素方差分析。但考虑到 old 可能会对观测变量产生影响,因此为准确评价社会阶层因素对语言表达能力的影响,还需采用单因素协方差分析方法进行深入分析研究。【实验步骤】Analyze General Linear Model Univariate 根据对话框提示进行操作【问题思考】1、多因素方差分析的前提

18、条件是什么?单因素方差分析和多因素饭方差分析的方差齐性检验有什么不同?2、对于给出的数据文件,还可以用什么统计方法进行分析【实验总结】结合实验内容重复上述操作步骤,观察、整理分析输出结果,得出分析结论,撰写一份分析报告。实验三聚类分析( 1)【实验目的】1、准确理解聚类分析的方法原理2、了解掌握七种层次聚类方法的区别和联系3、熟练掌握聚类分析的SPSS操作4、培养运用聚类分析方法解决身边实际问题的能力【知识准备】1、聚类分析的基本思想2、定距型数据分类的距离和相似性的计算3、几种层次聚类方法的介绍4、层次聚类的基本步骤【实验内容】本实验要求利用2001 年全国 31 个省市自治区各类小康和现代

19、化指数的数据,参见数据data18-1.sav,对地区进行聚类分析。【实验步骤】打开数据集,选择菜单Analyze Classify Hierarchical cluster 根据提示进行操作。【问题思考】1、尝试在方法选择对话框Cluster Method 中选择不同的层次聚类方法或者在“Measure”框中选择不同的样品距离计算方法,比较其层次聚类结果与本实验中的结果的区别与联系?2、 SPSS层次聚类分析将所有可能的聚类解全部输出,应如何确定分类数目?3、层次聚类分析后还需分析各类的特征,可对各类的各个变量分别进行描述统计?【实验总结】结合实验内容重复上述操作步骤,观察、整理分析输出结果

20、,得出分析结论,撰写分析报告。实验三因子分析( 2)【实验目的】1、熟悉因子分析的用途、目的2、掌握因子分析的使用条件,能正确选择适当的因子8/123、熟悉因子旋转的含义并能正确运用4、掌握分析结果的解释【知识准备】1、因子分析的基本思想2、因子分析的数学模型【实验内容】SUV 是众多厂商和爱车族经常提及的名字。SUV 是 Sports UtilityVehicle 的缩写,即运动型多功能车。它即具有轿车的舒适性,有具有越野车的越野性能,配备有高地盘、越野轮胎,爬坡能力强,通过性能好。另外,SUV 外形威猛大气,储物空间大,用途比较广泛。在 1996、1997 年时,中国的SUV 市场主要有两

21、类产品构成,一类是以2020 为代表的北京吉普,另一类是走私进来的SUV ,两类产品基本各占50%。在 1998、 1999 年时,一方面由于国家对于走私SUV 的严格限制,另一方面由于北京吉普的销量锐减,中国的SUV 销量呈下降趋势。直到2000 年,随着国内SUV 厂商的崛起,如湖南长丰个、福建东南、重庆庆林等, SUV 的销量有逐渐回复到了1999 年以前的水平。特别是在2002 年,随着整个汽车市场的爆发性增长,SUV 也呈现出了明显的增长态势。但2005 年, SUV 市场却发生了很大的变化。根据中国乘用车市场信息联席会的统计数据,2005年上半年全国SUV 的产量为 8.77 万辆

22、,同比下降 22.1%;销量 8.89 万辆,比去年同期的9.6 万辆下降了7.4%。产销量的下降导致了利润的减少甚至亏损,许多产量只有几百辆的经济型SUV 生产企业濒临破产的边缘。SUV 车型的市场死穴究竟在哪里?各大厂商都在谋求出路。根据对消费者所做的调查如数据集data20-1.sav,进行适当的分析。【实验步骤】选择菜单 Analyze Data Reduction-Factor根据对话框提示进行操作【问题思考】1、如何考察现有变量是否适合进行因子分析?2、为何要对初始因子分析结果进行旋转3、一般采用何种方法确定选择提取因子的数目【实验总结】结合实验内容重复上述操作步骤,观察、整理分析

23、输出结果,得出分析结论。以本实验为出发点,查阅有关资料,撰写一份分析报告。实验四综合实验( 1)【实验目的】本实验演示了如何就现成的样本数据,选择适当的统计方法,由表及里,由浅入深的进行数据的整理、加工、计算和分析。通过本实验的操作,使学生掌握数据分析的一般程序和步骤,提高综合运用各种统计方法分析问题和解决问题的能力。【实验内容】某市场调研公司是一家独立的机构,主要面向各类厂商提供市场信息咨询服务。在一项研究中,某厂商为了能够预测信用卡进行支付的数据,要求其对消费者的特点进行调查研究。为此这家市场调研公司专门就一个由50 名消费者著称的随即样本,采集了有关年收入、家庭成员人数和年信用卡支付数额

24、的数据,见数据集data2-1-1.sav。作为一名数据分析人员,您应当如何着手分析这些数据,并从中挖掘尽可能多的有用信息,从而为厂商提供优质的信息咨询服务?【实验步骤一】9/121、对数据进行排序2、制作频数分布图形3、计算有关描述统计量4、观察和分析上述描述结果,得出初步的分析结论【实验步骤二】在实验步骤一的基础上,可利用样本数据对信用卡支付数额的总体均值做一个区间估计Analyze Compare Means One Sample T Test 得出信用卡支付数额总体均值 95%的置信区间【实验步骤三】以年收入为自变量、信用卡支付数额为因变量进行回归分析,建立回归方程,用以通过年收入的取

25、值来预测信用卡支付数额的取值。【实验步骤四】以家庭成员为自变量、信用卡支付数据为因变量进行回归分析【实验步骤五】以年收入和家庭成员数为自变量、信用卡支付数额为因变量进行多元回归分析,建立回归方程,用已通过家庭成员数和年收入的取值来预测信用卡支付数据的取值。【实验步骤六】回归分析是建立在一系列理论假设的基础上的,其中最重要的就是误差项随机变量的正态性假设。我们所掌握的样本数据如果违反了这些理论假定,那么上述分析结果就全部是无效的。因此本实验的最后一步、也是最为关键的一步,就是利用样本数据来证实模型假定,主要内容是观察和分析残差的分布形态。【问题思考】1、以 95% 的置信度,预测年收入为4000

26、0 元的 3 口之家,其中信用卡支付数额是多少?2 、本实验中采用了强行进入法“Enter ”进行多元线性回归分析,试采用逐步回归法“Stepwise”作一个多元线性回归分析,看结果如何?3、处于严密性考虑,还应当从哪几个方面来证实模型假定4、本实验第36 个观察值为异常值,异常值一般会对回归分析的结果造成较大的影响,如何测定异常值这种影响的大小。【实验总结】结合实验内容参考上述操作步骤自主选择分析方法,并完成相关的 SPSS 操作,观察和整理输出及结果,得出分析结论。查阅有关资料,撰写一份主题明确、论证充分的分析报告。分析报告应包括以下要点:1、 问题的剔除2、 变量设置的理由3、 数据搜集

27、的基本方法和过程4、 数据的结构特点5、 分析方法的选择6、 分析过程中的主要步骤及其结果的评述7、 数据对有关模型理论假设的符合程度8、 分析结论实验四综合实验( 2)【实验目的】本实验将演示如何就较大规模的样本数据,选择适当的统计方法,进行统计描述和统10/12计推断。通过本实验的操作,培养和提高学生迅速把握数据结构、灵活驾驭大规模数据的能力。【实验内容】住房问题涉及千家万户,了解消费者对住房现状的满意程度及对未来的住房期望,对于政府制定房地产市场管理的有关措施,具有一定的指导意义。为此市政府委托某高校统计学院做了一项关于本市居民住房情况的调查。这是一个规模比较大的调查工程,调查小组通过问

28、卷形式就 2993 各住户,获得了 14 个变量的样本数据。问卷的部分内容如下:关于住房情况的问卷调查(部分)1、您居住所在区是()。 (1)A 区(2)B 区(3)C 区(4)D 区2、您的性别是()(1)男( 2)女3、您的年龄是()4、您的文化程度是()。 ( 1)初中以下( 2)高中(中专)( 3)大学(专、本)( 4)研究生以上5、您的职业是()。(1)行政事业单位( 2)国营企业(3) 私营企业( 4)大专院校科研单位(5)事业(6)其他6、婚否( )。( 1)已婚( 2)未婚7、您的家庭常住人口数()。8、户口状况()。(1)本地户口( 2)外地户口9、您的家庭年收入()。10、

29、您现住房面积()11、您的家庭人均住房面积是()。12、您的住房产权状况是()。( 1)无产权( 2)部分产权( 3)二手房( 4)经济适用房 ( 5)多层商品房( 6)高层商品房( 7)别墅 ( 8)其他13、您对目前的住房是否满意()。( 1)满意( 2)不满意14、您未来三年打算购房吗?( 1)不买( 2)购买尽管调查工程不多,单数据的手机、录入、审核和整理工作也是相当繁重和复杂的。作为一名数据分析人员,您应但如何着手整理和描述这些数据,从而为进一步的数据分析工作提供一个良好的开端?【实验步骤一】根据问卷结构的特点,定义数据中应当包含的变量个数及其属性,并在此基础上逐条录入 2993 个

30、观测的数据值,参见数据 data2-2-1.sav.【实验步骤二】单变量频数统计二维交叉频数统计表和分布图三维交叉频数统计表和分布图【实验步骤三】在频数统计的基础上,结合已经掌握的各方面知识和日常经验,您会对数据中的某些变量之间的关系形成一个初步判断。接下来的工作就是选择恰当的方法对这种关系作出统计推断。【实验步骤四】判断文化程度与家庭收入两变量间可能存在相关关系。【问题思考】1、本实验中,我们只是对给定数据演示了部分统计描述和统计推断的步骤。您是否还对其他内容感兴趣?尝试一下进一步完善统计描述和统计推断的其他步骤。2、您是否对家庭收入与未来三年两个变量之间的关系感兴趣?是否考虑过以家庭收入的多11/12少,来预测其未来三年是否购置新房?应当采用什么方法?如何预测?3、在实验步骤三和四中的卡方检验和F 检验中,如果显著性水平确定为0.01,统计决策的结果会有什么变化?【实验总结】结合实验内容参考上述操作步骤自主选择分析方法,并完成相关的 SPSS 操作,观察和整理输出及结果,得出分析结论。查阅有关资料,撰写一份主题明确、论证充分的分析报告。分析报告应包括以下要点:1、 问题的提出2、 变量设置的理由3、 数据搜集的基本方法和过程4、 数据的结构特点5、 分析方法的选择6、 分析过程中的主要步骤及其结果的评述7、 数据对有关模型理论假设的符合程度8、 分析结论12/12