摘要
本题是一个设计型题目,题目有数据量大,信息多的特点。
首先,我们分析数据库中数据,按一定规则将各大学排序,采用系统随机抽样的方法,外加地域性修正,把市场调查的范围从205所高校缩小到26所 。针对此26所学校进行问卷调查。我们分析调查所得数据,对于某出版社的市场份额,用与该出版社相关的问卷数与总问卷数的比值来衡量,从而得到三年各出版社市场份额的数据表格,并利用拟合的方法进行预测。
其次,我们还考虑到了问卷抽样调查过程中有可能出现的特殊情况,即:抽样无回答情况。我们利用两种补救无回答的二级抽样调查方法对此问题进行了解决,传统方法和贝叶斯方法,并对它们之间的异同作简略的概括和比较。此两种方法均是为降低非抽样误差、提高数据质量服务的。
再次,我们还提出了对按需印刷理论的新理解,从而大大减少了出版社的成本投入。在数据的验证中,我们将通过抽样调查得出的市场份额与分析总体得到的市场份额进行比较,求出相对误差。发现绝大多数数据误差不超过0.1,效果较好。在模型改进中,也提出了改进模型的新思路。
最后,我们还对题目进行了更加完备的讨论和使用说明,并在此题的基础上对出版社提出了意见和建议。
关键词: 系统随机抽样 地域性修正 补救无回答 二级抽样调查方法 按需印刷理论
一、问题背景
随着党中央国务院“十一五”发展规划的提出,我国的文化产业也受到了前所未有的重视,同时,“十一五”也宣告了出版产业面临着前所未有的挑战。 “十一五”期间,出版发行业将面临因特网、手机短信、数字出版等科技发展引发的对出版环境的影响,不少出版社和发行单位已经或者正在开始着手对自身未来发展的思考和规划,这种现象本身也是出版业理性回归的一个重要标志。对于出版发行单位而言,战略规划的最大价值在于它的过程,在于培养一种在市场经济环境中的系统思考与应变能力,而不仅仅是规划的结果。根据加入WTO的承诺,2006年是我国出版分销行业全面放开的最后一年,深化体制改革以应对入世,正在成为出版发行行业的重中之重。行业对竞争力的关注前所未有的重视,任何研究报告、市场调查、行业排名都会触动出版社敏感的神经。教育出版对出版社的竞争力影响大,经营成为最主要的提高竞争力的手段,形成了相对稳定的竞争力优势。因此,占据出版业优势地位的教材出版业更注重对市场的调查研究,对市场作出科学的评估和预测,我们需要的就是一种科学的调查、评估和预测方法。
二、问题重述
某出版社出版多类高等教育和职业教育的教材。从出版社的战略发展、投资策略、生产安排、销售方式、和产品策划等业务考虑,需要对出版社的市场占有率(市场份额)及其逐年变化进行调查。请你设计有效而可行的调查方法,并且建立调查数据的分析模型,以及对市场作出科学评估和预测的方法。
本题的附录中给出的基础数据是问卷式普查数据,由于抽样成本的限制,普查是不可取的,而且抽样数应该在调查目的的基础上尽量少。
题目说明
1. 由于抽样成本,普查不可取,但是抽样方法的样本数和调查效益之间有平衡关系,确定你的抽样数时应该考虑这种平衡关系。
2. 完整地描述你的调查方法,并且清楚地给出你的模拟数据。如果使用问卷式抽样调查(不限于问卷式),请给出问卷格式。
3. 给出基于调查数据的市场评估和预测模型,并用数据说明你的方法的有效性和科学性。
4. 在附录1中给出了一个参考的问卷格式,也给出与该问卷相关的一个数据库(附录4)。这个数据库是包含十个省,全部学生(为了减少数据量,假定全班学生填表相同,因此每个专业只有一个学生填写问卷)的模拟答卷(包括三年的),作为本竞赛题的背景数据
5. 附录2中给出供本题提供的数据库的29类教材名称以及分类号,附录3给出某出版社各类教材的三年销售量,可供查询。
6. 在附录4中也给出十个省所有学校名称以及其专业名称,你可以用在这些检索词确定你对数据库的取样查询。
7. 如果你自行选用数据,请给出调查数据的可靠性和合理性的检验方法和数据来源。
三、基本假设
为了便于我们从题目的整体理解,从出版社的战略发展、投资策略、生产安排、销售方式和产品策划等业务考虑,对出版社的市场占有率(市场份额)及其逐年变化进行调查。从而设计有效而可行的调查方法,并且建立调查数据的分析模型,以及对市场作出科学评估和预测的方法。我们在此做出合理的基本假设:
(1)在相当长的一段时期内教材出版业的市场是基本稳定的;
(2)社会环境稳定,社会政策关于出版业方面无较大调整;
(3)教育部门对教材的应用无较大变化;
(4)学校各专业无较大的变化,学校的人数不会有大幅度的增加或减少;
(5)教材出版社的数量基本稳定,经营状况起伏不大;
(6)出版社的经营情况良好,无意外事件发生;
(7)教材出版社出版的教材质量有保证,无质量问题;
四、问题的分析与模型的准备
一、问题的分析
鉴于本题的附录中所给出的数据较多,有:
(1)在附录1中给出了一个参考的问卷格式;
(2)在附录2中给出供本题提供的数据库的29类教材名称以及分类号;
(3)在附录3给出某出版社各类教材的三年销售量,可供查询;
(4)在附录4中给出十个省三年的原始数据以及相对应的学校专业名录;
(5)还可自行选用数据。
而且,题目中要求基础数据是问卷式普查数据,由于抽样成本的限制,普查不可取,抽样数应该在调查目的的基础上尽量少,所以,我们从以下方面考虑,处理数据,解决问题:
首先,我们分析数据库中数据,按一定规则将各大学排序,采用系统随机抽样的方法,外加地域性修正,把市场调查的范围从205所高校缩小到26所 。针对此26所学校进行问卷调查。我们分析调查所得数据,对于某出版社的市场份额,用与该出版社相关的问卷数与总问卷数的比值来衡量,从而得到三年各出版社市场份额的数据表格,并利用拟合的方法进行预测。
其次,我们还考虑到了问卷抽样调查过程中有可能出现的特殊情况,即:抽样无回答情况。我们利用两种补救无回答的二级抽样调查方法对此问题进行了解决,传统方法和贝叶斯方法,并对它们之间的异同作简略的概括和比较。此两种方法均是为降低非抽样误差、提高数据质量服务的。可以说在模型的应用一个非常好的补救方案,使我们的模型更加完整,更具有有效性和科学性。
再次,我们还提出了对按需印刷理论的新理解,从而大大减少了出版社的成本投入。在灵敏度分析中,我们还利用某出版社的数据对模型进行了验证,将模型推广到一般。
最后,我们还对题目进行了更加完备的讨论和使用说明,并在此题的基础上对出版社提出了意见和建议。
二、模型的准备(名词解释)
1、数据压缩
数据压缩是以信息损失最小为前提,简化或压缩数据以提高其传输、存储和处理效率的一种技术。考虑到数据量相当庞大,需要获取和处理的数据量较多,数据压缩是减少工作量、节省计算机时间的有效方法。可通过去掉间隔、空白段、冗余项目或不必要数据,只保留反映特征的数据等手段实现,达到在给定空间内增加所能存储的数据量,减少数据量所占的空间。数据压缩方法通常有:①削减。用外延或内插方法推算冗余数据并将其去掉;②参数抽出。即仅保留特征数据和参数;③等时间采样。按等时间间隔对连续输入的数据进行采样;④编码变换。将数据变成简化代码,或对每个数据块进行编码变换,其效率用每个像元的比特数来衡量;⑤函数应用。根据由等间隔或不等间隔采样得到必要的采样点,用函数算法推算出削减的数据。
2、无回答
所谓无回答是指出于某些原因,不能从所有的样本单位或问卷的所有问题中获得所需的信息。它可以是样本单位没有提供或者没有完全提供所需的信息,可以是所提供的信息中有一部分无法使用。无回答的调查者与回答的调查者通常具有不同的特征,因此如果对无回答不进行纠正的话,将会降低样本的有效性和代表性,使调查估计值产生偏差,从而降低调查的精度,甚至导致整个调查的失败。
3、二级抽样方法
二级抽样方法是人们常用的一种处理无回答问题的方法,它的基本思想是:对最初的无回答进行再一次的随机抽样,然后用最初样本的回答数据和子样本数据对总体进行估计,以消除无回答的偏差影响,提高估计量的精度。这种方法常用于邮寄调查中。下面我们将介绍两种补救无回答的二级抽样调查方法:传统方法和贝叶斯方法,并对它们之间的异同作简略的概括。
4、按需印刷
按需印刷(Print On Demand,简称POD)的本意是指按照不同时间、地点、数量、内容的需求,通过数码及超高速挽印技术实现出版行业整个流程的全新改造来适应个性化、短版化、高效率的现代市场需求。它尤其适用于一些定向较窄、专业性强、可变性强、批昼较小的印刷业务。按需印刷是先进的数据库技术和数字印刷技术相结合的产物。其 *** 作过程是先将图书内容数字化,然后用电子文件在专门的激光打印机上高速印制书页,并完成折页、配页、装订等工序。它具有印刷时间上的即时性,印刷数量、印刷内容的可变性和个性化等特点。
在此,我们利用它的引申意,按照市场所需的教材的数目进行印制。由于各高校对于教材的需求种类不同,所以,很需要这么一种模式来满足客户的需求,因此,我们在此提出按需印刷模式。
同时,按需印刷采用即时供货结账的方式,使出版社节省了图书储存空间。实现“零库存”,而且还能解决图书绝版及印数问题。通过按需印刷,出版社可摆脱图书印刷、库存、运输、投资所带来的资金风险和发行量的压力,节省成本。
五、模型的建立与预测
(一)、抽样调查方法的陈述
我们的抽样调查可分前期、中期、后期三个工作阶段,即“样本-数据-分析”。前期工作是进行抽样设计获得调查单位名单,解决向谁搜集统计资料的问题(样本);中期工作是对抽选的调查单位进行统计调查,获得统计数据并对数据进行必要整理,提供准确的、可供统计分析的数据,解决数据获取和数据格式问题;后期工作是利用统计软件对调查和整理得到的数据进行统计分析,得出科学的分析结论,达到统计工作的最终目的(分析)。三者相辅相成,缺一不可。
抽样调查所考虑的问题在实际抽样调查中无外乎包括以下三个方面: 调查指标估计的精度;调查成本的高低;样本的容量。在抽样调查方案设计中以上三个方面是相互矛盾的。因此,在抽样调查方案设计中应当根据实际对以上三个方面问题进行重要性排序,一般情况下,调查指标估计的精度是最重要的,其次应当考虑调查成本,最后再考虑样本容量。
所以, 抽样调查方案设计中三个问题的优先级:
( I 是优先级)
以下是我们归纳的抽样调查的步骤:
5.1、抽样的目的
抽样的目的是从已有的普查数据库中选取有代表性的数据,即数据压缩。通过数据压缩,得到误差允许范围内的数据,从而对市场进行科学的评估和预测。
5.2、抽样的基本原则
为了掌握市场的情况,所抽得的数据应该具有全面性和代表性,这是抽样的基本原则。
5.3、常用的抽样方法(简述)
抽样方法可分为概率抽样和非概率抽样两大类。由于非概率抽样结果的可能性不能准确地计量,一般都使用概率抽样方法,简单随机抽样、分层随机抽样和系统随机抽样均属概率抽样方法。
1. 简单随机抽样
简单随机抽样是指“从含有N 个个体的总体中抽取n 个个体,使包含有n 个个体的所有可能的组合被抽取的可能性都相等”。采用此方法抽样时,数据库中的每个数据被抽入样本的机会均等,它是完全不带主观限制条件的随机抽样法。它是一个基本的随机抽样方法,也是其他随机抽样方法的基础。
2. 分层随机抽样
有时产品可分为若干层,各层产品质量存在明显的差异,为了取得有代表性的样本,把整批产品分为若干层,使同一层内产品质量尽可能均匀整齐,在各层内分别随机抽取一些产品,合在一起组成一个样本,这样的抽样方法叫分层随机抽样。在正确分层的前提下,分层抽样的代表性比简单随机抽样好,但是如果对批质量的分布不了解或分层不正确,则分层抽样的效果会适得其反。
3. 系统随机抽样
如果一个批的产品可按一定的顺序排列,并可将其分为数量相当的n 个部分,从每个部分按简单随机抽样方法确定的相同位置,各抽取一个单位产品构成一个样本,这样的抽样方法称为系统随机抽样。它的代表性在一般情况下比简单随机抽样要好些,但在产品质量波动周期与抽样间隔相当时,抽到的样本单位可能都是质量好的或都是质量差的产品,此时代表性就较差。
5.4、抽样方法的正确选择
为了更好的评估和预测市场,选择合适的抽样方法是非常重要的。
1. 当数据比较稳定,数据并不多时,选择简单随机抽样,在对总体质量一无所知的情况下,也应选择简单随机抽样。
2. 当不同的数据来自不同的地域时,为了取得有代表性的样本, 可以采用分层随机抽样。
3. 当数据不稳定,中间相差较大时,应采用系统随机抽样。
根据实际情况, 选择正确合理的抽样方法,提高样本的代表性和随机性, 从而提高抽样的有效性, 是十分重要的。只有科学、合理、有效地实施抽样,才能使我们的要求得以实现。
为此,我们针对此题数据多,地域性广,各类书籍需求量相差很大等特点,综合考虑三种抽样方法,采取以系统抽样为主,其它抽样为辅的方法,利用数据压缩解决抽样问题。
同时,我们还应用了Excel软件,Excel软件在统计分析方面的功能虽不及专业统计软件(如SPSS、SAS等),但它那强大的、灵活易用的数据管理和整理功能是专业统计软件所不能及的。因此,我们在处理数据方面较多的利用了Excel软件,使我们的处理数据的速度大大加快。
抽样调查问卷采用题中给出格式。
(二)、模型的建立
首先,我们从数据库中查询出一些有用数据,先写在下面。
1.学科类别 29类
2.出版社数目 25个
3.大学数量 205所 ,各个省市对应的大学数量见下(表一):
北京 广东 河北 安徽 河南 福建 广西 甘肃 贵州 海南
49 30 26 24 24 14 13 12 9 4
(表一)
4.基于数据库中全部数据,每一年收回问卷数中与该出版社有关的问卷数目,见(表二):
出版社 第一年与出版社有关的问卷数目 第二年与出版社有关的问卷数目 第三年与出版社有关的问卷数目
p196 325 323 327
p559 328 336 346
p106 353 352 351
p199 380 379 393
p307 406 411 418
p102 444 451 452
p131 476 475 472
p511 490 495 503
p030 497 503 512
p063 506 508 515
p416 640 637 635
p304 654 661 666
p110 747 754 764
p246 773 778 781
p432 871 870 868
p091 910 913 913
p118 1002 1015 1031
p210 1308 1311 1308
p044 1606 1604 1602
p390 2041 2035 2025
p405 3098 3162 3227
p534 4021 4001 3983
p293 5095 4947 4767
p115 18267 18116 17967
p357 20490 20646 20812
(表二)
分析:题目说明4中,说明了一份问卷的意义。在一份问卷上出现一个出版社的名字,说明填写该问卷的学生所在的整个专业,使用该出版社的教材。我们可以假设,总体上说,专业平均的人数相同,则某一年与某出版社对应的问卷数目越大,在该出版社购书的人越多,说明该出版社的市场占有率越大。
5. 基于数据库中全部数据,可以考察每一年各个大学的购书情况。我们可以统计出各个大学的学生填写问卷的数目。根据我们的假设,问卷数越大,学校对书的需求量越大。
我们按不同大学对应的问卷数目降序排列。同时,经分析发现,各大学三年的问卷数目并没有发生变化,因此各大学的排名也不会发生变化,因此,三年的问卷数目都可以按第一年的情况考虑。
由于大学数目有205所,我们分析得到的各大学排名数据仍然很多,在这里我们省略。
下面我们来分析每一个问卷数目段中的大学数量:见(表三)
某大学的填写问卷数目 大学的数量
700~799 1
600~699 7
500~599 34
400~499 34
300~399 39
200~299 38
100~199 20
0~99 32
(表三)
据此,我们采取系统随机抽样,对于按填写问卷数目降序排列的205大学,将其分为数量相当的26个部分(按照排名,每8个学校为一个部分,前25部分满额,第26部分有空缺)。对于每个部分,采用简单随机抽样确定相同的位置(本题选用每一部分的第一个位置)。
下面我们来考察我们现在确定的方案是否符合数据的“全面性、地域性和代表性”
见(表四)
省份 北京 广东 河北 安徽 河南 福建 广西 甘肃 贵州 海南
共有大学数量 49 30 26 24 24 14 13 12 9 4
选取大学数量 7 4 3 5 1 3 0 1 1 1
(表四)
从表格中我们看出,个别数据并不能很好的体现地域性和代表性。我们需要对系统随机抽样的结果作出人为的微调。举例来说,我们可以把某一所安徽省的学校换为和它排名相差较小的广西省的学校。
最后,我们确定的学校数量如下(表五):
省份 北京 广东 河北 安徽 河南 福建 广西 甘肃 贵州 海南
共有大学数量 49 30 26 24 24 14 13 12 9 4
调整后选取大学数量 6 4 3 3 3 2 2 1 1 1
(表五)
最终我们所选出来具体的大学,结果见下(表六):
郑州大学 福州大学 广西民族学院 北京理工大学 中国农业大学 贵州工业大学 河北农业大学 北京联合大学
河南省 福建省 广西 北京市 北京市 贵州省 河北省 北京市
744 597 552 542 519 507 470 451
续上表
海南大学 广西师范大学 茂名学院 郑州航空工业管理学院 北京广播学院 商丘师范学院 湛江师范学院 北京机械工业学院
海南省 广西 广东省 河南省 北京市 河南省 广东省 北京市
414 405 385 369 342 305 301 276
续上表
唐山师范学院 河西学院 仲恺农业技术学院 巢湖学院 福建医科大学 北京电子科技学院 安徽医科大学 安徽中医学院
河北省 甘肃省 广东省 安徽省 福建省 北京市 安徽省 安徽省
253 239 208 204 138 103 77 68
续上表
中国人民武装警察部队学院 广州体育学院
河北省 广东省
35 32
(表六)
总结我们的调查方法,是:在205所学校中,选取部分学校作为代表,接受问卷调查。学校的选取方法为:总体采用系统随机抽样的方法,但为了保证“全面性、地域性和代表性”,也对抽样方法作了一些修正。我们选取了如上26所高校作为发放调查问卷的对象。
下面,我们根据上述调查方法,从数据库中分别找出第一年26所大学对应每个出版社的问卷数目。我们采用Excel软件进行处理,得出第一年每个出版社对应26所大学的问卷数目的和。
对应表格如下(表七):
出版社 P559 P199 P102 P106 P196 P307 P304 P030 P131 P511 P063 P416
问卷数目 38 45 47 47 49 55 59 64 67 68 72 85
续上表
P110 P246 P091 P118 P432 P210 P044 P390 P405 P534 P293 P115 P357
88 99 118 119 119 160 204 266 378 515 631 2507 2657
(表七)
我们利用Matlab软件,也表示出了第一年每一个出版社对应的问卷数目与总问卷数目的比值如下(表八):
出版社 P559 P199 P102 P106 P196 P307 P304 P030 P131 P511 P063 P416
问卷比例 0.0044 0.0053 0.0055 0.0055 0.0057 0.0064 0.0069 0.0075 0.0078 0.0079 0.0084 0.0099
续上表
P110 P246 P091 P118 P432 P210 P044 P390 P405 P534 P293 P115 P357
0.0103 0.0116 0.0138 0.0139 0.0139 0.0187 0.0238 0.0311 0.0442 0.0602 0.0737 0.2930 0.3105
(表八)
基于原来的假设和说明,我们可以用它来考察市场占有率。相应的,也可以求出第二年,第三年每一个出版社对应的问卷数目与总问卷数目的比值。
下面给出第二年的结果,见(表九)
出版社 P559 P199 P106 P102 P196 P307 P304 P131 P030 P511 P416 P110
问卷比例 0.0044 0.0051 0.0055 0.0058 0.0061 0.0065 0.0069 0.0072 0.0076 0.0083 0.0098 0.0105
续上表
P063 P246 P432 P118 p091 P210 p044 P390 P405 P534 P293 P115 P357
0.0107 0.0118 0.0138 0.0141 0.0139 0.0185 0.0259 0.031 0.0447 0.0595 0.0711 0.2886 0.3123
(表九)
六、模型的误差分析
运用Matlab软件,可以求出基于数据库全部数据时,每一年每一个出版社对应的问卷数目与总问卷数目的比值。
对于我们的采样方法,以第一年为例,我们可以计算两个比值之间的相对误差,以此来检验我们的方法。
表格见(表十)
P196
p559 p106 P199
p307 p102 p131 p511 p030 p063 p416 p304
标准 0.0049 0.0050 0.0054 0.0058 0.0062 0.0068 0.0072 0.0075 0.0076 0.0077 0.0097 0.0100
测量 0.0057 0.0044 0.0055 0.0053 0.0064 0.0055 0.0078 0.0079 0.0075 0.0084 0.0099 0.0069
误差 16.3% 12.0% 1.8% 8.6% 3.2% 19.1% 8.3% 5.3% 1.3% 9.1% 2.1% 31%
续上表
P110 p246 p432 p091 p118 p210 p044 p390 p405 p534 p293 p115 p357
0.0114 0.0118 0.0133 0.0138 0.0152 0.0199 0.0244 0.0311 0.0471 0.0612 0.0775 0.2779 0.3117
0.0103 0.0116 0.0139 0.0138 0.0139 0.0187 0.0238 0.0311 0.0442 0.0602 0.0737 0.2930 0.3105
9.6% 1.7% 4.5% 0 8.6% 6% 2.5% 0 6.2% 1.6% 4.9% 5.4% 0.4%
(表十)
由上面表格可以看出,除个别组外,其余各组的相对误差均小于0.1。可见我们的方法在精度要求范围内较好。
七、模型的验证及改进
从出版社的角度考虑,在印刷方面,我们提出按需印刷理论。为了验证模型的有效性和科学性,我们按地区划分,将10个省市三年的售书情况进行了统计,然后我们利用Excel软件对数据进行了处理,并作出直观的图表,借以26所大学的选取进行验证。
某出版社三年内在10个省市的售书情况:
1. 表格见(表十一):
北京市 广东省 河南省 河北省 安徽省 福建省 甘肃省 广西省 贵州省 海南省 合计
第一年 3934 2837 2544 2374 1998 1400 1136 1017 844 290 18374
第二年 3902 2809 2533 2354 1980 1396 1133 1017 838 282 18244
第三年 3870 2773 2504 2315 1963 1378 1122 1009 830 283 18047
合计 11706 8419 7581 7043 5941 4174 3391 3043 2512 855 54655
平均值 3902 2807 2527 2348 1981 1932 1131 1015 838 285 18222
排名 1 2 3 4 5 6 7 8 9 10
(表十一)
由表格我们可以看出:
(1)10个省市,每个省市三年中书的销售数量基本相同,每年数量相差不大;
(2)在三年中,每一年,10个省市书的总销售量基本相同,平均每年销售18222册;
(3)通过三年的比较,可以得出10个省市每年的售书情况及其排名。
2.作图如下:
(图一)为三年10各省市的售书情况的自然条形图
(图一)
(图二)为三年10各省市的售书情况的比例圆饼图
(图二)
通过作图,我们可以看出:
(1)北京市三年内售书最多,达到了21.4%;广东省其次,达到了15.4%;河南省紧跟其后,达到了13.9%;它们三个省市的售书量已达到50.7%,超过了一半。
(2)北京市、广东省、河南省、河北省、安徽省、福建省五省的售书量均超过 10%,其五省的总销售量达到了74.5%。
我们根据(附录),可以求出基于我们的模型,P115出版社各个省份所占的百分比,如下(表十二)
省份 北京 广东 河北 安徽 河南 福建 广西 甘肃 贵州 海南
百分比 25.4% 10.2% 10.2% 4.7% 18.1% 7.9% 10.4% 3.3% 4.5% 5.4%
(表十二)
可以看出,和圆饼图相比,一些省份的数据有所出入。
据此,我们找到了模型的改进方向。在选取大学的时候,不仅做到系统随机抽样和地域性修正,还要做到各个省份学校分布相对均衡。这样所得结果必定效果更好。
八、模型的补救方案
在这里,我们将介绍两种补救无回答的二级抽样调查方法:传统方法和贝叶斯方法,并对它们之间的异同作简略的概括。
一、传统的二级抽样方法
传统的二级抽样方法最早由Hansen和Hurwitz提出来的。它以传统的统计推论为基础,用简单随机的抽样的方法对总体进行第一次抽样,取得回答单位的观测值及回答单位权重的估计,然后在无回答单位中再随机抽出一个子样本进行调查,取得无回答单位的信息,最后把这两部分调查结果结合起来,对总体作出推断估计。这种方法实际上是一种分层的二级抽样,总体被分为两层,即回答层和无回答层。
设总体容量为N,其中有 个回答者和 个无回答者, ,随机抽取最初样本,样本容量为 ,其中有 个回答者,样本均值为 ;有 个无回答者, 。然后从 中随机抽取一个子样本 ,其抽样比 ,样本均值为 。总体回答率 ,总体无回答率为 , 。则二级抽样总体均值的估计量为: (1)
根据二级抽样的抽样方差公式可得:
(2)
其中, 是样本方差, 是无回答层的方差。
可以看出,总体方差的第一项受最初样本 大小的影响,而第二项不仅受 的影响还受无回答者子样本抽样比 的影响。当 时,方差第二项为零,就是说所有调查者都进行了回答,收集到了全部的数据,它相当于样本量为 的简单随机抽样。
由于考虑上面方差公式中 项与样本的分配无关,所以改写成:
(3)
如果考虑二级抽样中两次调查的费用差异,则总费用函数可记为:
(4)
其中 为最初样本每单位的调查费用, 为
学号 1课程 设 计课程名称 《数据库系统原理》课程设计
题 目 书店销售管理系统
专 业
班 级
姓 名
成 绩
指 导 老 师
2019 年 12 月 30 日至 2019 年 1月 3日一、课程设计目的与任务《数据库系统原理课程设计》是针对计算机专业基础课《数据库系统原理》开设的课程设计,目的是使学生通过本课程设计之后,对数据库设计的基本概念、基本原理和优化技术有较全面的了解和领会,并能 *** 作当前流行的DBMS,了解数据库在计算机应用系统的作用,独立地开发实现一个小型的基于DBMS上的应用系统。结合具体的开发案例,理解并初步掌握数据库系统需求分析、概念结构设计、逻辑结构设计、物理结构设计、应用功能设计(视图,索引,游标,存储过程,触发器等)数据录入及测试等系统设计与系统实施及维护管理的主要环节和步骤以及软件文档的制作能力。二、课程设计的题目与基本要求1.设计题目:书店销售管理系统数据库设计2.基本要求:(1)图书入库管理:维护入库图书信息(如图书编号、书名、作者、价格、图书分类、出版社等),自动计算库存。(2)图书查询统计:按图书分类,出版社、书名、作者等条件查询图书的详细信息。(3)销售管理: 销售过的图书都记录在销售列表中,方便统计收入。图书销售后,实时记录图书库存,按每天统计销售额、按每个月或季度统计销售额,并能根据销售数量统计生成畅销书名单。(4)设计报告内容包括:基本原理、设计方案的选择与确定,详细的设计过程及结果做出评价,分析存在的问题,提出改进意见并写出心得体会。三、学时分配进度安排
序号 设计内容 所用时间
1 选题及调研 1天
2 数据库结构设计 1天
3 数据库查询优化 1天
4 调试及撰写报告 1天
5 答辩 1天
合计 1周
四、课程设计考核及评分标准1.设计报告要求课程设计报告要求逻辑清晰、层次分明、书写整洁。格式包括标题、提要、正文(包括①设计项目要求与说明。②数据模型分析。③软件流程分析。④调试分析。⑤实验数据分析。⑥答辩。⑦成绩评定。)附录(图纸、程序清单或软盘)。设计报告须每人一份,独立完成。2.图纸要求系统结构框图、概念模型图等。3.评分标准
评分依据 评分成绩
1.设计方案正确,具有可行性、创新性 30分
2.数据库测试性能达到任务书要求 25分
3.设计报告的规范化、内容充实、参考文献 15分
4.答辩 20分
5.平时成绩(考勤等) 10分
总分 100分
注:成绩等级:优(90分—100分)、良(80分—89分)、中(70分—79分)、及格(60分—69分)、60分以下为不及格。五、指导时间
周次 星期一 星期二 星期三 星期四 星期五
第17周 第3-4节 第3-4节 第3-4节 第3-4节
地点 233 231 现教 现教
1.引言Internet的迅速发展正以前所未有的深度和广度影响和改善着人类生活的各个方面,越来越多的人开始意识到Internet所起到的重大作用随着书店规模的不断扩大,员工人数的不断增多,使得书店管理的手工 *** 作管理模式的局限性越发突出.本书店管理系统应用了科学的管理模式对员工.书籍.订单信息进行管理和维护,并且还提供了给类报表的打印,使原本非常复杂的手工管理变得简洁明了。计算机信息管理技术的应用,除了能在相当大的程度.上代替人工作业,从而减少人员工作量,减轻工作负担,减少工作中因人为原因而产生的错误从而避免不必要的损失外,更重要的是能建立准确畅通、简便的信息流通渠道,为工作提供所需要的准确、及时的信息以帮助做出正确而及时的选择与决定,从而给采用这门]技术的单位带来了巨大的可见或不可见的利益与效益。2.需求阶段分析2.1需求分析书店管理系统是适应时代发展的需要,提高管理的效率而开发设计的。通过对信息的收集、存储、传递、统计、分析、综合查询、报表输出和信息共享,及时为书店管理人员提供全面、准确的各种数据。实现了书店管理的简单化和规划化,提高了书店的工作效率,从而使书店能够以少的投入获得更好的社会效益与经济效益。2.2数据分析顾客表:应包含顾客号,顾客姓名以及顾客联系方式订单表:应包含订单号,销售图书号,销售数量,金额以及日期图书表:应包含图书编号,图书名,作者,单价,类别和出版社库存表:应包含图书编号,总量和余量2.3功能分析数据库应实现的功能有:(1)图书入库管理:维护入库图书信息(如图书编号、书名、作者、价格、图书分类、出版社等),自动计算库存。(2)按图书分类,出版社、书名、作者等条件查询图书的详细信息。(3)销售过的图书都记录,并且能显示每种图书的销售量,将销售量高的图书定为热销书,能够查询出某一天到某一天的销售额以及订单消息2.3.1书籍管理功能系统设置包括图书名称设置、书籍编号、书籍出版社、书籍价格、书籍类别。基本信息管理模块可以实现添加和重置书籍信息功能。
2.3.2订单管理功能系统设置包括顾客姓名设置、订单日期设置、订单编号设置、订单数量设置、订单金额设置。基本信息管理模块可以实现对订单的查询。2.3.3顾客管理功能系统设置包括顾客编号设置、顾客姓名设置、顾客联系方式设置。基本信息管理模块可以实现对顾客的查询。2.3.4库存管理功能系统设置包括图书编号、图书总量、图书余量设置。基本信息管理模块可以实现对图书数量的查询2.4安全性和完整性要求(1)安全性要求 :系统安全性要求体现在数据库安全性、信息安全性和系统平台的安全性等方面。安全性先通过视图机制,不同的用户只能访问系统授权的视图,这样可提供系统数据一定程度上的安全性,再通过分配权限、设置权限级别来区别对待不同 *** 作者对数据库的 *** 作来提高数据库的安全性;系统平台的安全性体现在 *** 作系统的安全性、计算机系统的安全性和网络体系的安全性等方面。(2)完整性要求:系统完整性要求系统中数据的正确性以及相容性。可通过建立主、外键,使用check约束,或者通过使用触发器和级联更新。3 .结构设计3.1总体功能模块图图3.13.2书籍信息模块图图3.23.3订单信息模块图图3.33.4顾客信息模块图图3.43.5数据字典表3.5.1顾客表
列名 数据类型 约束
顾客号(Gno) Char(7) primary key
姓名(Gname) Nchar(20) Not null
联系方式(Gnumber) Char(20)
表3.5.2订单表
列名 数据类型 约束
订单号(Dno) Char(7) primary key
购买图书号(Bno) Char(7) primary key
购买数量(Dshul) Int Not null
金额(Dmoney) Int Not null
日期(Dtime) Smalldatetime Not null
顾客号(Gno) Char(7) External code
表3.5.3 图书表
列名 数据类型 约束
编号(Bno) Char(7) primary key
书名(Bname) nchar (20) not null
作者(Bwriter) nchar (20) not null
价格(Bjiage) Int not null
类别(Bleibie) nchar (20) not null
出版社(Bcbs) nchar (20) not null
表3.5.4库存表
列名 数据类型 约束
编号(Bno) Char(7) Primary key
总量(Kzong) Int Not null
余量(Kyu) Int
3.6 ER图设计3.6..1顾客ER图3.6.2 图书ER图图3.6.3图3.6.4图3.6.54 逻辑结构设计4.1 关系模型顾客与订单是1:m类型 订单与库存是1:1类型 库存与图书是1:m类型 关系模型如下:顾客表(顾客号、姓名、联系方式)订单表(订单号、购买图书号、购买数量、金额、日期、顾客号)图书表(编号、书名、作者、价格、类别、出版社)库存表(编号、总量、余量)(——代表主键,...代表外码)4.2 函数依赖在顾客表中,顾客号是主码,其它属性完全依赖于顾客号在订单表中,订单号是主码,顾客号是外码,其余属性完全依赖于订单号在图书表中,编号是主码,其余属性完全依赖于编号在库存表中,编号是主码,其余属性完全依赖于编号5.物理结构设计5.1创建图书表use books /*创建图书表*/create table book(Bno char (7) primary key,Bname nchar (20) not null,Bwirter nchar (20) not null,Bjiage int not null,Bleibie nchar (20) not null,Bcbs nchar (20) not null,)5.2 创建顾客表use books /* 创建顾客表*/create table guke(Gno char(7) primary key,Gname nchar (20) not null,Gnumber char(20),)5.3创建库存表use books /*创建库存表*/Create table kucun(Bno char(7) primary key,
Kzong int not null,Kyu int,)5.4创建订单表use books /*创建订单表*/Create table Dingdan(Dno char(7) primary key,Bno char(7) primary key,Dshul int not null,Dmoney int not null,Dtime smalldatetime not null,Gno char(10) not null,)6 数据库的实施6.1 给各个表添加数据例use books /*给图书表添加一行数据*/insert into bookvalues('101','白夜行','东野圭吾','30','侦探','天空出版社')使用语句添加完数据的表如下:6.1.1图书表6.1.2订单表6.1.3 顾客表6.1.4库存表6.2创建存储过程6.2.1图书的存储过程create proc tushu@Bno char(7),@Bname nchar(20),@Bwirter nchar(20),@Bjiage int, @Bleibie nchar(20),@Bcbs nchar(20),@MM INTasif not exists (select * from bookwhere Bno=@Bno)BEGINinsert into bookvalues (@Bno,@Bname,@Bwirter,@Bjiage,@Bleibie,@Bcbs)INSERT INTO KucunVALUES (@Bno,@MM,@MM)ENDELSEBEGINUPDATE KucunSET Kzong=KZONG+@MMWHERE BNO=@BNOUPDATE KucunSET KYU=KYU+@MM
WHERE BNO=@BNOEND图5.2.16.2.2顾客的存储过程create proc gukecun@Gno char(7),@gname nchar(10),@gnumber nchar(20)asinsert into gukevalues (@Gno,@gname,@gnumber )图5.2.26.2.3 订单的存储过程create proc dingdan@dno char(10),@Bno char(10),@Dshul int,@Dtime smalldatetime, @Gno char(10)asdeclare @Dmoney intselect @Dmoney=@Dshul*Bjiagefrom book,Dingdaninsert into Dingdanvalues (@dno,@Bno,@Dshul,@Dmoney,@Dtime,@Gno)图5.2.36.3 创建触发器针对图书信息表创建一个触发器,当向表book插入一条信息时,自动显示表中book中的记录create trigger 插入显示on bookfor insertasSelect * from bookInsert into book values('115','幻想之城','中此撒','30','悬疑','飒飒我出版社')6.4 建立视图6.4.1建立视图建立一个图书类别为侦探的视图,包括图书编号,图书名,作者,单价以及图书总量和余量create view v_leibieasselect book.Bno ,bname,bwirter,bjiage,kzong,kyufrom book,Kucunwhere book.Bno =Kucun.Bno and Bleibie ='侦探'图6.4.1图6.4.26.5 调试运行6.5.1查询姓张的顾客的购买记录select * from Dingdan
where Gno in (select Gno from gukewhere Gname like '张%')图6.5.16.5.2 添加一条图书信息后图书表以及库存表的显示exec tushu'115','幻想之城','中此撒','30','悬疑','飒飒我出版社','60'图6.5.2图6.5.36.5.3 查询销售量在10本以上的书,以此为畅销书select SUM(dshul),bnofrom Dingdangroup by Bnohaving SUM(Dshul)>10图6.5.46.5.4查询某一天的销售额select sum (Dmoney )总金额 from Dingdanwhere Dtime between '2019-11-01 'and '2019-11-02'图6.5.57.设计体会一个个星期的时间非常快就过去了,这一个星期不敢说自己有多大的进步。获得了多少如识,但起码是了解了项目开发的部分过程。虽说上过数据库的课程,但是没有亲身经历过相关的设计工作细节。这次课程设计刚好提供了一个很好的机会。通过这次课程设计发现这其中需要的很多知识我们都接触过,去图书馆查资料的时侯发现我们前边所学到的仅仅是皮毛还有很多需要我们掌握的东西我们根本不知道。同时也发现有很多已经学过的东西我们没有理解到位,不能灵活运用于实际,不能很好的用来解决问题,这就需要我们不断的大量的实践,通过不断的自学,不断地发现问题,思考问题,进而解决问题。在这个过程中我们将深刻理解所学知识,同时也可以学到不少很实用的东西。本次课程设计即将结束,我完成了自己所选的课题。通过完成这次课程设计,我加深了对相关知识的理解,加强了知识之间的联吊,促进了知识的迁移和应用。从需求分析、概念结构设计、逻辑结构设计、物理结构设计。亲身体验了一回系统的设计开发过程。很多东西书上写的很清楚,貌似看着也很简单,思路非常清晰。但真正需要自己想办法去设计一个系统的时候才发现其中的难度。经常做到后面突然就发现自己-开始的设计有问题,然后又回去翻工在各种反复中不断完善自己的想法。
致谢在这次数据库的课程设计过程中,我选择了书店销售管理系统的设计与实现。该系统能够顺利的完成,得益于老师的悉心指导和同学的帮助。更重要的是老师帮我们解决了许多技术的难题,以至于我们能够将书店销售管理系统的功能做得尽可能的完善。在这过程中,我周围的同学给了我许多启发,让我把书店销售管理系统设计的更加完善,老师渊博的知识、开阔的视野和敏锐的思维给了我深深的启迪,使我不仅了解到许多新知识、开阔了视野,更提高了自身的数据库设计能力。另外,感谢老师给我们提供这样-一个课程设计的机会,使我们在学得专业知识的基础上能够自己动手并独立地完成数据库的设计与开发,使我们能够更多的学习-些实践应用知识,增强实际 *** 作和动手应用能力。最后,我再一次感谢在整个课程设计期间,在各个方面给予我们帮助的老师和同学,正是因为有了你们的帮助,才使我们的课程设计得以顺利完成。参考文献[1]李彦,韩光林,李玉波. SQL SERVE完全自学手册[M].北京:电子工业出版社,2007[2]萨师煊,王珊.数据库系统概论.北京:高等教育出版社.2005[3]Y.Daniel Liang.Java.万波. JAVA语言程序设计[M].第六版.北京:机械工业出版社,2008[4]《数据库原理及应用》 ,钱雪忠主编,北京邮电大学出版社,2007,第二版[5]《SQL server 2000数据仓库与Analysis Services》,Bain T著 ,中国电力出版社, 2003[6]《数据库技术与联机分析处理》 王珊主编,北京科学出版社,1998课程设计成绩评定表
课程设计题目 书店销售管理系统
课程设计学生答辩或质疑记录:
评 分 依 据 分 值 评分成绩
1.设计方案正确,具有可行性、创新性 30 分
2.系统调试与结果(系统功能正确、软件程序完整) 25分
3.设计报告的规范化、内容充实、参考文献 15分
4.平时成绩(考勤等) 10分
5.答辩 20分
总 分 100分
最终评定等级为:指导老师签字: 年月日
¥
5.9
百度文库VIP限时优惠现在开通,立享6亿+VIP内容
立即获取
书店销售管理系统数据库设计
学号 1
课程 设 计
课程名称 《数据库系统原理》课程设计
题 目 书店销售管理系统
专 业
班 级
姓 名
成 绩
指 导 老 师
2019 年 12 月 30 日至 2019 年 1月 3日
一、课程设计目的与任务
第 1 页
《数据库系统原理课程设计》是针对计算机专业基础课《数据库系统原理》开设的课程设计,目的是使学生通过本课程设计之后,对数据库设计的基本概念、基本原理和优化技术有较全面的了解和领会,并能 *** 作当前流行的DBMS,了解数据库在计算机应用系统的作用,独立地开发实现一个小型的基于DBMS上的应用系统。结合具体的开发案例,理解并初步掌握数据库系统需求分析、概念结构设计、逻辑结构设计、物理结构设计、应用功能设计(视图,索引,游标,存储过程,触发器等)数据录入及测试等系统设计与系统实施及维护管理的主要环节和步骤以及软件文档的制作能力。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)