调查程序和方法,数据调查
1. 数据调查的方式
(1)统计数据的调查的概念统计数据的调查就是根据统计研究目的要求,对所研究总体中个体的相应特征进行观测记录取得数据的工作过程。保证所调查到的数据资料具有代表性和真实性是对统计资料调查的基本要求。
(2)统计数据调查方式的分类根据研究目的和研究对象的不同,统计数据的调查方式主要有现场调查和试验观测两种。
① 现场调查是指为了了解客观对象的实际情况而对其进行的直观的观测。
② 试验观测是为了揭示事物之间的因果关系而在
数据调查的方式与程序
1. 数据调查的方式
(1)统计数据的调查的概念统计数据的调查就是根据统计研究目的要求,对所研究总体中个体的相应特征进行观测记录取得数据的工作过程。保证所调查到的数据资料具有代表性和真实性是对统计资料调查的基本要求。
(2)统计数据调查方式的分类根据研究目的和研究对象的不同,统计数据的调查方式主要有现场调查和试验观测两种。
① 现场调查是指为了了解客观对象的实际情况而对其进行的直观的观测。
② 试验观测是为了揭示事物之间的因果关系而在人为安排的环境条件下对所研究对象进行观测。
2. 数据调查的一般程序
数据资料的调查活动是一项非常复杂而又细致的工作,其工作程序主要由制订数据调查的方案、现场观察登记取得数据以及数据的整理与显示三个环节组成。
(1)数据调查方案的制订一般来说,一个完整的数据调查方案应包括以下几个方面的内容:
① 确定调查目的确定调查目的是调查方案必须明确的首要问题。数据调查目的是调查项目和调查方法选择的依据和出发点,数据调查的目的不同,调查的项目和使用方法也有所不同。因此,调查的目的应该具体明确。
② 确定调查对象和调查单位所谓调查对象是指需要进行调查的客观现象总体,它是由性质上相同的许多个体所组成的集合体。确定调查对象就是要明确规定总体的界限,以防止在调查过程中产生重复和遗漏。
③ 确定调查项目和调查表调查项目就是调查中所要登记的调查单位特征。拟定调查项目应注意以下问题:
a.调查项目的确定必须依据研究的目的来进行。使其既能够反映研究的目的需要,又能在力所能及的条件下取得所需的项目资料。
b.调查项目必须明确、具体,使人一目了然。
c.调查项目之间应彼此衔接,这样既能对现象从整体上全面了解,又便于有关项目相互核对,以便提高调查资料的质量。
④ 确定调查时间和调查期限调查时间是指调查资料所属的时间。在具体调查活动中,如果所调查的客观现象属于时期现象,就要明确规定调查资料所反映的起止时间。调查期限则是指进行调查工作的时限,包括搜集资料和报送资料的工作所需要的时间。任何调查都应尽可能缩短调查期限来保证统计资料的准确性和时效性。
⑤ 调查的组织实施调查组织工作包括调查机构的设立,组织和培训调查人员,落实调查经费的来源,编制调查经费的使用预算,以及确定调查资料的报送方法和公布调查结果的时间等。
(2)现场观测登记现场观测登记是数据调查活动中工作量最大的一个环节,在一些社会经济现象的大规模现场调查中如全国人口普查,往往需要组织众多的人员参加才能完成这一环节的任务。
(3)数据的整理显示调查得到各种数据资料以后,接着还需要对其加以整理,使之系统化、条理化,并需采用一定的方法将其显示出来,这就是资料的整理显示。
现场调查
1. 调查的抽样方式
现场调查的主要目的是要了解研究对象的实际状况。它是在研究对象处于自然环境的条件下对其进行的观测,其主要适用于对自然和社会经济现象的数据调查。在进行抽样调查时,由于样本的抽样方式通常有随机抽取和非随机抽取两种,相应的现场调查也就分为随机抽样调查和非随机抽样调查两种。
(1)随机抽样调查随机抽样调查又称为概率抽样调查。它是指在抽样调查中,被调查总体中的每个个体被抽中或不被抽中的概率是相同的。也可以理解为调查样本的抽取式完全随机的,即样本中的个体完全是凭机遇抽取出来的,并且每个可能的样本被抽出的概率大小是可以计算的。在实际抽样调查工作中,随机抽样调查的基本方法主要有下列几种:
① 简单随机抽样简单随机抽样时以总体中的个体为抽样单位,并使得每个个体被抽中的机会都相等的一
数据的调查与整理
种抽样方式。简单随机抽样是最基本的随机抽样方式,它也可利用随机数表法抽签或摇号法得以实现。
② 等距抽样这种抽样方式又称为系统抽样。它是先将总体中各个个体按照某种特征值的顺序排队,然后按固定的顺序和间隔在总体中抽取若干个个体组成样本的一种抽样方式。等距抽样的优点是抽样组织方式简便,易于实施。
③ 分层抽样这种抽样方式又称为类型抽样。这种抽样方式能够使总体中的每个类型都有一些个体被抽入样本,有助于提高样本的代表性。因此,当总体内部差异较大且有明显的不同类型界限或标志时,采用这种抽样方式常较为适合。
④ 整群抽样这种抽样方式是先将总体分成若干个群,它与分层抽样不同,当总体内部差异较大而又没有明显的类型标志或界限时,便不能将总体分成内部相似而外部差异较大的不同类型,这时只能依据其他外观或地域标志将总体分成若干个相互之间的差异很小、内部却差异很大的群体,然后再随机地抽取一些群体组成样本来进行调查。
(2)非随机抽样调查非随机抽样调查又称为非概率抽样调查,其调查样本的抽取或是凭调查人员的主观判断进行选取,或是完全由调查人员视调查的便利而随意地选取。非随机抽样的方式主要有下列三种:
① 任意抽样这种抽样方式又称为便利抽样或偶遇抽样。它是任由调查者的便利而随意选取一些个体作为样本。在非概率抽样方式中,任意抽样方法使用最方便,但所抽取样本可能仅出自总体的某一阶层,对总体的代表性较低,所得结果可能存在很大的系统性偏差,故该样本抽取方法一般只在正式调查之前的试验性调查中使用。
② 立意抽样这种抽样方式又称为判断抽样或典型抽样,它是在对所研究总体中各个体的一般情况已有相当了解的基础上,选择出一个或少数几个比较具有代表性的典型个体即与大多数个体相似的个体作为样本,进行更深入细致的调查,所以这种方式是一种专家判断抽样方式。
③ 配额抽样这种抽样方式又称为定额抽样。它是在调查总体中依据一定的标准规定地区别或职业别等不同的群体的样本个体数配额,然后在每个群体中由调查人员按照配额主观判断抽出一定数额的个体组成样本,所以这种抽样方式实质上是一种分层判断抽样即划类选典抽样方式。
2. 调查的观测方法
现场调查的目的是取得所研究总体中个体指标的数据资料,而取得这些数据资料的方法主要有访问法和观察法两种。
(1)访问法访问法就是将所要调查的个体指标拟成问题,用口头或书面形式向被调查者提出询问,根据被调查者的回答取得所需的数据资料的一种方法。
① 口头访问口头访问可以是当面访问,也可以是电话访问,其过程是调查人员向被调查者提问并记录其回答,然后根据记录填出调查问卷。当面访问有个别访问和小组访问即召集若干被调查者一起开调查会两种形式。这种调查方法的优点是访问时间可以长些,并可在询问时观察被调查者的反应,能得到较深入的资料,且问卷回收率较高;其缺点是调查成本较高,调查结果正确与否受调查人员访问技术熟练程度以及被访问者诚实与否的影响很大。
② 书面访问书面访问过程是先将调查问卷交给被调查者,由调查者填好后再将其收回。调查问卷的送交和收回有两种方式,
一是通过邮局邮寄或者通过互联网的电子邮件系统传递,
二是调查人员登门送收。邮局邮寄和利用互联网传递的方式成本较低,但问卷回收率一般也较低,且回收的问卷可能只来自某一阶层,从而会影响调查结果的代表性。调查人员登门收送方式成本较高,但问卷回收率也较高。
(2)观察法观察法就是调查人员到调查现场,对被调查对象亲自进行观察、计数和记录,以获取所需要的数据资料。观察法的优点是调查过程中被调查者并不知晓自己正在接受调查,一切动作行为均为自然状态,故所得资料真实可靠,若在调查中能使用仪器如摄像机等则所得到的资料会更为真实详细。这种方法的缺点是调查过程中观察不到诸如行为动机等内在因素,并且有时需要作较长时间的观察才能得到结果,调查成本较高,而且实践中使用这种方法的限制性条件也较多,对有些现象的调查如居民家庭收支情况调查就不能采用这种方式进行。
数据的调查与整理
3. 调查问卷的设计
问卷设计技术主要包括提问方式和提问次序两个方面:
(1)提问方式调查问卷的提问方式主要有封闭型提问和开放型提问两种类型:
① 封闭型提问封闭型提问方式是在问卷上同时列出问题和各种可能的答案,然后由被调查者在已给出的答案中选出一项或几项作为回答。封闭型提问的优点主要是调查时节省时间,从而可多问一些问题,且资料分类整理易于处理;其缺点是被调查者不能自由表达看法,问卷上给出的答案可能并不包含被调查者想要给出的回答,从而被调查者只好选择一种并非真正代表自己意见的答案,降低了调查所得资料的客观性。
② 开放型提问开放型提问方式是在问卷上仅给出问题,并不给出可供选择的答案,由被调查者根据问题自由回答。开放型提问的优点是拟定问题不受拘束,比较容易,并且对被调查者不限制回答范围,能收到一些建设性的意见和调查者所忽略的答案与资料。这种提问方式的缺点主要在于对资料的整理与分析比较困难。由于被调查者的回答可能五花八门,所用词语各异,因此,在答案分类时难免出现困难,整理过程相当耗费时间,而且免不了加进一些整理者自己的偏见在内。当然,对于一份问卷来说,并非只能使用一种提问方式,实践中,封闭型提问和开放型提问往往要结合穿插运用,在一份调查问卷中经常是简单的事实性问题采用封闭型提问,而复杂的建议性问题则采用开放性提问。
(2)提问次序一般来说,问题提出的次序应该是先易后难,先一般后特殊,即所谓漏斗式。问卷开始所提出的问题性质宽泛,被调查者容易回答,然后逐渐缩小范围,到最后则属特殊的专门性问题。若采用口头访问法,则问卷开始应安排一些开放型问题,以便于被调查者能多说话,创造一个和谐轻松的调查气氛,便于整个调查工作的开展;若采用的是书面访问方式,则可将封闭型问题安排在问卷开头,使被调查者感到易于回答,有兴趣参加此项调查,而将开放性问题放在后面,便于调查者在对前面问题思考的基础上提出自己独特的见解。在实际工作中,为了避免提问次序对调查结果产生不良影响,可将问卷分成几部分,各部分的提问次序或封闭问题答案的次序不同,从而使提问次序产生的偏差相抵消,以保证调查结果的质量。
试验观测
1. 试验观测设计的原则
试验观测是在人为安排的环境条件下对所研究事物的观测,其目的主要在于揭示事物相互之间的因果关系。为了能充分揭示所考察因素与事物之间的因果规律,进行试验观测必须遵循以下两个原则:
(1)均衡分散性原则所谓均衡分散性原则是指所进行的试验应均衡地分散在各个因素的不同水平或位级的全部各种可能配合之中,以便保证试验结果具有较强的代表性。倘若所做试验都集中于部分水平的特定配合之上,那么试验结果就可能具有某种偏差,不能全面准确地反映所考察因素与所考察事物之间的因果关系。当试验所要考察的因素较少且每个因素的水平或位级也很少时,可对每个因素水平的全部配合逐一进行一次或若干次试验,从而满足均衡分散性的要求。当试验所要考察的因素很多或各个因素的不同水平或位级很多时,要对各个因素水平的全部配合逐一进行试验就往往由于试验工作量太大而难以做到,只能在各个因素水平的全部配合之中随机抽取一部分水平配合进行试验,要保证所抽取部分水平配合的代表性,显然必须使所抽取的部分水平配合均衡地散布在全部因素水平配合之中,要做到这一点,就需要对试验进行巧妙的设计和安排。
(2)整齐可比性原则所谓整齐可比性原则是指试验考察某个因素的各个水平或位级的效应时,其他因素应保持相同的水平,以便保证在该因素各个水平或位级的效应中能最大限度地排除其他因素的干扰,从而能有效地进行比较。倘若在试验某个因素的各个水平效应的过程中,其他因素的水平不同,那么就难以分清试验所得数据之间的差异究竟是由于该因素水平不同造成的,还是其他因素水平不同引起的,从而就难以进行比较,无法揭示该因素与所考察事物之间的因果关系。显然,当试验所考察的因素和水平均较少时,要满足整体可比性比较容易;而当试验所考察的因素和水平都很多时,要满足整齐可比性就比较困难,要在较少或不太多的试验观测中满足整齐可比性的要求,同样需要对实验进行巧妙的设计和安排。
数据的调查与整理
2. 试验观测的方法
在试验观测中,承受试验的个体称为试验单位。下面仅介绍两种简单的试验观测方法。
(1)完全随机试验观测完全随机试验观测类似于现场调查中的简单随机抽样调查,即将各试验单位随机地安排到所要进行试验的因素与水平配合之中进行试验观测。
(2)随机区组试验观测随机区组试验观测类似于现场调查中的分层随机抽样调查。作为随机区试验观测的一个重要类型,当所考察的因素水平只有两种不同情形时,可将试验单位配成两两相似的若干对组合,随机抽取每对中的一个试验单位进行一种水平的试验观测,而另一个试验单位则进行另一种水平的试验观测,这种试验观测方法称为配对试验观测,在心理学及医学等领域中有广泛的应用。由于进行某种水平试验观测的任何一个试验单位,都有一个相应的相似试验单位在进行另一种水平的试验观测,二者相互对照,就最大限度地排除了试验单位之间的差异的影响,保证了两个水平试验观测数据的整齐可比性,也给试验观测数据的分析带来了极大的方便。
数据整理与显示
1. 调查资料数据库的构建
通过现场调查或试验观测所得到的数据资料都是各个调查单位的项目数据,它们是零散的和不系统的,在取得这些数据资料以后,接下来就需要采用科学有效的方法将它们储存起来。为此,就需要建立起储存这些调查数据资料的数据库。
2. 调查数据的分类显示
(1)观测个体的分类分类比较是科学研究中经常使用的一种很有效的方法,通过现场调查或试验观测所取得的数据资料往往是多种不同的观测个体的数据,若要对其进行深入的分析研究,通常的做法是将其中的各个观测个体按照在某个项目上的取值或者属性差异进行分类,将观测个体划分成若干个性质不同的类,然后进行类与类之间的分析和比较研究,以揭示事物的本质和内在规律性。分类具有两方面的功能,对总体和样本而言是分,即将总体或样本划分成若干个不同的组;对个体而言是合,即将相似或相同的个体合并为一个组。分类的这两方面功能,既使得分类后的研究对象缩减为少数若干个组,便于分析比较发现事物的内在结构;又使得每类个18体通过合并相互抵消各自所受随机因素的影响,能够充分显示出事物的统计规律性,因此,分类是揭示事物内在规律的一种重要手段。分类是对总体或样本的划分和对个体的合并,所以,任何分类都必须遵循下面两个原则:
① 互斥性,即所分各类不能交叉重叠,每个个体只能划归入一个类别之中。
② 完备性,即所分的类能够涵盖全部个体,总体中的任何一个个体都有一个类可以归入,而且只能有一个类可归入,不能有遗漏。由此可见,互斥性和完备性保证了分类的不重不漏。由于作为分类依据的个体项目的取值个数有多与少两种不同的情况,所以,对观测个体进行分类,也就有单值分类和组距分类两种不同的分类方法。如果作为分类依据的个体项目只能取很少的几个数值,那么就可以将每个不同的取值作为一类,分类项目有几个不同的取值就可以分成多少类。例如:人口按性别分类,只能分为男性和女性两类;又如,居民家庭按人口数(单位:人)分类,可分成 1、2、3、4、5、6、 7 等,这种分类称为单值分类。如果作为分类依据的个体项目的不同取值个数很多,那么就可以将该个体项目的取值范围划分成若干个不同数值的区间,在同一区间内取值的个体为一类,一共划分了多少个区间就有多少类,如工业企业按职工人数(单位:人)分类,可分为 99 以下、100 ~ 999 , 1000 ~ 9999、10000 以上,这种分类称为组距分类。对于一个总体或样本,人们往往可以从不同的角度进行多方位的研究,从而就需要用多种不同的分类项目从不同的方面进行分类比较。对同一总体或样本采用若干个不同的分类项目进行一系列的分类所形成的体系称为分类体系。在一个分类体系中,若各种不同项目的分类是相互独立平行的,则这种分类体系称为平行分类体系;若各种不同项目的分类是逐一嵌套复合的,则这种分类体系称为复合分类体系。平行分类体系中的类别总数等于各种分类的类别数之和,而复合分类体系中的类别总数等于各种分类的类别数之积。例如,企业职工按性别可分为男性和女性两类,按工作岗位分可分为生产工人、技术人员、管理人员、服务人员四类,则采用平行分类形成的平行分类体系中共有 2 4=6 类,而采用复合分类形成的复合分类体系中共有 2×4=8 类。因此,复合分类体系比平行分类体系可以提供更多的信息,但为了不使分类过于庞大,复合分类体系中嵌套复合的分类项目一般不宜过多。
(2)统计表的编制所谓统计表,就是用来显示统计数据资料的表格。
① 统计表的结构
数据的调查与整理
统计表一般由五个部分构成,分别为:
总标题,
横行标题,
纵栏标题,
数据资料,
表末附注。
总标题是统计表的名称,概括扼要地指明统计表所显示的内容;横行标题是横行的名称,可以是统计表所要显示的总体或样本及其各个组别或各个个体的名称,也可以是所要显示的数据资料的指标名称,通常视统计表如何设计美观而定;纵栏标题是纵栏的名称,可以是统计表所要显示的数据资料的指标名称,也可以是所要显示的总体或样本及其各个组别或各个个体的名称,也视统计表如何设计美观而定;数据资料就是统计表所要显示的内容,列于横行与纵栏交叉所形成的格子中,不过实践中这些中间格子一般不画出来,表末附注是列在表下部表示表中数据资料来源等必要说明事项的附带注释,视情况可有可无。统计表的一般格式如下所示。
② 编制统计表应注意的问题:
a.全面安排,合理布局。编制统计表时,应首先对准备列入表中的数据资料有全面的考虑安排,哪些项目名称应放在横行标题的位置,哪些项目名称应放在纵栏标题的位置,应当有一个合理美观的总体布局。
b.各种标题应简明扼要。统计表中的各种标题,包括总标题、横行标题和纵栏标题都应该尽量简练,可有可无的字应当一律去掉。
c.项目排列应合理。统计表中横行和纵栏项目应当按照逻辑顺序,如时间顺序、地理顺序等排列。当表中既有水平指标又有比率指标时,应当水平指标在前,比率指标在后。
d.计量单位必须注明。统计表中各种数据都应注明计量单位,当表中数据只有一种计量单位时,可以把计量单位写在表的右上角;当表中数据的计量单位不同时,横行的计量单位可以专设一栏,纵栏的计量单位要与纵栏标题写在同一格内,并用括号括住。
e.栏数多时应加以编号。
统计表的栏数较多时,通常需要编号。对于文字栏,通常编号为(甲)、(乙)、(丙)……对于数据栏,通常编号为(1)、(2)、(3)……在数据编号栏中,有时还可注明该栏数据的计算方法,如表 2—1 编号栏中的(5)=(3)/(1)表示第(5)栏的数据是由第(3)栏的数据除以第(1)栏的数据而得到的。
f.数字填写,整齐规格。统计表的数据应该填写整齐,上下对准位数。表中相同的数据都必须写上,不能用“同前”、“同上”、“同左”、“同右”等字样表示,不可能有数据的空格用实线段“—”表示,应该有数据而缺资料时用虚线段“---”表示。
g.若有必要,加注说明。统计表有时应有附注说明,如有某些数据的特殊计算口径或方法等要加以说明,数据资料的来源需注明,以便参考。说明或注解一般写在表的下端。
数据调查的具体方法是什么?
一 业务调研
数据仓库是要涵盖所有业务领域,还是各个业务领域独自建设,业务领域内的业务线也同样面临着这个问题。所以要构建大数据数据仓库,就需要了解各个业务领域、业务线的业务有什么共同点和不同点,以及各个业务线可以细分为哪几个业务模块,每个业务模块具体的业务流程又是怎样的。业务调研是否充分,将会直接决定数据仓库建设是否成功。
二 需求调研
了解业务系统的业务后不等于说就可以实施数仓建设了,还需要收集数据使用者的需求,及找分析师、运营人员、产品人员等了解他们对数据的诉求。通常需求调研分下面两种途径:
1. 根据与分析师、运营人员、产品人员的沟通获取需求。
2. 对现有报表、数据进行研究分析获取数据建设需求。
三 数据调研
前期需要做好数据探查工作,需要了解数据库类型,数据来源,全量数据情况及数据每年增长情况,更新机制;还需要了解数据是否结构化,是否清洗,是接口调用还是直接访问库,有哪些类型的数据,数据结构之怎样的。
数据开发,模型建设之前,先了解数据结构,数据内容,数据特性,对数据有一个整体把控
探查一下本次需求能不能实现,怎么实现,有没有隐藏bug,数据质量如何
调查的方法和方式
(1)统计报表制度,是国家统计系统和各业务部门为了定期取得系统的、全面的基本统计资料,按一定的要求和表式自上而下统一布置、自下而上提供统计资料的一种统计调查方法。统计报表要以一定的原始记录为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。(2)普查,是一种专门组织的、对全体调查对象普遍进行的一次性的全面统计调查。它通过逐个调查一定时点上或一定时期内的社会经济现象的情况,全面、系统地收集整理和提供反映国情、国力情况的统计数据。
(3)抽样调查,也称样本调查,是非全面调查中的一种重要方法,它是按一定程序从所研究对象的全体(总体)中抽取一部分样本进行调查,获取数据,并以此对总体的一定目标量(参数)作出推断。
(4)重点调查,是在全体调查对象中整群选择一部分重点单位进行调查,以取得统计数据的一种非全面调查方法。这些重点单位虽然为数不多,但其标志总量在整个总体的标志总量中占较大比重,因而对这部分重点单位进行调查所取得的统计数据能够反映总体的基本情况。
(5)典型调查,是一种比较灵活的非全面调查,它是根据调查目的和任务,通过对调查对象的初步分析,有意识地选出若干有代表性的单位,进行深入细致的调查。一般来说,典型调查不在于取得现象的总体数据,而在于了解与统计数据有关的生动的具体情况,做到定性分析和定量分析相结合。
(6)科学推算,是利用已有相关资料或通过有关非全面调查取得的总体中的一小部分个体的有关资料为基础,根据事物之间的内在联系和发展趋势对某些统计指标进行科学测算的方法。在运用科学推算方法时必须注意两点,一是必须在各种调查取得丰富数据的基础上进行,二是必须注意分析事物发展的动向和规律,避免理论值和实际值的严重背离。
我国未来统计调查方法改革的目标模式是:建立以必要的周期性普查为基础,以经常性的抽样调查为主体,同时辅之以重点调查、科学推算和有限的全面报表综合运用的统计调查方法体系
文章评论