分层抽样(stratified sampling)
定义:
分层抽样法(stratified sampling),也叫类型抽样法。就是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位。分层抽样的特点是:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况。
分层抽样的具体程序:
把总体各单位分成两个或两个以上的相互独立的完全的组(如男性和女性),从两个或两个以上的组中进行简单随机抽样,样本相互独立。总体各单位按主要标志加以分组,分组的标志与关心的总体特征相关。例如,正在进行有关啤酒品牌知名度方面的调查,初步判别,在啤酒方面男性的知识与和女性的不同,那么性别应是划分层次的适当标准。如果不以这种方式进行分层抽样,分层抽样就得不到什么效果,花再多时间、精力和物资也是白费。
分层抽样与简单随机抽样相比,往往选择分层抽样,因为它有显著的潜在统计效果。也就是说,如果从相同的总体中抽取两个样本,一个是分层样本,另一个是简单随机抽样样本,那么相对来说,分层样本的误差更小些。另一方面,如果目标是获得一个确定的抽样误差水平,那么更小的分层样本将达到这一目标。
分层抽样又称分类抽样或类型抽样。将总体划分为若干个同质层,再在各层内随机抽样或机械抽样,分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。分层抽样根据在同质层内抽样方式不同,又可分为一般分层抽样和分层比例抽样,一般分层抽样是根据样品变异性大小来确定各层的样本容量,变异性大的层多抽样,变异性小的层少抽样,在事先并不知道样品变异性大小的情况下,通常多采用分层比例抽样。
样本数:各层样本数的确定方法有3种。
①分层定比。即各层样本数与该层总体数的比值相等。例如,样本大小n=50,总体N=500,则n/N=0.1 即为样本比例,每层均按这个比例确定该层样本数。
②奈曼法。即各层应抽样本数与该层总体数及其标准差的积成正比。
③非比例分配法。当某个层次包含的个案数在总体中所占比例太小时,为使该层的特征在样本中得到足够的反映,可人为地适当增加该层样本数在总体样本中的比例。但这样做会增加推论的复杂性。
步骤:
在调查实践中,为提高分层样本的精确度实际上要付出一些代价。通常,现实正确的分层抽样一般有三个步骤:
首先,辩明突出的(重要的)人口统计特征和分类特征,这些特征与所研究的行为相关。例如,研究某种产品的消费率时,按常理认为男性和女性有不同的平均消费比率。为了把性别作为有意义的分层标志,调查者肯定能够拿出资料证明男性与女性的消费水平明显不同。用这种方式可识别出各种不同的显著特征。调查表明,一般来说,识别出 6 个重要的显著特征后,再增加显著特征的辨别对于提高样本代表性就没有多大帮助了。
第二,确定在每个层次上总体的比例(如性别已被确定为一个显著的特征,那么总体中男性占多少比例,女性占多少比例呢?)。利用这个比例,可计算出样本中每组(层)应调查的人数。
最后,调查者必须从每层中抽取独立简单随机样本。
应用:总体中赖以进行分层的变量为分层变量,理想的分层变量是调查中要加以测量的变量或与其高度相关的变量。分层的原则是增加层内的同质性和层间的异质性。常见的分层变量有性别、年龄、教育、职业等。分层随机抽样在实际抽样调查中广泛使用,在同样样本容量的情况下,它比纯随机抽样的精度高,此外管理方便,费用少,效度高。
分层抽样是将总体按照一定标志分成若干层,分别从各层中抽检一定数量样本,最后汇总推算所需的总体估计量的一种统计抽样技术。在变量抽样税务稽查中合理地运用分层抽样法,可以提高抽样的精确度,减少需要抽查的样本。在运用分层抽样法时,需要对总体进行重新组织整理,计算工作复杂。因此,只有当被查总体中大部分项目(的金额)分布均匀,少数项目属于高金额或低金额之类的异常项目时,运用分层抽样法才有意义。
运用分层抽样税务稽查方法时,各层样本抽查方法是相对独立的,可以是随机数表法,也可以是系统选样法。分层抽样法研究的重点,一是如何计算总的样本规模和如何将样本在各层进行分配;二是如何将各层检查结果汇总推算总体估计量。
1.样本规模的确定及在各层间的分配
在分层抽样法中,样本规模仍然按照总体计算,然后再把它分配到各层。分层抽样法中样本规模的确定,需要首先了解各层子总体容量及其标准差。
2.各层检查结果的汇总
决定了各层样本规模之后,税务稽查人员即可按照计划的抽样组织方式和税务稽查检查大纲开始实施抽样税务稽查。经过对选取样本的检查计算,可以得到各层平均值(或平均差错额)和实际样本标准差等项资料,在此基础上,税务稽查人员需要将它们汇总,形成对总体的点估计和区间估计。