统计推理
统计推理
统计推理是用样本的资料对总体的某些性质进行估计或推断的不完全归纳推理。统计推理同概率预测推理一样,都是从样本到总体的推理。二者的区别在于,概率预测推理是建立在古典概率基础上的,而统计推理是建立在统计概率基础上的。
统计推理可分为三类:估计、假说检验和贝叶斯推理。
一、估计
1.区间估计
1981年10月,美国纽约时报举行了一次关于环境保护问题的民意测验。其结果是被询问的1479位美国成年人中有67%赞成维持现有的环境保护法。根据这一测验结果,能否得出"所有美国成年人有67%赞成维持现有的环境保护法"这一结论呢?如果按照概率预测推理的逻辑,回答当然是肯定的,可是按照统计推理的逻辑却不然了。一般说来,一个随机样本中的频率同总体中的百分比恰恰相当的概率是很低的,但样本频率同总体的百分比靠近的概率却是很高的。基于这种观点,纽约时报的调查报告最后指出:"在理论上可以说,根据整个样本所得到的结果同访问所有美国成年人会得到的结果的差别不超过3%,这是有95%把握的。"这就是说,根据对1479人测验的结果,可以得出这样的结论:在所有美国成年人中有64%~70%赞成维持现有的环境保护法。这一结论有95%的概率是真的。
由上述讨论可知,统计推理得出的结论不是一个和样本频率相等的数值,而是一个和样本频率相靠近的区间。由于这个缘故,人们常把对总体百分比的估计叫区间估计。这个区间通常叫置信区间,其大小与样本的容量n的大小有关。n小时,误差范围便大,置信区间也就大;n大时,误差范围便小,置信区间也就小。上文中所提到的那个"95%"通常称做置信水平。很显然,置信区间的大小与置信水平的高低有直接关系。置信水平高,需要通过扩大误差范围来保障,因此,置信水平高,置信区间大;置信水平低,置信区间小。
人们根据实践经验总结出了在95%的置信水平上样本容量和误差范围及置信区间的关系。假如样本频率为0.5(当然也可以是别的数),那么,这三者关系见表1。
你也许不能把本表背熟,但至少应记住:样本为100,误差范围为+10%;样本为500,误差范围为+4%;超过1000的样本,误差边际小于+3%。
充分理解样本大小同误差边际之间的关系是很有用处的。现在我们再看一下纽约时报民意测验的资料,其中一项显示出54%的黑人应答者说希望环境保护继续改进,不管经济上有多大损失。人们也许被诱使做出结论:
表1 样本容量与置信区间、误差范围之间的关系
标本容量 置信区间 误差范围
10 0.20~0.80 +0.30
25 0.28~0.72 +0.22
50 0.36~0.64 +0.14
100 0.40~0.60 +0.10
250 0.44~0.56 +0.06
500 0.46~0.54 +0.04
1000 0.47~0.53 +0.03
1500 0.48~0.52 +0.02
“过半数黑人支持这一立场”。要是容许3%的误差,便支持这个结论,但事实上误差边际不只是3%。那么,误差边际为多少呢?这就要看样本中黑人的数量了。样本的性质却能在一定程度上客观地反映总体,这是对样本的最基本的要求。据此,我们可以设想:样本中黑人所占的百分比,同全美国中黑人所占的百分比是相当的。人们都知道,美国黑人约占美国人口的15%。这就等于说,1479人的样本中有222人是黑人。为方便起见,我们把黑人数量姑且算作250人,这便可从表1中查得其对应的误差范围是+6%。这样一来,民意测验资料中所提到的54%就变成了48%~60%了,而48%是不可以说超过半数的。并且,黑人数很可能不是250而是200,这就决定了区间的下边际不是48%,而是48%以下,因此,就更无理由说"过半数黑人支持这一立场"。
二、相关分析
我们都知道有些属性倾向于同其他属性有关。例如人的身长倾向于和体重有关系。要描述这样一种关系,便可说"身长和体重"这两个变项相关。成年美国人构成一个总体。在该总体中,性别这个变项有两个变值:男性和女性。吸烟习惯这一变项也有两个变值:吸烟者和不吸烟者。美国报纸曾披露:37%的美国成年男子吸烟。28%的美国成年女子吸烟。把这两个陈述合拢便得新的陈述:在美国成年人中,性别和吸烟习惯是相关的。其中吸烟者和男性成正相关,和女性成负相关。如果男子和妇女吸烟者的百分比恰恰相同,那么可以说性别与吸烟习惯之间不相关。这是因为,成年男子吸烟者的百分比大于成年女子吸烟者的百分比。当在成年美国人构成的总体中增加男子的比例时,总体中吸烟者的比例增大;而在成年美国人构成的总体中增加女子的比例时,总体中吸烟者的比例减小。如果男子和妇女吸烟者的百分比恰恰相同,那么,无论增加男子还是女子在总体中的比例,其总体中吸烟者的比例不变。
上面所讨论的相关,是以总体为对象而不是以样本为对象来讨论的,因此,把这种相关叫简单相关。如果不是以总体为对象而是以样本为对象,那么,是否相关就要看样本的大小了。如果样本为1000人,那么,上边所言的28%和37%就成了25%~31%和34%~40%两个区间。这两个区间并不重叠,因此,还可以说吸者和男性成正相关和女性成负相关。如果样本为250人,那么,28%和37%就成了22%~34%和31%~43%这样两个区间了。这两个区间重叠,因此,没有充分理由说吸烟者和男性成正相关或和女性成负相关了。
三、统计假说的检验
美国巨大州立大学(简称ESU)被控在研究生录取上对女性歧视。由于某种原因,ESU没有关于申请攻读研究生者男女相对比例的记录。但是他们知道所有申请者的录取比率。这就等于知道了任何申请者的录取概率P{A}。现在所面问题是女生的录取概率P{W}是否和P{A}相同。如果相同,歧视的指责就没有什么根据了。在这里P{W}=P{A}就是一个需要用由样本得来的统计数据加以检验的假说。
由于申请者和被录取者数量巨大,即使检查一年的记录也需要很长时间和大量耗费。因此,研究生院决定用关于妇女申请者的一个随机样本来检验这个假说。现在我们假定P{A}等于50%,检验统计假说的方法就是用从样本观察到的频率f(w)来判断假说P{W}等于50%是真还是假。
怎样看待样本的频率f(w)和总体的概率P{W}之间的关系呢?从前边讲的区间估计已经知道,由样本频率推得的总体的概率不是个单一的值,而是一个区间。区间的大小取决于误差范围的大小,亦即取决于样本容量的大小。当我们知道了f(w)之后,便可根据样本的容量与误差范围的关系(见表1)来构造区间估计。如果假说中P{W}的值在此区间之内,那么,就可以得出检验未能否决假说的结论;如果假说中P{W}的值高于此区间上限,那么,便可做出假说是假的这一结论。这种结论有95%的可靠性。例如,假定在ESU研究生申请人的例子中,用的是100人的样本,在这100人中有38人被录取。这就等于说f(w)等于38%。根据这一数值可以得出:总体概率P{W}在28%~48%之间。假说中P{W}等于50%不在这一区间内,故假说P{W}=P{A}是假的。如果样本的f(w)不是38%,而是42%,那么,总体概率P{W}在32%~52%之间。假说中P{W}等于50%在这一区间之内,故检验未能否决假说。
讨论到这里我们便会意识到,有些调查报告之类的材料,不谈取样方式,不提样本容量,不考虑误差范围,而武断地把样本频率当成总体概率,然后夸夸其谈,滥用"充分"、"普遍"之类的词语,实际上这种材料是没有什么价值的。
四、贝叶斯推理
贝叶斯是英国数学家,他对统计推理的主要贡献是使用了"逆概率"这个概念,并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一个定理,这一定理可用一个数学公式来表达,这个公式就是著名的贝叶斯公式。贝叶斯推理是把人们的先验知识与用贝叶斯公式所构造的数学模型结合起来去推断实际问题的概率分布。下面我们就讨论这个问题。
设有五个盒子,其中有2个盒子(记作A 1)内各有2只白球1只黑球;有1个盒子(记作A2)内有10只黑球;有2个盒子(记作A3)内各有3只白球1只黑球。今随机地选一只盒子并从中随机地取得一只球,是个白球。问此白球取自哪一类盒子的概率大。
凭我们的经验,冷眼一看便会觉得此白球取自A3的可能性大。究竟取自哪一类盒子的概率大,大多少,还需用贝叶斯公式来推算。
按照所含成分来划分,三种类型的盒子分别记作A1、A2与A3,令B为取得白球这一事件。"随机地选一盒子并取得白球"这一事件可理解为:"选得A1而且得B"、"选得A2而且得B"、"选得A3而且得B"这三个事件的和。"选得A1而且得B"可写作A1B,另两事件则分别是A2B和A3B这三个事件互斥,且B相当于出现三者之一。其表达式为:
B=A1B+A2B+A3B
先计算取得哪一类盒子的概率P{A1}的值。共有5个盒子,即n=5,按古典概率得: