区间估计¶
对于一个未知参数 \(\theta\),除了它的估计值 \(\hat{\theta}\) 外,还需要估计误差。估计出一个区间范围,同时给出它包含参数 \(\theta\) 真值的可信程度,这种形式的估计叫区间估计。
双侧置信区间¶
设总体 \(X\) 的分布函数 \(F(x;\theta)\) 的形式为已知,\(\theta\) 为未知参数,\(X_1,X_2,\cdots,X_n\) 为来自总体 \(X\) 的一个样本。如果 \(\forall 0<\alpha<1\),能由样本确定统计量 \(\underline{\theta}=\underline{\theta}(X_1,X_2,\cdots,X_n)\) 与 \(\overline{\theta}=\overline{\theta}(X_1,X_2,\cdots,X_n)\),使得
则称随机区间 \((\underline{\theta}, \ \overline{\theta})\) 为参数 \(\theta\) 的置信水平为 \(1-\alpha\) 的(双侧)置信区间,\(\underline{\theta}\) 与 \(\overline{\theta}\) 分别称为置信下限和置信上限,\(1-\alpha\) 称为置信水平、置信度。
含义:若反复抽样多次(每次样本容量相等),每组样本值确定一个区间 \((\underline{\theta}, \ \overline{\theta})\),每个这样的区间要么包含 \(\theta\) 的真值,要么不包含。由 Bernoulli LLN 知,这么多区间中,包含 \(\theta\) 的真值的约占 \(100(1-\alpha)\%\),不包含的约占 \(100\alpha\%\)。
- 当总体 \(X\) 是离散型随机变量时,对于给定的 \(\alpha\),常常找不到区间 \((\underline{\theta}, \ \overline{\theta})\) 使得 \(P \left (\underline{\theta}<\theta<\overline{\theta} \right )\) 恰好为 \(1-\alpha\)。这时,可以找使得 \(P \left (\underline{\theta}<\theta<\overline{\theta} \right )\) 不小于且最接近 \(1-\alpha\) 的区间 \((\underline{\theta}, \ \overline{\theta})\)。
- 置信水平为 \(1-\alpha\) 的置信区间不是唯一的。区间长度越短,表示估计的精度越高,区间越优。
-
求参数 \(\theta\) 的置信水平为 \(1-\alpha\) 的双侧置信区间的步骤
-
选一个样本 \(X_1,X_2,\cdots,X_n\) 的函数
\[ Z = Z(X_1,X_2,\cdots,X_n;\theta) \]\(Z\) 包含待估参数 \(\theta\) 且分布已知,但不依赖其他未知参数。
-
选定常数 \(a,b\),使得
\[ P \left (a<Z(X_1,X_2,\cdots,X_n;\theta)<b \right )=1-\alpha \] -
求出 \(a<Z(X_1,X_2,\cdots,X_n;\theta)<b\) 的等价不等式 \(\underline{\theta}<\theta<\overline{\theta}\),其中 \(\underline{\theta}=\underline{\theta}(X_1,X_2,\cdots,X_n)\) 与 \(\overline{\theta}=\overline{\theta}(X_1,X_2,\cdots,X_n)\) 都是统计量,从而求出区间 \((\underline{\theta}, \ \overline{\theta})\)。
-
单侧置信区间¶
设总体 \(X\) 的分布函数 \(F(x;\theta)\) 的形式为已知,\(\theta\) 为未知参数,\(X_1,X_2,\cdots,X_n\) 为来自总体 \(X\) 的一个样本。
-
如果 \(\forall 0<\alpha<1\),能由样本确定统计量 \(\underline{\theta}=\underline{\theta}(X_1,X_2,\cdots,X_n)\),使得
\[ P \left (\theta > \underline{\theta}(X_1,X_2,\cdots,X_n) \right ) = 1-\alpha \]则称随机区间 \((\underline{\theta}, \ +\infty)\) 为参数 \(\theta\) 的置信水平为 \(1-\alpha\) 的单侧置信区间,\(\underline{\theta}\) 称为单侧置信下限。
-
如果 \(\forall 0<\alpha<1\),能由样本确定统计量 \(\overline{\theta}=\overline{\theta}(X_1,X_2,\cdots,X_n)\),使得
\[ P \left (\theta<\overline{\theta}(X_1,X_2,\cdots,X_n) \right ) = 1-\alpha \]则称随机区间 \((-\infty, \ \overline{\theta})\) 为参数 \(\theta\) 的置信水平为 \(1-\alpha\) 的单侧置信区间,\(\overline{\theta}\) 称为单侧置信上限。
其中,\(1-\alpha\) 称为置信水平、置信度。
单正态总体参数¶
设总体 \(X \sim N(\mu,\sigma^2)\),\(X_1,X_2,\cdots,X_n\) 为来自总体 \(X\) 的一个样本,样本均值为 \(\overline{X}\),样本方差为 \(S^2\)。
求 \(\mu\) 的置信水平为 \(1-\alpha\) 的置信区间:
条件 | \(\sigma^2\) 已知 | \(\sigma^2\) 未知 |
---|---|---|
枢轴量 | \(\dfrac{\overline{X} -\mu}{\sigma/\sqrt{n}} \sim N(0,1)\) | \(\dfrac{\overline{X} -\mu}{S/\sqrt{n}} \sim t(n-1)\) |
双侧 | \(\left ( \overline{X} - \dfrac{\sigma}{\sqrt{n}} z_{\alpha/2},\ \overline{X} + \dfrac{\sigma}{\sqrt{n}} z_{\alpha/2} \right )\) | \(\left ( \overline{X} - \dfrac{S}{\sqrt{n}} t_{\alpha/2}(n-1),\ \overline{X} + \dfrac{S}{\sqrt{n}} t_{\alpha/2}(n-1) \right )\) |
单侧 1 | \(\left ( \overline{X} - \dfrac{\sigma}{\sqrt{n}} z_{\alpha},\ +\infty \right )\) | \(\left ( \overline{X} - \dfrac{S}{\sqrt{n}} t_{\alpha}(n-1),\ +\infty \right )\) |
单侧 2 | \(\left (-\infty ,\ \overline{X} + \dfrac{\sigma}{\sqrt{n}} z_{\alpha} \right )\) | \(\left (-\infty ,\ \overline{X} + \dfrac{S}{\sqrt{n}} t_{\alpha}(n-1) \right )\) |
求 \(\sigma^2\) 的置信水平为 \(1-\alpha\) 的置信区间:
条件 | \(\mu\) 已知 | \(\mu\) 未知 |
---|---|---|
枢轴量 | \(\dfrac{\displaystyle\sum\limits_{i=1}^n (X_i -\mu)^2}{\sigma^2} \sim \chi^2(n)\) | \(\dfrac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\) |
双侧 | \(\left ( \dfrac{\displaystyle\sum\limits_{i=1}^n (X_i -\mu)^2}{\chi^2_{\alpha/2}(n)},\ \dfrac{\displaystyle\sum\limits_{i=1}^n (X_i -\mu)^2}{\chi^2_{1-\alpha/2}(n)} \right )\) | \(\left ( \dfrac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)},\ \dfrac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)} \right )\) |
单侧 1 | \(\left ( \dfrac{\displaystyle\sum\limits_{i=1}^n (X_i -\mu)^2}{\chi^2_{\alpha}(n)},\ +\infty \right )\) | \(\left ( \dfrac{(n-1)S^2}{\chi^2_{\alpha}(n-1)},\ +\infty \right )\) |
单侧 2 | \(\left (0 ,\ \dfrac{\displaystyle\sum\limits_{i=1}^n (X_i -\mu)^2}{\chi^2_{1-\alpha}(n)} \right )\) | \(\left (0 ,\ \dfrac{(n-1)S^2}{\chi^2_{1-\alpha}(n-1)} \right )\) |
双正态总体参数¶
设 \(X_1,X_2,\cdots,X_{n_1}\) 为来自第一个总体 \(X \sim N(\mu_1,\sigma_1^2)\) 的一个样本,样本均值为 \(\overline{X}\),样本方差为 \(S_1^2\)。
设 \(Y_1,Y_2,\cdots,Y_{n_2}\) 为来自第二个总体 \(Y \sim N(\mu_2,\sigma_2^2)\) 的一个样本,样本均值为 \(\overline{Y}\),样本方差为 \(S_2^2\)。
两个样本构成的合样本 \(X_1,X_2,\cdots,X_{n_1}, Y_1,Y_2,\cdots,Y_{n_2}\) 相互独立。
求 \(\mu_1-\mu_2\) 的置信水平为 \(1-\alpha\) 的置信区间:
条件 | \(\sigma_1^2,\sigma_2^2\) 已知 | \(\sigma_1^2=\sigma_2^2\) 但未知 |
---|---|---|
枢轴量 | \(\dfrac{\overline{X}-\overline{Y} - (\mu_1-\mu_2)}{\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}} \sim N(0,1)\) | \(\dfrac{\overline{X}-\overline{Y} - (\mu_1-\mu_2)}{S_\omega\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}} \sim t(n_1 + n_2 - 2) \ \left (\text{其中 } S_\omega=\sqrt{\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1 + n_2 - 2}} \right )\) |
双侧 | \(\left ( \overline{X}-\overline{Y} - \sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}} z_{\alpha/2},\ \overline{X}-\overline{Y} + \sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}} z_{\alpha/2} \right )\) | \(\left ( \overline{X}-\overline{Y} - S_\omega\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}} t_{\alpha/2}(n_1 + n_2 - 2),\ \overline{X}-\overline{Y} + S_\omega\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}} t_{\alpha/2}(n_1 + n_2 - 2) \right )\) |
单侧 1 | \(\left ( \overline{X}-\overline{Y} - \sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}} z_{\alpha},\ +\infty \right )\) | \(\left ( \overline{X}-\overline{Y} - S_\omega\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}} t_{\alpha}(n_1 + n_2 - 2),\ +\infty \right )\) |
单侧 2 | \(\left (-\infty ,\ \overline{X}-\overline{Y} + \sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}} z_{\alpha} \right )\) | \(\left (-\infty ,\ \overline{X}-\overline{Y} + S_\omega\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}} t_{\alpha}(n_1 + n_2 - 2) \right )\) |
求 \(\dfrac{\sigma_1^2}{\sigma_2^2}\) 的置信水平为 \(1-\alpha\) 的置信区间:
条件 | \(\mu_1,\mu_2\) 已知 | \(\mu_1,\mu_2\) 未知 |
---|---|---|
枢轴量 | \(\dfrac{n_2\sigma_2^2\displaystyle\sum\limits_{i=1}^{n_1} (X_i -\mu_1)^2}{n_1\sigma_1^2\displaystyle\sum\limits_{i=1}^{n_2} (Y_i -\mu_2)^2} \sim F(n_1,n_2)\) | \(\dfrac{\sigma_2^2 S_1^2}{\sigma_1^2 S_2^2} \sim F(n_1-1,n_2-1)\) |
双侧 | \(\left ( \dfrac{n_2\displaystyle\sum\limits_{i=1}^{n_1} (X_i -\mu_1)^2}{n_1\displaystyle\sum\limits_{i=1}^{n_2} (Y_i -\mu_2)^2} \dfrac{1}{F_{\alpha/2}(n_1,n_2)},\ \dfrac{n_2\displaystyle\sum\limits_{i=1}^{n_1} (X_i -\mu_1)^2}{n_1\displaystyle\sum\limits_{i=1}^{n_2} (Y_i -\mu_2)^2} F_{\alpha/2}(n_2,n_1) \right )\) | \(\left ( \dfrac{S_1^2}{S_2^2} \dfrac{1}{F_{\alpha/2}(n_1-1,n_2-1)},\ \dfrac{S_1^2}{S_2^2} F_{\alpha/2}(n_2-1,n_1-1) \right )\) |
单侧 1 | \(\left ( \dfrac{n_2\displaystyle\sum\limits_{i=1}^{n_1} (X_i -\mu_1)^2}{n_1\displaystyle\sum\limits_{i=1}^{n_2} (Y_i -\mu_2)^2} \dfrac{1}{F_{\alpha}(n_1,n_2)},\ +\infty \right )\) | \(\left ( \dfrac{S_1^2}{S_2^2} \dfrac{1}{F_{\alpha}(n_1-1,n_2-1)},\ +\infty \right )\) |
单侧 2 | \(\left (0 ,\ \dfrac{n_2\displaystyle\sum\limits_{i=1}^{n_1} (X_i -\mu_1)^2}{n_1\displaystyle\sum\limits_{i=1}^{n_2} (Y_i -\mu_2)^2} F_{\alpha}(n_2,n_1) \right )\) | \(\left (0 ,\ \dfrac{S_1^2}{S_2^2} F_{\alpha}(n_2-1,n_1-1) \right )\) |
0-1 分布总体参数¶
设总体 \(X \sim B(1,p)\),\(X_1,X_2,\cdots,X_n\) 为来自总体 \(X\) 的一个样本(需要满足 \(n>50\),为大样本),样本均值为 \(\overline{X}\)。
由 中心极限定理,
近似服从 \(N(0,1)\),求得参数 \(p\) 的置信水平为 \(1-\alpha\) 的置信区间为
其中 \(a=n+z_{\alpha/2}^2\),\(b=-(2n\overline{X}+z_{\alpha/2}^2)\),\(c=n\overline{X}^2\)。