zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

(《机器学习》完整版系列)第2章 模型评估与选择 ——2.7 (实战)具体的性能检验方法

机器方法性能学习 系列 实战 模型 选择
2023-09-11 14:14:53 时间

*有了前一节的性能检验的理论,我们就可以讨论一些具体的性能检验方法,包括:

  • 二项检验
  • t t t检验
  • 似然比检验*

具体的性能检验方法

二项检验*

本小节更正了【西瓜书】相关内容,请仔细看。
以前述的两种检验方法(临界值法、p值法)为检验的“框架”,应用这个“框架”我们讨论二项检验 H 0 : ϵ = ϵ 0 H_0:\epsilon = \epsilon _0 H0:ϵ=ϵ0

以错误率 ϵ \epsilon ϵ作为性能度量。 设学习器的错误率(学习器的泛化性能仅与学习器相关,即它是关于样本变量的常数 )为 ϵ \epsilon ϵ,则正确率为 1 − ϵ 1-\epsilon 1ϵ
由伯努利试验知,学习器对 m m m个样本的预测中有 i i i个出错的概率为
P ( i ; ϵ ) = ( m i ) ϵ i ( 1 − ϵ ) m − i i = 0 , 1 , 2 , ⋯   , m \begin{align} P(i;{\epsilon})={m \choose i}\epsilon ^{ i}(1-\epsilon )^{m-i}\qquad i=0,1,2,\cdots,m \tag{2} \end{align} P(i;ϵ)=(im)ϵi(1ϵ)mii=0,1,2,,m(2)
设学习器在测试集中的表现为: m m m个测试样本中有 m ′ m' m个被错误地分类,即
ϵ ^ = m ′ m \begin{align} \hat{\epsilon} =\frac{m'}{m} \tag{3} \end{align} ϵ^=mm(3)

由式(2)、式(3)知,在 ϵ {\epsilon} ϵ的条件下发生 ϵ ^ \hat{\epsilon} ϵ^的概率为 ϵ {\epsilon} ϵ的函数
f ( ϵ ) = P ( ϵ ^ ; ϵ ) = ( m ϵ ^ m ) ϵ ϵ ^ m ( 1 − ϵ ) m − ϵ ^ m \begin{align} f({\epsilon})=P(\hat{\epsilon};{\epsilon})={m \choose \hat{\epsilon}m}\epsilon ^{ \hat{\epsilon}m}(1-\epsilon )^{m-\hat{\epsilon}m} \tag{4} \end{align} f(ϵ)=P(ϵ^;ϵ)=(ϵ^mm)ϵϵ^m(1ϵ)mϵ^m(4)
对其求导,有
∂ f ( ϵ ) ∂ ϵ = ( m ϵ ^ m ) ϵ ϵ ^ m − 1 ( 1 − ϵ ) m − ϵ ^ m − 1 m ( ϵ ^ − ϵ ) \begin{align} \frac{ \partial f({\epsilon})}{\partial{\epsilon} }= {m \choose \hat{\epsilon}m}\epsilon^{ \hat{\epsilon}m-1}(1-\epsilon )^{m-\hat{\epsilon}m-1}m(\hat{\epsilon}-\epsilon) \tag{5} \end{align} ϵf(ϵ)=(ϵ^mm)ϵϵ^m1(1ϵ)mϵ^m1m(ϵ^ϵ)(5)
由式(5)中的 ( ϵ ^ − ϵ ) (\hat{\epsilon}-\epsilon) (ϵ^ϵ)知,函数 f ( ϵ ) f({\epsilon}) f(ϵ) f ( 0 ) = 0 f(0)=0 f(0)=0单调递增到最大值 f ( ϵ ^ ) f(\hat{\epsilon}) f(ϵ^)然后单调下降到 f ( 1 ) = 0 f({1})=0 f(1)=0,这种趋势像“正态分布”。

给定常数 ( ϵ 0 < 1 2 ) ({\epsilon_0}<\frac{1}{2}) ϵ0<21,由式(2)有
P ( i ; ϵ = ϵ 0 ) = ( m i ) ϵ 0 i ( 1 − ϵ 0 ) m − i i = 0 , 1 , 2 , ⋯   , m \begin{align} P(i;{\epsilon}={\epsilon}_0)={m \choose i}\epsilon_0 ^{ i}(1-\epsilon_0 )^{m-i}\qquad i=0,1,2,\cdots,m \tag{6} \end{align} P(i;ϵ=ϵ0)=(im)ϵ0i(1ϵ0)mii=0,1,2,,m(6)
P ( i ; ϵ = ϵ 0 ) P(i;{\epsilon}={\epsilon}_0) P(i;ϵ=ϵ0)是关于 i i i的函数,但不是连续的。 不能用上述求导方法来判断单调性,观察其特点,我们作比率
P ( i + 1 ; ϵ = ϵ 0 ) P ( i ; ϵ = ϵ 0 ) = m − i i + 1 × ϵ 0 1 − ϵ 0 = 1 − ϵ ′ ϵ ′ + 1 / m × ϵ 0 1 − ϵ 0 , ( ϵ ′ = i m ) \begin{align} \frac{P(i+1;{\epsilon}={\epsilon}_0)}{P(i;{\epsilon}={\epsilon}_0)} & =\frac{m-i}{i+1}\times\frac{{\epsilon}_0}{1-{\epsilon}_0}\notag \\ & =\frac{1-{\epsilon}'}{{\epsilon}'+1/m}\times\frac{{\epsilon}_0}{1-{\epsilon}_0},\qquad ({\epsilon}'=\frac{i}{m}) \tag{7} \end{align} P(i;ϵ=ϵ0)P(i+1;ϵ=ϵ0)=i+1mi×1ϵ0ϵ0=ϵ+1/m1ϵ×1ϵ0ϵ0,(ϵ=mi)(7)
式(7)分为两种情况:
ϵ ′ < ϵ 0 − 1 m {\epsilon}'<{\epsilon}_0-\frac{1}{m} ϵ<ϵ0m1时:
P ( i + 1 ; ϵ = ϵ 0 ) P ( i ; ϵ = ϵ 0 ) > 1 − ϵ 0 + 1 / m ϵ 0 × ϵ 0 1 − ϵ 0 > 1 − ϵ 0 ϵ 0 × ϵ 0 1 − ϵ 0 = 1 \begin{align} \frac{P(i+1;{\epsilon}={\epsilon}_0)}{P(i;{\epsilon}={\epsilon}_0)} & >\frac{1-{\epsilon}_0+1/m}{{\epsilon}_0}\times\frac{{\epsilon}_0}{1-{\epsilon}_0}\notag \\ & >\frac{1-{\epsilon}_0}{{\epsilon}_0}\times\frac{{\epsilon}_0}{1-{\epsilon}_0}=1 \tag{8} \end{align} P(i;ϵ=ϵ0)P(i+1;ϵ=ϵ0)>ϵ01ϵ0+1/m×1ϵ0ϵ0>ϵ01ϵ0×1ϵ0ϵ0=1(8)
ϵ ′ > ϵ 0 {\epsilon}'>{\epsilon}_0 ϵ>ϵ0时:
P ( i + 1 ; ϵ = ϵ 0 ) P ( i ; ϵ = ϵ 0 ) < 1 − ϵ ′ ϵ ′ + 1 / m × ϵ ′ 1 − ϵ ′ < 1 − ϵ ′ ϵ ′ × ϵ ′ 1 − ϵ ′ = 1 \begin{align} \frac{P(i+1;{\epsilon}={\epsilon}_0)}{P(i;{\epsilon}={\epsilon}_0)} & <\frac{1-{\epsilon}'}{{\epsilon}'+1/m}\times\frac{{\epsilon}'}{1-{\epsilon}'}\notag \\ & <\frac{1-{\epsilon}'}{{\epsilon}'}\times\frac{{\epsilon}'}{1-{\epsilon}'}=1 \tag{9} \end{align} P(i;ϵ=ϵ0)P(i+1;ϵ=ϵ0)<ϵ+1/m1ϵ×1ϵϵ<ϵ1ϵ×1ϵϵ=1(9)
ϵ ′ = i m {\epsilon}'=\frac{i}{m} ϵ=mi,将式(8)、式(9)转化为由 i i i表达,即
P ( i + 1 ; ϵ = ϵ 0 ) P ( i ; ϵ = ϵ 0 )   { > 1 , ( 当 i < [ m ϵ 0 − 1 ] ) < 1 , ( 当 i > [ m ϵ 0 ] ) \begin{align} \frac{P(i+1;{\epsilon}={\epsilon}_0)}{P(i;{\epsilon}={\epsilon}_0)}\ \begin{cases} >1,\qquad (\text{当}\quad i<[m{\epsilon}_0-1]) \\ <1,\qquad (\text{当}\quad i>[m{\epsilon}_0]) \\ \end{cases} \tag{10} \end{align} P(i;ϵ=ϵ0)P(i+1;ϵ=ϵ0) {>1,(i<[mϵ01])<1,(i>[mϵ0])(10)
由式(10)知, P ( i ; ϵ = ϵ 0 ) P(i;{\epsilon}={\epsilon}_0) P(i;ϵ=ϵ0)也具有像“正态分布”的两侧增减性质:
先升至 P ( [ m ϵ 0 ] ; ϵ = ϵ 0 ) P([m{\epsilon}_0];{\epsilon}={\epsilon}_0) P([mϵ0];ϵ=ϵ0)再降,这即是【西瓜书图2.6】所示。

式(10)揭示 P ( i ; ϵ = ϵ 0 ) P(i;{\epsilon}={\epsilon}_0) P(i;ϵ=ϵ0)具有“尾部”性质,给定显著水平 α \alpha α(小概率的阈值),可取
k ∗ = min ⁡ k ∑ i = k m P ( i ; ϵ = ϵ 0 ) < α \begin{align} k^*=\mathop{\min}\limits_k\sum_{i=k}^mP(i;{\epsilon}={\epsilon}_0)<\alpha \tag{11} \end{align} k=kmini=kmP(i;ϵ=ϵ0)<α(11)
ϵ ‾ \overline{\epsilon} ϵ满足 m ϵ ‾ + 1 = k ∗ m\overline{\epsilon}+1=k^* mϵ+1=k,式(11)转化为
ϵ ‾ = min ⁡ ϵ ′ ∑ i = ϵ ′ m + 1 m ( m i ) ϵ 0 i ( 1 − ϵ 0 ) m − i < α \begin{align} \overline{\epsilon}=\mathop{\min}\limits_{{\epsilon}'}\sum_{i={\epsilon}'m+1}^m{m \choose i}\epsilon_0 ^{ i}(1-\epsilon_0 )^{m-i}<\alpha \tag{12} \end{align} ϵ=ϵmini=ϵm+1m(im)ϵ0i(1ϵ0)mi<α(12)
式(12)即为【西瓜书式(1.27)】。

现在,我们考察在条件 ϵ = ϵ 0 {\epsilon}={\epsilon}_0 ϵ=ϵ0下,事件 ϵ ^ > ϵ ‾ \hat{\epsilon}>\overline{\epsilon} ϵ^>ϵ发生的概率
P ( ϵ ^ > ϵ ‾ ; ϵ = ϵ 0 ) = P ( m ′ m > ϵ ‾ ; ϵ = ϵ 0 ) = P ( m ′ > m ϵ ‾ ; ϵ = ϵ 0 ) = P ( ( m ϵ ‾ + 1 ) ∪ ( m ϵ ‾ + 2 ) ∪ ⋯ ∪ ( m ) ; ϵ = ϵ 0 ) = ∑ i = k ∗ m P ( i ; ϵ = ϵ 0 ) < α \begin{align} P(\hat{\epsilon}>\overline{\epsilon};{\epsilon}={\epsilon}_0) & =P(\frac{m'}{m}>\overline{\epsilon};{\epsilon}={\epsilon}_0)\notag \\ & =P(m'>m\overline{\epsilon };{\epsilon}={\epsilon}_0)\notag \\ & =P((m\overline{\epsilon }+1)\cup (m\overline{\epsilon }+2)\cup \cdots \cup (m);{\epsilon}={\epsilon}_0)\notag \\ & =\sum_{i=k^*}^mP(i;{\epsilon}={\epsilon}_0)\notag \\ & <\alpha \tag{13} \end{align} P(ϵ^>ϵ;ϵ=ϵ0)=P(mm>ϵ;ϵ=ϵ0)=P(m>mϵ;ϵ=ϵ0)=P((mϵ+1)(mϵ+2)(m);ϵ=ϵ0)=i=kmP(i;ϵ=ϵ0)<α(13)
由此即可得到二项检验的临界值法,其步骤:

(1)提出原假设 H 0 : ϵ = ϵ 0 H_0:\epsilon = \epsilon _0 H0:ϵ=ϵ0,( ϵ 0 < 1 2 \epsilon _0<\frac{1}{2} ϵ0<21为常数)。

(2)确定显示水平 α \alpha α(小概率的阈值),将 α , ϵ 0 \alpha,\epsilon _0 α,ϵ0代入式(12)计算临界值 ϵ ‾ \overline{\epsilon} ϵ

(3)试验:学习器在测试集中进行试验(测试),统计得到 m ′ m' m,计算 ϵ ^ = m ′ m \hat{\epsilon}=\frac{m'}{m} ϵ^=mm

(4)作出判断:若 ϵ ^ > ϵ ‾ \hat{\epsilon}>\overline{\epsilon} ϵ^>ϵ,则由式(13)说明小概率事件发生了,应拒绝原假设 H 0 H_0 H0,接受备选假设 H 1 H_1 H1;否则,接受原假设 H 0 H_0 H0

t t t检验

由统计学知识知【西瓜书式(2.30)】定义的统计量 τ t \tau _t τt服从 t t t分布,如【西瓜书图(2.7)】所示,类似式(1)得到双测
“尾部”为 [ t α / 2 , + ∞ ) [t_{\alpha/2},+\infty) [tα/2,+) ( − ∞ , − t α / 2 ] (-\infty,-t_{\alpha/2}] (,tα/2],单侧时为 [ t α , + ∞ ) [t_\alpha,+\infty) [tα,+)。 通常编制双侧情况下 α \alpha α t α / 2 t_{\alpha/2} tα/2的对应关系表,那么,对于单侧,则令 α 1 = α / 2 \alpha_1=\alpha/2 α1=α/2转化为双侧。

检验步骤:

(1)提出原假设(这里 H 0 H_0 H0的意思是:可用测试的平均性能作为泛化性能。 实际上我们就是这样做的,这里就是要检验这样做的合理性), H 0 : μ = ϵ 0 H_0:\mu =\epsilon _0 H0:μ=ϵ0,( ϵ 0 \epsilon _0 ϵ0为常数),其中, μ = ϵ \mu =\epsilon μ=ϵ为平均测试错误率, ϵ 0 \epsilon _0 ϵ0为泛化错误率。

(2)确定显示水平下的临界值,即给定显示水平 α \alpha α,由 α \alpha α k k k查【西瓜书表2.3】得到临界值 t α / 2 , k − 1 t_{\alpha/2,k-1} tα/2,k1

(3)根据学习器的测试数据,计算统计量 τ t \tau _t τt的实际值 τ t ^ \hat{\tau _t} τt^

(4)比较 τ t ^ \hat{\tau _t} τt^与临界值 t α / 2 , k − 1 t_{\alpha/2,k-1} tα/2,k1,按“临尾而拒”的规则来判断是否接受原假设。

从上述我们可以看出,先提出需要检验的假设(即原假设),再根据该假设及统计学知识设计合适的统计量(如,上述的统计量 τ t \tau _t τt),后续步骤则是按部就班的。

似然比检验*

本小节我们利用似然函数及极大似然法MLE相关知识构造出一种检验方法。这小节需要较多的统计学知识,有一定的难度。

1.参数模型

设参数模型: θ = θ ( η ) \theta =\theta (\eta ) θ=θ(η),对于样本集 { x i } i = 1 n \{x_i\}_{i=1}^n {xi}i=1n,其似然函数是关于 θ \theta θ的函数
L ( θ ) = ∏ i = 1 n p ( x i ; θ ) \begin{align} L(\theta)=\prod _{i=1}^np(x_i;\theta) \tag{14} \end{align} L(θ)=i=1np(xi;θ)(14)
θ \theta θ的极大似然估计MLE为
θ ^ = arg ⁡ max ⁡ θ L ( θ ) \begin{align} \hat{\theta} =\arg\mathop{\max}\limits_{\theta}L(\theta) \tag{15} \end{align} θ^=argθmaxL(θ)(15)
作似然比
R ( θ ) = L ( θ ) L ( θ ^ ) \begin{align} R({\theta} )=\frac{L ({\theta} )}{ L (\hat{\theta} )} \tag{16} \end{align} R(θ)=L(θ^)L(θ)(16)
现在讨论对假设 H 0 : θ = θ 0 H_0:\theta =\theta_0 H0:θ=θ0的检验。

(1)在参数模型中,MLE可以“代入”:
若参数 η \eta η的MLE为 η ^ \hat{\eta} η^,则该参数的函数 θ = θ ( η ) \theta =\theta (\eta ) θ=θ(η)的MLE为 θ ^ = θ ( η ^ ) \hat{\theta} =\theta (\hat{\eta} ) θ^=θ(η^)

(2)Milks定理表明:在适当条件(略)下,当样本数趋于无穷多时,有
− 2 log ⁡ ( R ( θ ) ) 依分布收敛于 χ 2 \begin{align} -2{\log}(R({\theta} ))\text{依分布收敛于}\chi ^2 \tag{17} \end{align} 2log(R(θ))依分布收敛于χ2(17)
其中, χ 2 \chi ^2 χ2的自由度常取参数 θ {\theta} θ的维数 c c c

基于结论式(17),对 χ 2 \chi ^2 χ2图象进行依 α \alpha α截尾处理(保留置信范围 ( 1 − α ) (1-\alpha ) (1α)),可解不等式得到参数 θ ( η ) \theta (\eta) θ(η)的置信域
{ θ 0 ∣ R ( θ 0 ) ⩾ r α } \begin{align} \{\theta_0 |R({\theta_0} )\geqslant r_{\alpha } \} \tag{18} \end{align} {θ0R(θ0)rα}(18)
其中, r α r_{\alpha } rα与显著水平 α \alpha α相关,为简单起见,我们取为常数 c c c(参数 θ {\theta} θ的维数)。 即:如果 L ( η 0 ) L (\eta _0) L(η0) L ( η ^ ) L (\hat{\eta} ) L(η^)“小得多”(即 R ( θ 0 ) < c R({\theta_0} )<c R(θ0)<c),则拒绝原假设 H 0 : θ = θ 0 H_0:\theta =\theta_0 H0:θ=θ0,反之,则接受原假设。

2.非参数模型

参考上述参数模型中的情形,我们构造出非参数模型中的“假设 H 0 : θ = θ 0 H_0:\theta =\theta_0 H0:θ=θ0”的检验。

设非参数模型(因 F F F不是参数,故为非参数模型,又 F F F是函数,故我们写为泛函的中括号表达 θ [ F ] \theta [F] θ[F]): θ = θ [ F ] \theta =\theta [F] θ=θ[F],其中, F F F随机变量 X X X的累计分布函数(亦称分布函数)
F ( x ) = P ( X ⩽ x ) \begin{align} F(x)=P(X\leqslant x) \tag{19} \end{align} F(x)=P(Xx)(19)
n n n个样本 X j , ( j = 1 , 2 , ⋯   , n ) X_j,(j=1,2,\cdots,n) Xj,(j=1,2,,n),定义其经验似然函数为
L n [ F ] = ∏ j = 1 n P ( X j ) \begin{align} L_n[F] & =\prod _{j=1}^nP(X_j) \tag{20} \end{align} Ln[F]=j=1nP(Xj)(20)
设取出的样本(严格来讲是独立同分布随机变量各进行一次采样)。 X j , ( j = 1 , 2 , ⋯   , n ) X_j,(j=1,2,\cdots,n) Xj,(j=1,2,,n)中只有 K K K个不相同的值 { z 1 , z 2 , ⋯   , z K } \{z_1,z_2,\cdots,z_K\} {z1,z2,,zK},各值对应的概率分别为 { P 1 , P 2 , ⋯   , P K } \{P_1,P_2,\cdots,P_K\} {P1,P2,,PK},各值出现的次数分别为 { n 1 , n 2 , ⋯   , n K } \{n_1,n_2,\cdots,n_K\} {n1,n2,,nK},则对式(20)中进行“合并同类项”处理,有
L n [ F ] = ∏ i = 1 K P i n i \begin{align} L_n[F] & =\prod _{i=1}^KP_i^{n_i} \tag{21} \end{align} Ln[F]=i=1KPini(21)
样本 { z 1 , z 2 , ⋯   , z K } \{ z_1,z_2,\cdots,z_K\} {z1,z2,,zK}对应的频率为 { n 1 n , n 2 n , ⋯   , n K n } \{ \frac{n_1}{n},\frac{n_2}{n},\cdots,\frac{n_K}{n}\} {nn1,nn2,,nnK},对式(21)以频率代替概率,记
L n ( F ^ ) = ∏ i = 1 K ( n i n ) n i \begin{align} L_n(\hat{F}) & =\prod _{i=1}^K(\frac{n_i}{n})^{n_i} \tag{22} \end{align} Ln(F^)=i=1K(nni)ni(22)
作经验似然比
R n [ F ] = L n [ F ] L n ( F ^ ) = ∏ i = 1 K ( n P i n i ) n i = ∏ i = 1 K ( P i P ^ i ) n i \begin{align} R_n[F] & =\frac{L_n[F]}{L_n(\hat{F})}\notag \\ & =\prod _{i=1}^K\left(\frac{nP_i}{n_i}\right)^{n_i} \tag{23} \\ & =\prod _{i=1}^K\left(\frac{P_i}{\hat{P}_i}\right)^{n_i} \tag{23-1} \end{align} Rn[F]=Ln(F^)Ln[F]=i=1K(ninPi)ni=i=1K(P^iPi)ni(23)(23-1)
其中, P ^ i = n i n \hat{P}_i=\frac{n_i}{n} P^i=nni z i z_i zi出现的频率。

由于样本值 z i z_i zi对应的概率为 P i P_i Pi,出现次数为 n i n_i ni,将概率 P i P_i Pi分摊到取 z i z_i zi值的样本( { X j ∣ X j = n i } \{X_j|X_j=n_i\} {XjXj=ni})中, X j X_j Xj分摊 w j w_j wj,则有
P i = ∑ j : X j = z i w j , i = 1 , 2 , ⋯   , K n P i = ∑ j : X j = z i n w j , i = 1 , 2 , ⋯   , K ∑ j : X j = z i n P i n i = ∑ j : X j = z i n w j , i = 1 , 2 , ⋯   , K \begin{align} P_i=\sum_{j:X_j=z_i}w_j,\quad i=1,2,\cdots,K\notag \\ nP_i=\sum_{j:X_j=z_i}nw_j,\quad i=1,2,\cdots,K\notag \\ \sum_{j:X_j=z_i}\frac{nP_i}{n_i}=\sum_{j:X_j=z_i}nw_j,\quad i=1,2,\cdots,K \tag{24} \end{align} Pi=j:Xj=ziwj,i=1,2,,KnPi=j:Xj=zinwj,i=1,2,,Kj:Xj=zininPi=j:Xj=zinwj,i=1,2,,K(24)
其中,左边为对 n P i nP_i nPi进行等分。

因为:“和”一定的若干个数,当且仅当这些数等分“和”时,“积”最大,因式(24)左侧为已知的常数,故有
max ⁡ ∏ j : X j = z i n w j = ∏ j : X j = z i n P i n i = ( n P i n i ) n i , i = 1 , 2 , ⋯   , K \begin{align} \max \prod _{j:X_j=z_i}nw_j & =\prod _{j:X_j=z_i}\frac{nP_i}{n_i}\notag \\ & =\left(\frac{nP_i}{n_i}\right)^{n_i},\quad i=1,2,\cdots,K \tag{25} \end{align} maxj:Xj=zinwj=j:Xj=zininPi=(ninPi)ni,i=1,2,,K(25)
将式(25)中的 k k k个式子连乘起来,有
max ⁡ ∏ i = 1 n n w i = ∏ i = 1 K ( max ⁡ ∏ j : X j = z i n w j ) = ∏ i = 1 K ( n P i n i ) n i = R n [ F ] (由式(23)) \begin{align} \max \prod _{i=1}^n nw_i & =\prod _{i=1}^K\left(\max \prod _{j:X_j=z_i}nw_j\right)\notag \\ & =\prod _{i=1}^K\left(\frac{nP_i}{n_i}\right)^{n_i}\notag \\ & =R_n[F]\quad \text{(由式(23))} \tag{26} \end{align} maxi=1nnwi=i=1K maxj:Xj=zinwj =i=1K(ninPi)ni=Rn[F](由式(23)(26)
类比在参数模型时的情况式(17),这时同样有结论(通常基于式(26)得截面经验似然比的结论,我们不作讨论):在适当条件下,当样本数趋于无穷多时,有
− 2 log ⁡ ( R n [ F ] ) 依分布收敛于 χ 2 \begin{align} -2{\log} (R_n[F])\text{依分布收敛于}\chi ^2 \tag{27} \end{align} 2log(Rn[F])依分布收敛于χ2(27)
该结论式(27)即可用于统计检验。

对于二分类问题,我们做个转换:
− 2 log ⁡ ( R n [ F ] ) = 2 log ⁡ ( R n [ F ] ) − 1 = 2 log ⁡ ( ∏ i = 1 2 ( P i P ^ i ) n i ) − 1 = 2 log ⁡ ( ( P ^ 1 P 1 ) n 1 ( P ^ 2 P 2 ) n 2 ) = 2 ( n 1 log ⁡ P ^ 1 P 1 + n 2 log ⁡ P ^ 2 P 2 ) \begin{align} -2{\log}(R_n[F]) & =2{\log}(R_n[F])^{-1}\notag \\ & =2{\log}\left(\prod _{i=1}^2\left(\frac{P_i}{\hat{P}_i}\right)^{n_i}\right)^{-1}\notag \\ & =2{\log}\left(\left(\frac{\hat{P}_1}{P_1}\right)^{n_1}\left(\frac{\hat{P}_2}{P_2}\right)^{n_2}\right)\notag \\ & =2\left({n_1}{\log}\frac{\hat{P}_1}{P_1}+{n_2}{\log}\frac{\hat{P}_2}{P_2}\right) \tag{28} \end{align} 2log(Rn[F])=2log(Rn[F])1=2log(i=12(P^iPi)ni)1=2log((P1P^1)n1(P2P^2)n2)=2(n1logP1P^1+n2logP2P^2)(28)
其中,频率为 P ^ 1 = n 1 n \hat{P}_1=\frac{n_1}{n} P^1=nn1 P ^ 2 = n 2 n \hat{P}_2=\frac{n_2}{n} P^2=nn2

式(28)作为二分类问题时的似然比统计量(LRS)反映了分布 ( P ^ 1 , P ^ 2 ) (\hat{P}_1,\hat{P}_2) (P^1,P^2)与分布 ( P 1 , P 2 ) ({P}_1,{P}_2) (P1,P2)的差别,二者越接近LRS越大,当训练中需要判断二者是否接近时,通常设置较大的阈值(如,0.99)作为判断条件。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:2.6 机器学习中的性能好,不是指“快”而是指“准”
下一篇:2.8 学习器的比较方法