The weighted marjority algorithm
Theroem
在T回合结束后,记$m_i^T$为第i个专家的犯错次数,$M_i^T$为算法的犯错次数,那么有上界
对于任意的事后决策i都成立.
_pf_:
对于第t个回合来说,如果此回合中算法犯错,那么犯错专家的权重之和大于 $\frac 12$.根据定义,$w_i^{T+1} = (1-\eta)^{m_i^T}$
记
则有
若算法没有犯错,则有
进而
且
对于$\eta<\frac12$, 有$-\ln (1-\eta)\le \eta+\eta^2$,命题成立
The Multiplicative Weights Algorithm
Setting
更为广义的设定是,每一个回合中我们有n个决策,在选择决策之后会知晓所有决策对应的损失,同时得到我们所作出的决策对应的损失。
Notation
对于第t个回合(t=1,$\dots$,T), 第i个决策对应的权重为$p_i^t$,对应的损失为$m_i^t$,那么这一个回合的期望损失为$
$。从online learning的角度看,最后最小化
Algorithm
Theorem
假设所有损失$m_i^t\in [-1,1]$,$\eta\le \frac12$,那么对于任意事后决策i成立:
_pf_:
根据指数函数的凸性,
因为$m_i^t\in [-1,1]$,对于所有决策i,
取对数,可知
利用
命题可证
如果将命题中的不等式加权相加,可知对任意后验的决策上的分布p,有
Update with exponential factors: The Hedge algorithm
得到的上界略有不同,使用不等式替换前述不等式。
Theorem
假设$m_i^t\in [-1,1],\eta\le 1$。Hedge算法保证在T回合之后,对于任意决策i,有
Proof via KL-divergence : why MW works
考虑以下情形:定义$\mathbb{P}$为在决策上的所有概率分布的凸子集,在每一个回合t中,决策者需要生成一个决策上的概率分布$p^t\in \mathbb{P}$,当做出决策之后,就会知晓$m^t$,决策者的期望损失是$\langle p^t,m^t \rangle$。在所有回合结束之后,我们希望比较决策者的总损失和后验的最佳决策概率分布(属于$\mathbb{P}$)带来的损失。
Algorithm
Theorem
假设$m_i^t\in [-1,1],\eta\le 1$。有限分布的MW算法保证在T回合之后,对于任意决策概率分布$p\in \mathbb{P}$,有
_pf_:
使用$p$和$p^t$的KL散度作为potential function
然后,我们有
从而有
这个不等式说明了如果本回合的期望损失过大(相对于后验的p),那么$\hat{p}^{t+1}$在KL散度意义下比$p^t$距离$p$更近
根据Generalized Pythagorean inequality,
从而
求和,可得
QED.
Gains instead of loss
如果每一个回合获得的是收益$m_i^t$,只需要将前述定理中的$m_i^t$去负号