一些常用常新的數學公式(備查)

文章目錄

概率論

  • 多元正態分佈
    XN(μ,Σ) \mathbf X\sim\mathrm N(\boldsymbol {\mu},\boldsymbol\Sigma)
    pdf:
    fX(x1,x2,...,xk)=1(2π)kΣe12(xμ)TΣ1(xμ) f_{\mathbf X}(x_1,x_2,...,x_k)=\frac{1}{\sqrt{(2\pi)^k|\boldsymbol\Sigma|}}e^{-\frac{1}{2}(\mathbf x-\boldsymbol\mu)^{\mathrm T}\boldsymbol\Sigma^{-1}(\mathbf x-\boldsymbol\mu)}

信息論

  • Entropy

    H(X)=xXp(x)logp(x) H(X)=-\sum_{x\in \mathcal X}p(x)\log p(x)

  • Cross-entropy
    H(P,Q)=xXP(x)logQ(x) H(P,Q) = -\sum_{x\in \mathcal X}P(x)\log Q(x)

  • K-L divergence
    KL(PQ)=xXP(x)logP(x)Q(x)KL(QP)=xXQ(x)logQ(x)P(x) KL(P||Q)=\sum\limits_{x\in \mathcal X} P(x)\log \frac{P(x)}{Q(x)}\\ \not= \\ KL(Q||P)=\sum\limits_{x\in \mathcal X} Q(x)\log \frac{Q(x)}{P(x)}

  • JSD
    JSD(PQ)=12[KL(PP+Q2)+KL(QP+Q2)] JSD(P||Q)=\frac{1}{2}\Bigg[KL\bigg(P||\frac{P+Q}{2}\bigg)+KL\bigg(Q||\frac{P+Q}{2}\bigg)\Bigg]

  • Wasserstein-distance

    Wasserstein距離又叫Earth-Mover(EM, 推土機 )距離
    W(Pr,Pg)=infγ(Pr,Pg)E(x,y)γ[xy] W(P_r,P_g)=\inf\limits_{\gamma\sim\prod(P_r,P_g)}\Bbb E_{(x,y)\sim\gamma}\bigg[||x-y||\bigg]
    其中(Pr,Pg)\prod(P_r,P_g)是聯合分佈,x爲真實樣本,y爲生成樣本。

    從所有可能的聯合分佈中取樣本距離期望值的下界。

    Wasserstein距離相比KL散度、JS散度的優越性在於,即便兩個分佈沒有重疊,Wasserstein距離仍然能夠反映它們的遠近。

    KL散度和JS散度是突變的,要麼最大要麼最小,Wasserstein距離卻是平滑的,如果我們要用梯度下降法優化θ\theta這個參數,前兩者根本提供不了梯度,Wasserstein距離卻可以。類似地,在高維空間中如果兩個分佈不重疊或者重疊部分可忽略,則KL和JS既反映不了遠近,也提供不了梯度,但是Wasserstein卻可以提供有意義的梯度

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章