Křížová entropie

entropie

Křížová entropie mezi dvěma rozděleními pravděpodobnosti a se stejnou podkladovou množinou událostí míry je v teorii informace průměrný počet bitů potřebných pro identifikaci události vybrané z množiny, jestliže kódovací schéma používané pro množinu je optimalizované pro odhadnuté rozdělení pravděpodobnosti místo skutečného rozdělení .

Definice

editovat

Křížová entropie rozdělení   vůči rozdělení   na dané množině je definovaná takto:

 .

Jiná definice používá Kullbackovu–Leiblerovu divergenci   rozdělení   z   (neboli relativní entropie rozdělení   vzhledem k  ):

 ,

kde   je entropie rozdělení  .

Pro diskrétní pravděpodobnostní distribuce   a   se stejným nosičem   to znamená

  (rovnice 1)

Pro spojité distribuce je situace analogická. Musíme předpokládat, že   a   jsou absolutně spojité vzhledem k nějaké referenční míře   (obvykle je   Lebesgueova míra na Borelovské σ-algebře). Nechť   a   jsou hustoty pravděpodobností rozdělení   a   vzhledem k  . Pak

 

a tedy

  (rovnice 2)

Poznámka: Notace   se používá také pro jinou veličinu, sdruženou entropii rozdělení   a  .

Motivace

editovat

Kraftova–McMillanova věta v teorii informace říká, že jakékoli přímo dekódovatelné kódovací schéma pro kódování zprávy identifikující jednu hodnotu   ze sady možností   můžeme považovat za reprezentaci implicitního rozdělení pravděpodobnosti   pro  , kde   je délka kódu pro   v bitech. Proto lze křížovou entropii interpretovat jako očekávanou délku zprávy pro zakódování jedné položky, když předpokládáme nějaké rozdělení  , zatímco data mají ve skutečnosti rozdělení  . To znamená, že očekávané hodnoty se berou ze skutečného rozdělení pravděpodobnosti   místo z  . Očekávaná délka zprávy při skutečném rozdělení   je

 

Je mnoho situací, kdy by bylo třeba měřit křížovou entropii, ale rozdělení   je neznámé. Příkladem je jazykové modelování, kde model je vytvořen na trénovací množině   a jeho křížová entropie je pak měřena na testovací množině pro zhodnocení, jak je model přesný v predikci testovacích dat. V tomto příkladě je   skutečné rozdělení slov v nějakém korpusu a   je rozdělení slov predikované modelem. Protože skutečné rozdělení je neznámé, nelze křížovou entropii přímo spočítat. V takovém případě se odhad křížové entropie počítá pomocí vzorce:

 

kde   je velikost testovací množiny a   je pravděpodobnost události   odhadnuté z trénovací množiny. Suma se počítá přes  . Toto je pravděpodobnostní (Monte Carlo) odhad skutečné křížové entropie, při kterém testovací množinu považujeme za vzorek z  .

Vztah k logaritmické věrohodnosti

editovat

U klasifikačních problémů chceme odhadnout pravděpodobnost jednotlivých výsledků. Pokud odhadnutá pravděpodobnost výsledku   je  , zatímco frekvence (empirická pravděpodobnost) výsledku   v trénovací množině je   a v trénovací množině je N vzorků, pak věrohodnost trénovací množiny je

 

a logaritmická věrohodnost vydělená   je

 

takže maximalizace věrohodnosti je totéž jako minimalizace křížové entropie.

Minimalizace křížové entropie

editovat

Minimalizace křížové entropie se často používá při optimalizaci a odhadu pravděpodobnosti řídkých událostí; viz metoda křížové entropie.

Při porovnávání rozdělení   s pevným referenčním rozdělením   jsou křížová entropie a KL divergence identické až na aditivní konstantu (protože   je pevné): obě nabývají pro   své minimální hodnoty, která je   pro KL divergenci a   pro křížovou entropii[1]. V inženýrské literatuře se postup minimalizace KL divergence (Kullbackův "Princip minimální diskriminace informace") často nazývá Princip minimální křížové entropie (MCE, z anglického Principle of Minimum Cross-Entropy) nebo Minxent.

Jak je však diskutováno v článku Kullbackova–Leiblerova divergence, někdy je rozdělení   fixováno před referenčním rozdělením a rozdělení   je optimalizováno, aby bylo co nejbližší k  , při platnosti určitých omezení. V takovém případě obě minimalizace nejsou ekvivalentní. To vedlo k určité nejednoznačnosti v literatuře, protože někteří autoři usilovali vyřešit nekonzistenci tím, že termínem křížová entropie označují   místo  .

Nákladová funkce křížové entropie a logistická regrese

editovat

Křížovou entropii lze použít pro definování nákladové funkce při strojovém učení a optimalizaci. Skutečná pravděpodobnost   je skutečný popisek a dané rozdělení   je predikovanou hodnotou současného modelu.

Konkrétněji uvažujme logistickou regresi, kterou lze (mimo jiné) použít pro klasifikaci pozorování do dvou možných tříd (často značených   a  ). Výstup modelu pro určité pozorování dané vektorem vstupních vlastností   lze interpretovat jako pravděpodobnost, což slouží jako základ pro klasifikaci pozorování. Pravděpodobnost je znázorněna pomocí logistické funkce   kde   je nějaká funkce vstupního vektoru  , obvykle pouze lineární funkce. Pravděpodobnost výstupu   je

 

kde vektor vah   je optimalizován pomocí nějakého vhodného algoritmu, jako například metodou gradientního spádu. Podobně komplementární pravděpodobnost hledání výstup   je

 

Při použití notace   a   můžeme používat křížovou entropii pro získání míry odlišnosti mezi   a  :

 

Typická nákladová funkce, kterou používáme v logistické regresi, se počítá jako průměr všech křížových entropií ve vzorku. Pokud například máme   vzorků indexovaných  , bude nákladová funkce

 

kde   a   je logistická funkce stejně jako výše.

Logistická ztráta se někdy nazývá ztráta křížové entropie nebo logaritmická ztráta (V tomto případě se třídy zpravidla označují hodnotami {-1,+1})[2].

Reference

editovat

V tomto článku byl použit překlad textu z článku cross entropy na anglické Wikipedii.

  1. GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron. Deep Learning. [s.l.]: MIT Press, 2016. Dostupné online. 
  2. MURPHY, Kevin. Machine Learning: A Probabilistic Perspective. [s.l.]: MIT, 2012. ISBN 978-0262018029. 

Související články

editovat

Externí odkazy

editovat