Úvodní stránka | Tato stránka v originále

Princip maximální entropie

princip maximální entropie je metoda pro analyzovat dostupný informace aby určoval jedinečný epistemic pravděpodobnost distribuce. Claude E. Shannonová, původce informační teorie, definoval míru nejistoty pro distribuci pravděpodobnosti (H(p) = - & Sigma pi žurnál pi) který on volal entropie informací. V jeho práci, entropie informací byla určována od (i. e. byla funkce) daná pravděpodobnostní distribuce. Princip maximální entropie řekne nám to hovořit je také možný: distribuce pravděpodobnosti může být určována používat informace pojetí entropie. To říká distribuce pravděpodobnosti, která jedinečně reprezentuje nebo kóduje náš stav informací je jeden to maximalizuje míru nejistoty H(p) zatímco zůstane odpovídající našim informacím.

Přirozeně, toto pravidlo je bezvýznamné k těm kdo podporovat výklad frekvence pravděpodobnosti, pro koho pravděpodobnosti jsou poměrné frekvence poněkud než míry víry v nejisté problémy, podmíněný na stavu informací.

Tabulka s obsahem
1 Testable informace
2 generál řešení pro maximum distribuce entropie s lineárními omezeními
3 ospravedlnění pro princip maximální entropie
4 odkazy
5 externích spojení

Testable informace

Princip maximální entropie je jen užitečný když všichni našich informací je třídy nazvaný testable informace. Údaj je testable jestliže my můžeme určovat zda nebo ne daná distribuce je slučitelná s tím. Pro příklad, sdělení

" Očekávání proměnné x je 2.87 "
a
"p2+p3 > 0. 9 "

být sdělení testable informace.

Daný testable informace, maximum procedura entropie sestává z hledat distribuci pravděpodobnosti, která maximalizuje entropii informací, podřízený omezením informací. Tato omezená optimalizace problém je typicky řešil používání metoda Lagrangea multipliers.

Zvětšení entropie s ne testable informace se konají pod jediným omezením: suma pravděpodobností musí být jedna. Pod tímto omezením, maximální entropie distribuce pravděpodobnosti je jednotná distribuce,

Princip maximální entropie může tak být viděn jako zevšeobecňování klasický princip lhostejnosti, také známý jako princip nedostatečného důvodu.

Generál řešení pro maximum distribuce entropie s lineárními omezeními

Jednotlivý případ

My máme některé testable informace o kvantitě x & isin {x1, x2,..., xn}. My vyjádříme tyto informace jak m omezení očekávání funkcí fk, i. e. my vyžadujeme naše epistemic distribuce pravděpodobnosti uspokojit

Furthermore, pravděpodobnosti musí součet k jednomu, dávat omezení

Distribuce pravděpodobnosti s maximální informační entropií podřízenou těmto omezením je

s normalizací konstanta určovala

(Interestingly, Havíř-Koopman teorém říká, že nutná a dostatečná podmínka pro distribuci vzorkování připustit dostatečné statistiky je to to mít obecný tvar maxima distribuce entropie.)

& Lambdak parametry jsou Lagrange multipliers jehož zvláštní hodnoty jsou určeny omezeními shodnout se k

Tito m simultánní rovnice dělají ne obecně posednout uzavřenou formu řešení, a být obvykle řešen numerickými metodami.

Nepřetržitý případ

Pro spojité distribuce, (Jaynes, 1963, 1968, 2003) shledá, že omezená forma výrazu entropie jako distribuce se přiblíží nepřetržitá distribuce je

kde m(x), který Jaynes volal " neměnná míra ", je úměrný omezené hustotě jednotlivých bodů. Pro nyní, my budeme předpokládat, že to je znáno; my budeme diskutovat o tom dále poté, co rovnice řešení jsou dávány.

My máme některé testable informace o kvantitě x který přijme hodnoty někteří pauza reálná čísla (všichni integrals dole být u konce tato pauza). My vyjádříme tyto informace jak m omezení očekávání funkcí fk, i. e. my vyžadujeme naše epistemic funkce hustoty pravděpodobnosti uspokojit

A kursu, hustota pravděpodobnosti musí začlenit k jednomu, dávat omezení

Funkce hustoty pravděpodobnosti s maximem H _ c podřízený těmto omezením je

s normalizací konstanta určovala

Jak v jednotlivém případě, hodnoty & lambdak parametry jsou určeny omezeními shodnout se k

Neměnná měřící funkce m(x) moci být nejlépe rozuměl tím, že předpokládá to x je znán vzít hodnoty jediný v ohraničené pauze (, b), a to žádné jiné informace jsou dávány. Pak maximální entropie funkce hustoty pravděpodobnosti je

kde je konstanta normalizace. Neměnná míra funkce je vlastně dřívější hustotní funkce kódovat ' nedostatek podstatné informace '. To nemůže být určeno principem maximální entropie, a muset být určen nějakou jinou logickou metodou, takový jako princip skupin transformace nebo teorie opomíjení.

Ospravedlnění pro princip maximální entropie

Podpůrcové principu maximální entropie ospravedlňují jeho používání v přiřazovat epistemic pravděpodobnosti v několik cestách, včetně následovat dva argumenty. Tyto argumenty vezmou použití epistemic pravděpodobnost jak daný, a tak mít žádný vliv jestliže pojetí epistemic pravděpodobnost je sám pod otázkou.

Entropie informací jako míra ' uninformativeness '

Zvážit to jednotlivý epistemic distribuce pravděpodobnosti mezi m vzájemně exkluzivní problémy. Nejpoučnější distribuce by nastala, když jeden z problémů byl znán být pravdivý. V tom případě, entropie informací by byla rovná nule. Nejméně poučná distribuce by nastala, když není tam žádný důvod favorizovat některého jeden z problémů přes jiní. V tom případě, jediná rozumná pravděpodobnostní distribuce by byla jednotná a pak entropie informací by byla stejná s jeho maximální možnou hodnotou, žurnál m. Entropie informací může proto být viděn jako numerická míra který popisuje jak uninformative zvláštní pravděpodobnostní distribuce je od nuly (úplně poučný) k žurnálu m (kompletně uninformative).

Tím, že rozhodne se používat distribuci s maximem entropie dovolila našimi informacemi, argument je, my si vybereme nejvíce uninformative distribuce možný. Si vybrat distribuce s nižší entropií by byla převzít informace my neposedneme; si vybrat jednoho s vyšší entropií by porušil omezení informací my dělat posednout. Tak maximum distribuce entropie je jediná rozumná distribuce.

Wallis původ

Následující hádka je výsledek návrhu vyroben Grahamem Wallis k E. T. Jaynesi v roce 1962 (Jaynes, 2003). To je nezbytně stejný matematický argument použitý pro původ funkce rozdělení v statistická mechanika, ačkoli pojmový důraz je docela odlišný. To má výhodu bytí přísně combinatorial v přírodě, dělat žádný odkaz k entropii informací jako míra ' nejistota ', ' uninformativeness ', nebo některý jiný imprecisely definoval pojetí. Informace funkce entropie není považovaná priori, ale spíše je nalezený v běhu argumentu; a argument vede přirozeně k proceduře maximalizovat entropii informací, poněkud než zacházet s tím v nějaké jiné cestě.

Předpokládat jednotlivce přeje si dělat epistemic domácí cvičení pravděpodobnosti mezi m vzájemně exkluzivní problémy. Ona má některé testable informace, ale je nejistý jak chodit zahrnovat tyto informace v jejím stanovení pravděpodobnosti. Ona proto si představí následující náhodný experiment. Ona bude distribuovat N quanta epistemic pravděpodobnost (každá hodnota 1 /N) u náhodný mezi m možnosti. (jeden by mohl představovat si, že ona hodí N míče do m kbelíky zatímco blindfolded. Aby byl co nejvíce férový, každý hodit je být nezávislý na některém jiný, a každý kbelík má být stejná velikost.) jednou experiment je dělán, ona zkontroluje to jestliže domácí cvičení pravděpodobnosti tak trvalo je shodný s jejími informacemi. Jestliže ne, ona bude odmítat to a snažit se znovu. Jinak, její stanovení bude být

kde ni je číslo quanta to bylo zadal ith problém.

Nyní, aby se snížil ' graininess ' epistemic domácí cvičení pravděpodobnosti, to bude být nutné pro použití docela velké množství quanta epistemic pravděpodobnost. Poněkud než vlastně uskutečnit, a možná muset opakovat, poněkud dlouhý náhodný experiment, náš protagonista rozhodne se prostě vypočítat a použít nejpravděpodobnější výsledek. Pravděpodobnost nějakého zvláštního výsledku je multinomial distribuce,

kde

je někdy známý jak multiplicity výsledku.

Nejpravděpodobnější výsledek je jeden který maximalizuje multiplicity W. Poněkud než maximalizovat W přímo, náš protagonista mohl equivalently maximalizovat některého monotonic rostoucí funkce W. Ona rozhodne se maximalizovat

V tomto bodě, v objednávce zjednodušit výraz, náš protagonista vezme limit jak N & rarr & infin, i. e. jak epistemic úrovně pravděpodobnosti jdou od zrnitých jednotlivých hodnot k hladkým nepřetržitým hodnotám. Používání Stirlingovo přiblížení, ona shledá

Všichni to zůstane pro našeho protagonistu dělat je maximalizovat entropii pod omezeními ji testable informace. Ona shledala, že maximum distribuce entropie je nejpravděpodobnější všichni " trh " náhodný epistemic distribuce, v limitu jako pravděpodobnost úrovně jdou od jednotlivý k spojitý.

Odkazy

Jaynes, E. T., 1963, ` informační teorie a statistická mechanika ', ve statistické fyzice, K. Ford (ed.), Benjamin, New York, p. 181. Dostupný tady.

Jaynes, E. T., 1968, ` dřívější pravděpodobnosti ', IEEE Trans. na vědě systémů a kybernetice, SSC-4, 227. Dostupný tady.

Jaynes, E. T., 2003, ' teorie pravděpodobnosti: Logika vědy ', Cambridge univerzitní tiskárna, 2003.

Vnější spojení

Ratnaparkhi A. " jednoduchý úvod do maximální entropie modely pro zpracování přirozeného jazyka " technická zpráva 97-08, ústav pro výzkum poznávací vědy, univerzita Pennsylvanie, 1997. Dostupný tady.