Úvodní stránka | Tato stránka v originále

Entropie informací

Entropie je pojetí v termodynamice (viz entropie thermodynamic) a informační teorie. Dvě pojetí dělají vlastně mít něco v obyčejný, ačkoli to vyžaduje důkladné chápání obou polí pro toto stát se jasný.

Claude E. Shannon definoval míru entropie (H = - a Sigma; i žurnál i) to, když platil o zdroji zpráv, mohl určovat kanálovou požadovanou kapacitu předat zdroj jak zakódovaná binární čísla. Shannonova entropie míra přišla být vzat jako míra informací obsažených ve zprávě jak protichůdný k části zprávy, která je přísně předurčená (od této doby předvídatelný) neodmyslitelnými strukturami. Pro příklad, nadbytečnost ve struktuře jazyka nebo statistické vlastnosti se vztahovat k výskytovým frekvencím dopisu nebo párů slova, triplets etc. Viďte Markov řetězy.

Shannonova definice entropie je blízko příbuzná entropii thermodynamic jak definovaný fyziky a mnoho lékáren. Boltzmann a Gibbs dělal značnou práci na statistické termodynamice, který se stal inspirací pro přijímat entropii termínu v teorii informace. Tam jsou vztahy mezi thermodynamic a informační entropií. Například, Maxwellův démon obrátí entropii thermodynamic s informacemi, ale získání té informace přesně vyrovná thermodynamic zisk démon by jinak dosáhl.

V teorii informace, entropie je pojmově skutečné množství (informace teoretický) informace v kuse dat. Zcela náhodná bajtová data mají entropii o infinity, protože příští charakter je neznámý. Dlouhý provázek má entropie 0, protože příští charakter bude vždy být ' '. Entropie anglického textu je o 1.5 kousky na charakter (pokusit se stlačit to s PPM komprimačním algoritmem!) míra entropie zdroje dat znamená průměrné množství kousků na symbol potřeboval zakódovat to.

  1. Mnoho datových bitů nemůže sdělit informaci. Například, datové struktury často ukládají informaci redundantly, nebo mají totožné sekce bez ohledu na informace v datové struktuře.
  2. Množství entropie není vždy celočíselné množství kousků.

Entropie je účinně nejsilnější non-komprimace lossy možný, který může být realizován teoreticky tím, že používá typický soubor nebo v praxi používat Huffmana, Lempel-Ziv nebo Aritmetické kódování. Definice entropie je založená na Markov modelu textu. Pro objednávku-0 zdroj (každá postava je vybrána nezávislý na posledních charakterech), entropie je:

Kde je pravděpodobnost. Na vteřinu-objednávat Markov zdroj (jeden ze kterého pravděpodobnosti jsou závislé na předchozím charakteru), míra entropie je:

Kde je stát (jisté předchozí charaktery) a je pravděpodobnost daný jako předchozí charakter (s).