Neuronová síť
umělá neuronová síť, více obyčejně známý jako neuronová síť nebo nervová síť v krátkosti, je matematický model pro informace zpracování založené na connectionist přístupu k výpočtu. Originální inspirace pro techniku byla od zkoušky bioelectrical sítě v mozku se tvořily neurons a jejich synapses. V modelu neuronové sítě, jednoduché uzly (nebo “neurons”, nebo “jednotky”) souviset spolu tvořit síť uzlů - od této doby termín “neuronová síť”.Většina výzkumníků dnes by souhlasilo, že umělé neuronové sítě jsou docela odlišné od mozku v podmínkách struktury. Jako mozek, nicméně, nervová síť je pozoruhodně paralelní sbírka malých a jednoduchých zpracovacích jednotek kde spojení vytvoří velké části se síťovou inteligencí; nicméně, v podmínkách měřítka mozek je pozoruhodně větší než neuronová síť, jednotky používané v neuronové síti jsou typicky daleko jednodušší než neurons, a učící procesy mozku (zatímco neznámo) být téměř jistě odlišný od těch neuronových sítí.
Typický feedforward neuronová síť bude sestávat ze souboru uzlů. Někteří tito jsou označil uzly vstupu, některé uzly výstupu, a ti mezitím skryté uzly. Tam být také spojení mezi neurony, s číslo odkazovalo se na, zatímco váha sdružila se s každým spojením. Když síť je v provozu, hodnota bude aplikována na každý uzel vstupu - bytí hodnot se krmilo v lidským operátorem, nebo od environmentálních senzorů, nebo možná od nějakého jiného programu. Každý uzel pak projde kolem jeho dané hodnoty k vedení spojení ven od toho a na každém spojení hodnota je násobena váhou spojenou s tím spojením. Každý uzel v příští vrstvě pak přijme hodnotu, která je suma hodnot produkovaných prokládáním spojení do toho a v každém uzlu jednoduchý výpočet je vykonáván na hodnotě - funkce sigmoid je typická. Tento proces je pak opakován, s bytím výsledků podaným přes následující vrstvy uzlů až do výstupu uzly jsou podávány. Časné modely (circa 1970) měl fixované množství vrstev. Více nedávno, genetické algoritmy jsou používány vypracovat nervovou strukturu. Vidět: Čistý.
Alternativní výpočetní modely v neuronových sítích zahrnují modely se smyčkami, kde nějaký druh procesu časového zpoždění musí být používán, a “vítěz vezme všechny” modely, kde neuron s nejvyšší hodnotou od výpočtu vystřelí a vezme hodnotu 1, a všichni jiný neurons vzít hodnotu 0.
To by mělo být si všiml toho sigmoid křivková křivka je používána jako funkce převodu, protože to má účinek “rozmačkat” vstupy do rozsahu [0, 1]. Ostatní funkce s podobnými rysy mohou být používány, nejvíce obyčejně tanh () který má výstupní rozmezí [- 1, 1]. Sigmoid funkce má další výhodu vlastnění extrémně jednoduché odvozené funkce pro chyby backpropagating přes krmení-předat neuronovou síť.
Typicky váhy v neuronové síti jsou zpočátku dány k malým náhodným hodnotám; toto reprezentuje síť znát nic. Jak výcvikový proces pokračuje, tyto váhy sblíží se k hodnotám dovolit jim vykonávat užitečné počítání. Tak to může být říkal, že neuronová síť začíná znát nic a přechází k zisku nějaké skutečné znalosti.
Neuronové sítě jsou zvláště užitečné pro prodávání s skákal skutečně-cenil data, kde skutečný-oceněný výstup je požadovaný; tímto způsobem neuronové sítě budou vykonávat klasifikaci postupně, a být schopný vyjadřovat ekvivalent hodnot k “nejistý”. Jestliže neuronová síť je cvičena používat kříž-entropie funkce chyby (viz kniha Bishopa) a jestliže výstup neuronové sítě má sigmoidal nelineární, pak výstupy budou odhady opravdové pozdější pravděpodobnosti třídy.
V aplikacích pravého života, neuronové sítě hrají obzvláště dobře na následujících obyčejných úlohách:
Jiné druhy neuronových sítí, zvláště spojitý-čas recidivující nervový propojí (CTRNN), být použit v souvislosti s genetickými algoritmy(plyn) produkovat kontrolory robota. genom je pak constitued parametrů sítí a zdraví sítě je přiměřenost chování projeveného kontrolovaným robotem (nebo často simulací tohoto chování).Nejčasnější druh neuronové sítě je jeden-navrstvit perceptron síť, který sestává z jediné vrstvy uzlů výstupu; vstupy jsou krmeny přímo k výstupům přes sérii váh. Tímto způsobem to může být považováno za nejjednodušší druh sítě feedforward. Suma produktů váh a vstupů je vypočítána v každém uzlu, a jestliže hodnota je nad nějakým prahem (typicky 0) neuron vystřelí a vezme hodnotu 1; jinak to vyžaduje hodnotu - 1. Neurons s tímto druhem funkce aktivace být také nazvaný McCulloch-Pitts neurons nebo práh neurons. V literatuře termín perceptron často se odkazuje na sítě sestávat z jen jeden z těchto jednotek. Oni byli popsaní Warrenem Mccullochem a Walter Pitts v čtyřicátých létech.
Perceptrons může být cvičen jednoduchým učícím algoritmem, který je obvykle nazvaný delta-pravidlo. To spočítá chyby mezi vypočteným výstupem a vzorkovýma výstupními údaji a použití toto vytvořit přizpůsobení váh, tak realizovat formu generace sklonu.
Jeden-perceptrons jednotky jsou jen schopné učení linearly seperable vzory; v 1969 ve slavné monografii opravňovaný Perceptrons Marvin Minsky a Seymour Papert ukázal, že to bylo nemožné pro jedinou vrstvu perceptron síť se učit XOR funkci. Oni se domýšleli (nesprávně) že podobný výsledek by držel pro multi-navrstvit perceptron síť. Ačkoli jediná prahová jednotka je docela omezená v jeho výpočetní síle, to bylo ukázané že sítě paralelních prahových jednotek mohou přiblížit se nějaké spojité funkci od kompaktního intervalu reálných čísel do pauzy [- 1, 1]. Tento velmi nedávný výsledek může být najit v [Auer, Burgsteiner, Maass: P-deltové učící pravidlo pro paralelní perceptrons, 2001 (říká Jan 2003: se podrobil pro publikaci )].
Jeden-vrstvová neuronová síť může počítat trvalý výkon místo toho skokové funkce. Obyčejný výběr je takzvaná logistická funkce, 1 / (1 + exp (-x)). S tímto výběrem, jeden-vrstvová síť je totožná s logistickým návratovým modelem, široce použitý ve statistickém modelování. Multi-navrstvit perceptron
Tato třída sítí sestává z rozmanitých vrstev výpočetních jednotek, obvykle propojený v feedforward cestě. Toto znamená to každý neuron v jednom vrstva má orientované souvislosti k neurons následující vrstvy. V mnohých žádostech jednotky těchto sítí aplikují funkci sigmoid jako funkce aktivace.
univerzálie teorém přiblížení pro státy neuronových sítí ta každá spojitá funkce, která mapuje intervaly reálných čísel k nějakému výstupnímu intervalu reálných čísel může být zaokrouhlená libovolně blízko multi-perceptron vrstvy se správným skrytá vrstva. Tento výsledek drží jen pro omezené třídy funkcí aktivace, např. pro funkce sigmoidal.
Multi-vrstvové sítě používají paletu technik učení, nejvíce populární bytí backpropagation. Tady výstupní hodnoty jsou srovnávány se správnou odpovědí spočítat hodnotu nějaké chyby predefined-fungovat. Různými technikami chyba je pak záda policajta přes síť. Používat tyto informace, algoritmus nastaví váhy každého spojení aby snížil cenu chyby-funkce nějakým malým množstvím. Poté, co opakoval tento proces pro dostatečně velké množství cyklů tréninku síť obvykle sblíží se k nějakému státu kde chyba výpočtů je malá. V tomto případě jeden říká, že síť se učila jistá cílová funkce. Nastavit váhy vhodně jeden použije obecnou metodu pro nelineární optimalizační úloha, která je volala generaci sklonu. Pro toto původ chyby-funkce se ohledem na váhy sítě je vypočítána a váhy jsou pak měněny takový že chyba se sníží (tak jít dolů na povrchu funkce chyby). Z tomto důvodu backpropagation může jen být aplikován na sítích s differentiable funkce aktivace.
Obecně problém dosahovat sítě, která funguje dobře, dokonce na příkladech, které nebyly použité jak příkladech tréninku, je docela důvtipná záležitost, která vyžaduje další techniky. Toto je obzvláště důležité pro případy kde jen velmi omezená množství příkladů školení jsou dostupná. Nebezpečí je že síť overfits tréninková data a selhání zachytit opravdový statistický proces tvořit data. Statistická učící teorie je znepokojena classifiers školení na omezeném množství dat. V souvislosti s neuronovými sítěmi jednoduchý heuristický, volal časné zastavení, často zajistí, že síť zevšeobecní studnu na příklady ne v souboru tréninku.
Jiné typické problémy zád-algoritmus propagace jsou rychlost sbližování a možnost do konce nahoru v místním minimu funkce chyby. Dnes jsou praktická řešení (příklady?) to dělat backpropagation v multi-vrstva perceptrons roztok volby mnoha strojových učících úloh.
jednoduché článkové vodiče (SRN) je variace na multi-navrstvit perceptron, někdy volal “Elman síť” náležitý k jeho vynálezu profesorem Jeff Elman. Tři-vrstvová síť je používána, s přidáním souboru “jednotek kontextu” ve vrstvě vstupu. Tam jsou spojení od středu (“skrytá”) vrstva k těmto jednotkám kontextu opraveným s váhou 1. U každého kroku času, vstup je propagován ve standardní feedforward módě, a pak pravidlo učení (obvykle backpropagation) je aplikován. Fixovaná zadní spojení skončí jednotkami kontextu vždy udržovat kopii předchozích hodnot skrytých jednotek (protože oni množí přes spojení dříve, než pravidlo učení je aplikováno). Tak síť může udržovat druh státu, dovolit tomu provádět takové úkoly jako sled-předpověď to být za sílou multi standardu-navrstvit perceptron.
Hopfield síť je opakující se neuronová síť ve kterém všechna spojení symmetric. Tato síť má vlastnost to jeho dynamika být zaručil se sblížit. Jestliže spojení jsou trénované používání Hebbian učení pak Hopfield síť mohou vykonávat velký obsah-adresovatelná paměť, robustní ke změně spojení.
Boltzmann stroj může být myšlenka jako hlučná Hopfield síť. Vynalezený Geoff Hinton a Terry Sejnowski (1985), Boltzmann stroj byl důležitý, protože to byl jeden z prvních neuronových sítí ve kterém učení latentních proměnných (skryté jednotky) byly demonstrovány. Boltzmann strojové učení bylo pomalé simulovat, ale Contrastive algoritmus odlišnosti Geoffa Hintona (představený asi 2000) dovolí modely včetně Boltzmann strojů a produkt expertů být cvičen hodně rychlejší.
podpůrný vektorový stroj (SVM) je nedávně rozvinutá forma strojového učícího algoritmu. Trénink SVMs je založený na kvadratickém programování, forma optimalizace to (obvykle) má jen jedno globální minimum. Proto, a protože SVMs má prostředky snížit nebezpečí overfitting, někteří praktici preferují SVM školení k tréninku neuronové sítě.
Výbor strojů (CoM) je sbírka různých neuronových sítí, které spolu hlasují o daném příkladu. To bylo viděné že toto dává mnohem lepší výsledek. Ve faktu v mnoha případech, spouštění se stejnou architekturou a školením ale různých počátečních náhodných váhách dávat mnohem různé sítě. CoM inklinuje stabilizovat výsledek.
Self-organizovat mapu (SOM), někdy odkazoval se na jako “Kohonen mapa” náležitý k jeho vynálezu profesorem Teuvo Kohonen, je unsupervised učení technika, která redukuje rozměrnost dat přes použití self-organizovat neuronovou síť. Probabilistic verze SOM je generativní Topographic mapuje (GTM) biskupa, Svensen a Williams.
Okamžitě cvičil neuronové sítě (ITNN) je také nazýván “Kak sítěmi” po jejich vynálezci Subhash Kak. Oni byli inspirováni jevem krátkodobého učení, které vypadá, že nastane okamžitě. V těchto sítích váhy skrytý a výstupní vrstvy jsou mapovány přímo z tréninkových vektorových dat. Běžně, oni pracují na binárních datech, ale verze pro nepřetržitá data, která vyžadují malé další zpracování jsou také dostupné.
(Některé poznámky na statistikách a jiných problémech reprezentace v tady)
Vztah k technikám optimalizace
Analýza mnoha technik neuronové sítě odhalí blízký vztah k matematický optimalizační techniky.
Například, multi-perceptron vrstvy couvají-propagace může být substituted s obecnějšími globálními optimalizačními technikami. Cíl v přípravě Ann je, daný nějaký soubor párů dat a výstupu, {(d0, o0) , (d1,o1),...} minimalizovat nějakou funkci chyby | | E | |2, kde E (xi) = F(w,xi) - oi. Tady F je funkce neuronové sítě který daný vektor váh w a vektor vstupu produkuje vektor výstupu pro síť. Tak stejně jako backpropagation používání cvičit síť, to je také možné použít globální optimalizační techniky produkovat vektor váhy w.
Pro velmi velká data zapadnou, použití více pokročilých optimalizačních technik je často pomaleji než používat generaci sklonu, jestliže váhy sítě jsou aktualizovány generací sklonu po každém příkladu tréninku. Toto je protože jedna zatáčka generace sklonu přes soubor školení může dělat velké množství pokroku, zatímco stejné množství výpočetního úsilí může jen počítat opravdový sklon u jednoho nastavení parametrového vektoru.
Vidět také: časové zpoždění nervový propojit (TDNN), systolická sada, systolické automaty, Čistý
- An online učebnice neuronových sítí
- Otevřené adresářové spojení
- FAQs diskuzní skupiny comp.ai.neural-nets
- An online učebnice teorie informace, Bayesian závěru a neuronových sítí
Bibliografie
- Bishop, C.M. (1995) Neuronové sítě pro rozpoznávání vzorů, Oxford: Oxford univerzitní tiskárna. ISBN 0-19-853849-9 (vázaná kniha) nebo ISBN 0-19-853864-2 (brožovaný výtisk)
- Duda, R.O., Hart, P.E., Stork, D.G. (2001) Klasifikace vzoru (2. vydání), Wiley, ISBN 0471056693
- Gurney, K. (1997) An úvod do neuronových sítí Londýn: Routledge. ISBN 1-85728-673-1 (vázaná kniha) nebo ISBN 1-85728-503-4 (brožovaný výtisk)
- Hertz, J., Palmer, R.G., Krogh. A.S. (1990) Úvod k teorii nervového počítání, Perseus knihy. ISBN 0201515601