Úvodní stránka | Tato stránka v originále

WordNet

WordNet je sémantický lexikon pro Angličtinu. To seskupí angličtinu slova do souborů synonym volala synsets, poskytuje krátké definice a záznamy různý sémantické vztahy mezi těmito soubory synonyma. Účel je dvojitý: produkovat kombinaci slovníku a slovník synonym to je více intuitivně použitelné, a podporovat automatickou textovou analýzu a umělou inteligenci aplikace. Databáze a softwarové nástroje byli povolení pod BSD stylovou licencí a moci být stáhnut a použitý volně. Databáze může také být prohlížena online.

WordNet byl vytvořen a je bytí udržované u poznávací vědní laboratoře Princeton univerzity dolů směr profesora psychologie George A. Miller. Vývoj začínal v 1985. Za ta léta, projekt přjímal o $3 milión finance, hlavně od vládních agentur zaujatých strojovým překladem.

Tabulka s obsahem
1 databázový obsah
2 limitace
3 příbuzné projekty
4 vidět také:
5 externích spojení:

Obsah databáze

Jak 2003, databáze obsahuje asi 140,000 slov organizovaný v přes 110,000 synsets pro úhrn 195,000 slova-cítit páry; ve stlačeném ročníku, to je o 12 megabajtech velký.

WordNet rozlišuje mezi podstatnými jmény, slovesy, adjektivy a příslovci na předpokladu, že tito jsou uloženi rozdílně v lidském mozku. Každý synset obsahuje skupinu souznačných slov nebo kolokace ( kolokace je sled slov, která jdou spolu tvořit specifický význam, takový jako “firemní auto”); slova typicky účastnit se několika synsets. Význam synsets je dále objasněn s krátkým definining komentuje. Synset typického příkladu s leskem je

dobrý, pravý, zralý -- (nejvhodnější nebo pravý pro daný účel; “dobrý čas k rajčatům rostliny”; “správný čas k aktu”; “čas je zralý na velké sociologické změny”)

Každý synset je propojený na jiné synsets přes množství vztahů. Tito vztah se měnit založený na druhu slova:WordNet také poskytuje polysemy počet slova: množství synsets, které obsahují slovo. Jestliže slovo se účastní několika synsets (tj. má několik smyslů), pak typicky některé smysly jsou hodně více obyčejné než jiní. WordNet počítá toto skóre frekvence: v několika textech vzorku všechna slova byla semantically označený se korespondenčním synset a pak to bylo počítáno jak často slovo se objevilo ve specifickém smyslu.

Rozhraní databáze je schopné odvodit kořenovou formu slova od vstupu uživatele; jen kořenová forma je uložena v databázi.

Limitace

Unlike jiné slovníky, WordNet nezahrnuje informaci o etymologii, výslovnosti a formách nepravidelných sloves a obsahuje jen omezenou informaci o použití.

Aktuální lexicographical a semantical informace jsou udržovány v lexicographer souborech, který být pak zpracován nástrojem nazvaný obrušovat produkovat distribuovanou databázi. Žádný obrušovat ani lexicographer soubory jsou volně dostupné, který vyrábí modifikovat a udržovat databázi pro nečleny docela obtížný.

Příbuzné projekty

Projekt EuroWordNet produkoval WordNets pro několik evropských jazyků a spojil je spolu; tito nejsou volně dostupní nicméně. Globální Wordnet projekt pokouší se uspořádat výrobu a spojování wordnets pro všechny jazyky. Publikovatelé Oxford anglického slovníku mají vyjádřené plány k produkci jejich vlastní online WordNet.

rozšířil WordNet je projekt na univerzitě Texasu u Dallase který chce zlepšit WordNet semantically rozebrat komentuje, tak dělat informace obsažené v těchto dostupných definicích pro automatické znalosti systémy zpracování. To je také volně dostupné pod licencí podobnou WordNet .

GCIDE projekt přijde se slovníkem tím, že kombinuje veřejnou doménu Webster slovník od 1913 s některými WordNet definicemi a materiálem poskytnutým dobrovolníky. To je propuštěno dolů copyleft povolí GPL.

Hypernym/hyponym vztahy mezi synsets podstatného jména mohou být používány jako ontologie v počítačovém vědním smyslu. SUMO horní ontologie produkovala mapování od WordNet synsets pro podstatná jména a sloves k SUMO třídám. OpenCyc horní ontologie je také spojena k WordNet. WordNet byl primární zdroj pro budovat nižší třídy SENSUS ontologie.

Viz též:

Vnější spojení: