Úvodní stránka | Tato stránka v originále

Traduki

Traduki je otevřený zdroj strojový překladový program, rozvinutý s Lua programovacím jazykem a povolený dolů GNU Licence všeobecné veřejnosti. To nástroj je vyvinut dávat svobodu projevu a překlad do každého. Traduki prostředky “překládat” v Esperantu.

Vývoj byl odložen v střední -2002, ale restartoval v 2003.

Traduki je volný strojový překlad program, povolený pod GNU licence všeobecné veřejnosti. To nástroj je vyvinut dávat svobodu projevu a překlad do každého.

Strojový překlad je složitý úkol. Folowing jsou předběžné představy.

Tabulka s obsahem
1 vstup
2 Tokenization
3 morfologická analýza
4 Sytactical analýzy
5 Disambiguation
6 sémantický Disambiguation
7 překladu do interlanguage
8 cílových jazykových syntéz
9 vidět také
10 externí odkazy a odkazy

Vstup

Vstup je četba originální anglický text. Toto může být od jednoduché konzoly, Gui, nebo rozhraní webu, ale to může také být od více komplikovaných věcí takový jako OCR, rozpoznávání psaného písma nebo rozpoznání řeči.

Tokenization

Tolkenization je rozdělení textu do vět a vět do slov a interpunkce. Rozdělení textu do vět může být hotové používání”!”,”?” a”.” jako oddělovače. Ale někdy,”.” je použitá un čísla (tj. 10.233), zkratky (tj. Dr.) a parafuje (tj. A. C. Doyle). Interpunkční znaménka”,”,”;”, “#rquote, » «,:. () a [] moci také být zvyklý na oddělenou polořadovku-nezávislé věty.

Článek “co je slovo, co je věta? Problémy Tokenization” je dobrá diskuze o problémech tokenization. To může být stáhnuto tady

Morfologická analýza

Každé slovo musí být analyzováno poznat odvozená slova. Slovníky používané ve strojovém překladu nemají slova odvozená z jednodušších slov. Odvozená slova musí být poznána programem sám. Slovesné tvary a plurals jsou nejvíce obyčejná odvozená slova.

Projektovat nástrojovou sadu přirozeného jazyka[1] má nějaký kód python, který mohl být reused v Traduki. Nicméně, nástrojová sada přirozeného jazyka je propuštěna pod IBM obyčejný veřejná licence 0.5. Můžeme použít kód?

Sytactical analýzy

Syntaktická analýza je určení syntaktické funkce slov. Program by měl zjistit jestliže slovo je “sloveso” nebo “podstatné jméno”. Slovník se syntaktickou klasifikací všech slov kořenu musí být používán. WordNet[1] je dobrý zdroj dat stavět slovník dobré angličtiny.

Disambiguation

Slovo může mít víc než jednu syntaktickou funkci. Například, “tuk” může být adjektivum (“tučný chlapec jí hamburgery”) a moci být podstatné jméno (“hamburgery mají množství tuku”). Tak, jak my známe ten “tuk” ve větě “hamburgery mají množství tuku” je podstatné jméno? Jsou tam dva metody:

Sémantický Disambiguation

Někdy, nějaká dvojznačnost může zůstat poté, co aplikace metod popsala nahoře. Sémantické informace mohou být použití smět být použití vyřešit problém. To je proč dobrý slovník musí mít nějakou sémantickou informaci. Například, slova příbuzná hudbě by měla být označená jako takový.

Překlad do interlanguage

Celá syntactic, morfologické a sémantické informace by měly být kodifikovány v interlanguage. Celý zdrojový jazyk kořenová slova by měla být přeložena ke slovům kořenu. Esperanto je často používáno jako přechodný jazyk (včetně v Traduki) protože 99 % esperanto slova mají jen jeden rozum a protože esperanto je už poněkud interlanguage.

Ergane je volný použít multilanguage slovník to esperanto použití jako interlanguage může být užitečné pro Traduki.

Cílové jazykové syntézy

Syntézy cíle jazyk od interlanguage je snadný krok. Tam je, nicméně, některé problémy:

Viz též

Vnější spojení a odkazy

Užitečné zdroje pro Traduki projekt

Online články

Knihy