Traduki
Traduki je otevřený zdroj strojový překladový program, rozvinutý s Lua programovacím jazykem a povolený dolů GNU Licence všeobecné veřejnosti. To nástroj je vyvinut dávat svobodu projevu a překlad do každého. Traduki prostředky “překládat” v Esperantu.
Vývoj byl odložen v střední -2002, ale restartoval v 2003.
Traduki je volný strojový překlad program, povolený pod GNU licence všeobecné veřejnosti. To nástroj je vyvinut dávat svobodu projevu a překlad do každého.
Strojový překlad je složitý úkol. Folowing jsou předběžné představy.
Vstup je četba originální anglický text. Toto může být od jednoduché konzoly, Gui, nebo rozhraní webu, ale to může také být od více komplikovaných věcí takový jako OCR, rozpoznávání psaného písma nebo rozpoznání řeči.
Tolkenization je rozdělení textu do vět a vět do slov a interpunkce. Rozdělení textu do vět může být hotové používání”!”,”?” a”.” jako oddělovače. Ale někdy,”.” je použitá un čísla (tj. 10.233), zkratky (tj. Dr.) a parafuje (tj. A. C. Doyle). Interpunkční znaménka”,”,”;”, “#rquote, » «,:. () a [] moci také být zvyklý na oddělenou polořadovku-nezávislé věty.
Článek “co je slovo, co je věta? Problémy Tokenization” je dobrá diskuze o problémech tokenization. To může být stáhnuto tady
Každé slovo musí být analyzováno poznat odvozená slova. Slovníky používané ve strojovém překladu nemají slova odvozená z jednodušších slov. Odvozená slova musí být poznána programem sám. Slovesné tvary a plurals jsou nejvíce obyčejná odvozená slova.
Projektovat nástrojovou sadu přirozeného jazyka[1] má nějaký kód python, který mohl být reused v Traduki. Nicméně, nástrojová sada přirozeného jazyka je propuštěna pod IBM obyčejný veřejná licence 0.5. Můžeme použít kód?
Syntaktická analýza je určení syntaktické funkce slov. Program by měl zjistit jestliže slovo je “sloveso” nebo “podstatné jméno”. Slovník se syntaktickou klasifikací všech slov kořenu musí být používán. WordNet[1] je dobrý zdroj dat stavět slovník dobré angličtiny.
Slovo může mít víc než jednu syntaktickou funkci. Například, “tuk” může být adjektivum (“tučný chlapec jí hamburgery”) a moci být podstatné jméno (“hamburgery mají množství tuku”). Tak, jak my známe ten “tuk” ve větě “hamburgery mají množství tuku” je podstatné jméno? Jsou tam dva metody:
- Statistické metody používají velké anotované soubory. Anotované soubory mohly říci nám to “losy” je vždy následovaný podstatným jménem. Traduki by neměl použít tuto metodu protože všechny užitečné anotované soubory je proprietární.
- Omezovací gramatické metody používají gramatická pravidla vyřadit invalidní kombinace syntaktických funkcí. Například, “#rquote je nikdy následovaný slovesem. Tam být více než 1000 pravidel, která mohou být použití disambiguate větu.
Sémantický Disambiguation
Někdy, nějaká dvojznačnost může zůstat poté, co aplikace metod popsala nahoře. Sémantické informace mohou být použití smět být použití vyřešit problém. To je proč dobrý slovník musí mít nějakou sémantickou informaci. Například, slova příbuzná hudbě by měla být označená jako takový.
Celá syntactic, morfologické a sémantické informace by měly být kodifikovány v interlanguage. Celý zdrojový jazyk kořenová slova by měla být přeložena ke slovům kořenu. Esperanto je často používáno jako přechodný jazyk (včetně v Traduki) protože 99 % esperanto slova mají jen jeden rozum a protože esperanto je už poněkud interlanguage.
Ergane je volný použít multilanguage slovník to esperanto použití jako interlanguage může být užitečné pro Traduki. Cílové jazykové syntézy
Syntézy cíle jazyk od interlanguage je snadný krok. Tam je, nicméně, některé problémy:
- tam je potřeba slovesa conjugator
- tam je potřeba pro plurals generátor
- překlad z esperanto k jazyku cíle může být dvojznačný protože tam být víc než jedno slovo od každého esperanto slova. Sémantické informace od textu zdroje mohou být zvyklé na disambiguate.
Viz též
Vnější spojení a odkazy
Užitečné zdroje pro Traduki projekt
- Traduki strana na SourceForge
- Pytalk: english analyzátor a korektor překlepů
- WordNet - lexikální databáze pro angličtinu
- página oficial: http://www.cogsci.princeton.edu/ ~ wn /
- Python rozhraní k WordNet lexikální http://www.cs.brandeis.edu/ ~ steele/zdroje/python. html
- GPLtrans
- Nástrojová sada přirozeného jazyka
- vortaro
- linguaphile
- VISL omezení kompilátor gramatiky je přirozený jazykový analyzátorový generátor. To je realizace Pasi Tapanainen je CG-2 omezovací gramatický formalizmus.
- VISL formuluje gramatiku struktury kompilátor je realizace generátoru analyzátoru pro dvojznačný kontext-uvolnit gramatiky, dvojznačný vstup a dvojznačný výstup.
Online články
- Phd teze: “současný projekt má jako jeho cíl včlenit sémantickou součástku do anglického omezovacího gramatického analyzátoru aby rozšířil parserís výkon.”
- Měl bych používat strojový překlad?
- Proč moci ne počítač překládat více jako osoba?
- “Druhy sémantických informací nutný v lexikonu strojového překladu” * *http://talana.linguist.jussieu.fr/taln99/ps/A77/A77. pdf (PDF soubor)
Knihy
- Gramatika omezení: Jazyk-nezávislý systém pro rozebrat neomezený text (zpracování přirozeného jazyka, ne 4) ISBN 3110141795
- knihy