Úvodní stránka | Tato stránka v originále

Syntéza řeči

Syntéza řeči je generace lidské řeči bez přímo používat lidský hlas.

Obecně mluvit, syntetizátor řeči je software nebo hardware schopný vizualizační vykonstruované řeči.

Systémy syntézy řeči jsou často nazvané text-k-řeč (TTS) systémy v odkazu na jejich schopnost změnit text na řeč. Nicméně, tam existovat systémy, které mohou jen vyjádřit symbolické lingvistické reprezentace jako fonetické přepisy do řeči.

Tabulka s obsahem
1 přehled technologie syntézy řeči
2 historie
3 syntezátorové technologie
4 text-k-fonémové výzvy
5 předních koncových výzev
6 příkladů současných systémů
7 řečových syntézových značkovacích jazyků
8 externích spojení

Přehled technologie syntézy řeči

text-k-systém řeči (nebo motor) je složen ze dvou částí: přední konec a pozadí. Široce, přední konec vezme vstup ve formě textu a výstupů symbolická lingvistická reprezentace. pozadí vezme symbolickou lingvistickou reprezentaci jako vstup a výstupy syntetizovaná řeč vlnová křivka. přirozenost řeči syntezátor obvykle odkazuje se na jak hodně výstup zní jako řeč fyzické osoby.

přední konec má dva významné úkoly. Nejprve to vezme surový text a přemění věci jako čísla a zkratky do jejich psaný-ven formulovat ekvivalenty. Tento proces je často nazýván normalizací textu, pre-zpracování, nebo tokenization. Pak to přiřadí fonetické přepisy ke každému slovu a předělům a značkám text do různých prozodických jednotek, jako fráze, klauzule a věty. Proces přiřazovat fonetické přepisy ke slovům je volán text-k-foném (TTP) nebo grapheme- k-foném (GTP) konverze. Kombinace fonetických přepisů a informace o prozodických jednotkách tvoří symbolickou lingvistickou reprezentaci výstup předního konce.

Jiná část, pozadí, vezme symbolickou lingvistickou reprezentaci a změní to na skutečný zdravý výstup. pozadí je často odkazoval se na jako syntezátor. Různé techniky použití syntezátorů být popisován dole.

Historie

Dlouho před moderním elektronickým signálem zpracování bylo vynalezeno, výzkumníci řeči pokusili se stavět stroje vytvořit lidskou řeč. Časné příklady ' hlavy mluvení byl vyroben Gerbert (d. 1003), Albertus Magnus (1198-1280), a Roger slanina (1214-1294).

V 1779, křesťan Kratzenstein St. Petersburg postavené modely lidské hlasové plochy, která mohla produkovat pět dlouho samohláska zní (, e, i, o a u). Toto bylo následované řevy-operoval ' akustika-mechanický řečový stroj ' Wolfgang von Kempelen Vídeň, Rakousko, popsal v jeho 1791 papír Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine (J.B. Degen, Wien). Tento stroj přidal modely jazyka a rty, umožnit tomu produkovat souhlásky stejně jako samohlásky. V 1837 Charles Wheatstone produkoval ' stroj mluvení ' založený na von Kempelen designu, a v 1857 M. Faber postavený ' Euphonia '. Wheatstone design byl vzkřísen v 1923 Paget.

Bell laboratoře VODER
V třicátých létech, Bell laboratoře vyvinuly VOCODER, klávesnice-ovládaný elektronický řečový analyzátor a syntezátor, který byl řekli, aby byl jasně srozumitelný. Homer Dudley rafinoval toto zařízení do VODER, který on vystavoval u New Yorku světová výstava 1939.

Brzy elektronické syntetizátory řeči znily velmi robotic a byl často stěží srozumitelný. Výstup od současných TTS systémů je často nerozeznatelný od skutečné lidské řeči.

Přes úspěch elektronické syntézy řeči, výzkum ještě je řízen do mechanických syntetizátorů řeči pro použití v humanoid roboty. Dokonce dokonalý elektronický syntezátor je omezen kvalitou snímače (obvykle reproduktor) to vydá zvuk, tak v robotu mechanický systém může být schopný vydat více přirozený zvuk než malý reproduktor.

TODO: vidět [Dennis Klattovu minulost syntézy řeči]

Odkaz: Historie a vývoj syntézy řeči, od helsinské univerzity laboratoře technologie akustiky a zpracování zvukového signálu (2003-09-13)

Syntezátorové technologie

Jsou tam dva hlavní technologie užité na tvoření syntetické řečové vlnové křivky: concatenative syntéza a formant syntéza

Concatenative syntéza

Concatenative syntéza je založená na zřetězení (nebo seřazovat) segmentů zaznamenané řeči. Obecně, concatenative syntéza přednese nejpřirozenější znící syntetizovaný projev. Nicméně, přirozený změna v řeči a automatizovaných technikách pro segmenting vlnové křivky někdy vyústí v slyšitelné závady ve výstupu, zastiňovat přirozenost. Tam jsou tři hlavní podtypy concatenative syntézy:

Formant syntéza

Formant syntéza nepoužívá nějaké vzorky lidské řeči u provozní. Místo toho, výstupní syntetizovaná řeč je vytvořena používat akustický model. Parametry taková jak základní frekvence, vyjadřovat, a hlučnosti jsou měněny v průběhu doby vytvořit vlnovou křivku umělé řeči. Tato metoda je někdy nazvaná Pravidlo-založená syntéza ale někteří se dohadují o tom, protože mnoho concatenative systémů používá pravidlo-založené komponenty pro některé části systému, jako přední konec, termín není přesný dost.

Mnoho systémů založených na formant syntézové technologii vytváří umělý, robotic-řeč sondování a výstup by nikdy se mýlili pro řeč skutečného člověka. Nicméně, maximální přirozenost není vždy branka systému syntézy řeči a formant syntézové systémy mají některé výhody oproti systémům concatenative.

Formant syntetizovaná řeč může být velmi spolehlivě srozumitelná, dokonce u velmi vysokých rychlostí, vyhýbat se akustickým závadám, které mohou často soužit concatenative systémy. Mžiková syntetizovaná řeč je často používána zrakově postižený pro rychle plující počítače používat čtenáře obrazovky. Sekunda, formant syntezátory jsou často menší programy než concatenative systémy, protože oni nemají databázi vzorků řeči. Oni mohou tak být použiti v vložených počítačových situacích kde prostor paměti a síla procesoru jsou často vzácní. Minule, protože formant-založené systémy mají úplnou kontrolu nad všemi aspekty řeči výstupu, široká paleta prozódie nebo intonace může být výstup, odesílání ne správné otázky a příkazy, ale paleta emocí a tónů hlasu.

Jiné metody syntézy

Text-k-fonémové výzvy

TODO: pravidlo-založené vs. slovník-založené systémy

Přední koncové výzvy

Proces textu normalizování je zřídka přímý. Texty jsou plné homographs, čísel a zkratek že všichni nakonec vyžadují expanzi do fonetické reprezentace.

Tam je mnoho slov v angličtině který být vyslovován rozdílně založený na kontextu. Některé příklady:

Protože nejvíce TTS systémy netvoří sémantické reprezentace jejich textů vstupu, různé techniky jsou zvyklé na odhad pořádný způsob, jak disambiguate homographs, jako když se dívá na sousední slova a používá statistiky o frekvenci výskytu.

Rozhodný jak přeměnit čísla je jiný problémové TTS systémy mají k adrese. To je docela jednoduchá programovací výzva změnit číslo na slova, jako 1325 slušivý “jeden tisíc tři sta pětadvacet”. Nicméně, čísla se vyskytují v mnoha jiných kontextech v textech, a 1325 should pravděpodobně být čten jak “třináct pětadvacet” když část adresy (1325 hlavní St.) a jak “jeden tři dva pět” jestliže to je poslední čtyři číslice čísla sociálního pojištění. Často TTS systém může odvodit jak expandovat číslo založilo na obklopujících slovech, číslech a interpunkci a někdy systémy poskytují způsob, jak specifikovat druh kontextu jestliže to je dvojznačné.

Podobně, zkratky jako”etc.” být snadno poskytnutý jak “et cetera”, ale často zkratky mohou být dvojznačné. Například, zkratka”v.” v následování příkladu: “včera to pršelo 3 v. Brát 1 ven, pak dal 3 v.”.”St.” moci také být dvojznačný: “St. John St.” TTS systémy s inteligentními předními konci mohou dělat kvalifikované odhady o jak se zabývat dvojznačnýma zkratkami, zatímco jiní dělají stejnou věc ve všech případech, končit nesmyslný ale někdy komické výstupy: “včera to pršelo tři v.” nebo “vzít jednoho ven, pak dal tři se posunuje.”

Příklady současných systémů

Nějaký volně dostupný text-k-systémy řeči:

Nějaká velmi přirozená znící reklama concatenative TTS systémy s online demonstracemi: Všichni tito mají americkou angličtinu, nejvíce mít jiné dostupné jazyky.[ASY] je articulatory syntézový program vyvinutý u laboratoří Haskinse.

Klatt syntezátor, rozvinutý v 1980 Dennis Klatt, je kaskáda/paralelní formant syntezátor jehož základní přístup ještě slouží jako syntezátor vlnové křivky mnoho formant syntézových systémů.

Dobře známá externí hardwarová zařízení:

Řečové syntézové značkovací jazyky

Množství značkovacích jazyků pro ztvárnění textu jako řeč v XML kompatibilní formát, byli založeni, nejvíce nedávno SSML navrhoval W3C (ještě ve stavu návrhu u doby tohoto psaní). Starší syntéza řeči značkovací jazyky zahrnují sobola a JSML. Ačkoli každý tito byli navrhováni jako nový standard, ještě žádný z nich byl široce adoptovaný.

Syntéza řeči značkovací jazyky by měly být rozlišovány od dialogických značkovacích jazyků takový jako VoiceXML, který obsahuje, kromě textu-k-značení řeči, přívěsky příbuzné rozpoznání řeči, vedení dialogu a vytáčení touchtone.

Externí odkazy

Viz též zpracování řeči, rozpoznání řeči