Syntéza řeči
Syntéza řeči je generace lidské řeči bez přímo používat lidský hlas.Obecně mluvit, syntetizátor řeči je software nebo hardware schopný vizualizační vykonstruované řeči.
Systémy syntézy řeči jsou často nazvané text-k-řeč (TTS) systémy v odkazu na jejich schopnost změnit text na řeč. Nicméně, tam existovat systémy, které mohou jen vyjádřit symbolické lingvistické reprezentace jako fonetické přepisy do řeči.
Přehled technologie syntézy řeči
text-k-systém řeči (nebo motor) je složen ze dvou částí: přední konec a pozadí. Široce, přední konec vezme vstup ve formě textu a výstupů symbolická lingvistická reprezentace. pozadí vezme symbolickou lingvistickou reprezentaci jako vstup a výstupy syntetizovaná řeč vlnová křivka. přirozenost řeči syntezátor obvykle odkazuje se na jak hodně výstup zní jako řeč fyzické osoby.
přední konec má dva významné úkoly. Nejprve to vezme surový text a přemění věci jako čísla a zkratky do jejich psaný-ven formulovat ekvivalenty. Tento proces je často nazýván normalizací textu, pre-zpracování, nebo tokenization. Pak to přiřadí fonetické přepisy ke každému slovu a předělům a značkám text do různých prozodických jednotek, jako fráze, klauzule a věty. Proces přiřazovat fonetické přepisy ke slovům je volán text-k-foném (TTP) nebo grapheme- k-foném (GTP) konverze. Kombinace fonetických přepisů a informace o prozodických jednotkách tvoří symbolickou lingvistickou reprezentaci výstup předního konce.
Jiná část, pozadí, vezme symbolickou lingvistickou reprezentaci a změní to na skutečný zdravý výstup. pozadí je často odkazoval se na jako syntezátor. Různé techniky použití syntezátorů být popisován dole.
Historie
Dlouho před moderním elektronickým signálem zpracování bylo vynalezeno, výzkumníci řeči pokusili se stavět stroje vytvořit lidskou řeč. Časné příklady ' hlavy mluvení byl vyroben Gerbert (d. 1003), Albertus Magnus (1198-1280), a Roger slanina (1214-1294).
V 1779, křesťan Kratzenstein St. Petersburg postavené modely lidské hlasové plochy, která mohla produkovat pět dlouho samohláska zní (, e, i, o a u). Toto bylo následované řevy-operoval ' akustika-mechanický řečový stroj ' Wolfgang von Kempelen Vídeň, Rakousko, popsal v jeho 1791 papír Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine (J.B. Degen, Wien). Tento stroj přidal modely jazyka a rty, umožnit tomu produkovat souhlásky stejně jako samohlásky. V 1837 Charles Wheatstone produkoval ' stroj mluvení ' založený na von Kempelen designu, a v 1857 M. Faber postavený ' Euphonia '. Wheatstone design byl vzkřísen v 1923 Paget.
| Bell laboratoře VODER |
Brzy elektronické syntetizátory řeči znily velmi robotic a byl často stěží srozumitelný. Výstup od současných TTS systémů je často nerozeznatelný od skutečné lidské řeči.
Přes úspěch elektronické syntézy řeči, výzkum ještě je řízen do mechanických syntetizátorů řeči pro použití v humanoid roboty. Dokonce dokonalý elektronický syntezátor je omezen kvalitou snímače (obvykle reproduktor) to vydá zvuk, tak v robotu mechanický systém může být schopný vydat více přirozený zvuk než malý reproduktor.
TODO: vidět [Dennis Klattovu minulost syntézy řeči]
Odkaz: Historie a vývoj syntézy řeči, od helsinské univerzity laboratoře technologie akustiky a zpracování zvukového signálu (2003-09-13) Syntezátorové technologie
Jsou tam dva hlavní technologie užité na tvoření syntetické řečové vlnové křivky: concatenative syntéza a formant syntéza
Concatenative syntéza je založená na zřetězení (nebo seřazovat) segmentů zaznamenané řeči. Obecně, concatenative syntéza přednese nejpřirozenější znící syntetizovaný projev. Nicméně, přirozený změna v řeči a automatizovaných technikách pro segmenting vlnové křivky někdy vyústí v slyšitelné závady ve výstupu, zastiňovat přirozenost. Tam jsou tři hlavní podtypy concatenative syntézy:
- Jednotková výběrová syntéza používá velké řečové databáze (víc než jedna hodina zaznamenané řeči). Během vytvoření databáze, každý zaznamenával promluva je článková do některých nebo všech pokračování: individuální telefony, slabiky, morfémy, slova, fráze, a věty. Rozdělení do segmentů může být děláno používat množství technik, jako když se seskupí, používání speciálně modifikoval recognizer řeči, nebo po ruce, používat vizuální reprezentace takový jako vlnová křivka a spectrogram. index jednotek v řeči databáze je pak vytvořena založený na segmentaci a akustice parametry jako základní frekvence (se houpou). U provozní, požadovaná cílová promluva je vytvořena tím, že určuje nejlepší řetěz jednotek kandidáta od databáze (výběr jednotky). Tato technika dává největší přirozenost přímo ke skutečnosti, že to neaplikuje digitální signálové zpracovací techniky k zaznamenané řeči, který často vydává zaznamenaný řečový zvuk méně předurčeného člověka. Ve skutečnosti, výstup nejlepší jednotkové výběrové systémy jsou často nerozeznatelné od skutečných lidských hlasů, obzvláště v kontextech pro kterého TTS systém byl naladěný. Nicméně, maximální přirozenost často vyžaduje výběr jednotky databáze řeči být velmi velký, v nějakém vytyčování systémů do gigabajtů zaznamenaných dat a číslování do tuctů hodin zaznamenávala řeč.
- Diphone syntéza používá minimální řečovou databázi obsahovat celý Diphones (zdravý-k-přechody zvuku) existovat v daném jazyce. Množství diphones závisí na phonotactics jazyka: Španělština má 800 diphones, Němec asi 2500. V syntéze diphone, jen jeden příklad každého diphone je obsažený v databázi řeči. U provozní, cíl prozódie věty je položený na tyto minimální jednotky prostředky k zpracování digitálního signálu techniky takový jako Lineární prediktivní kódování, PSOLA nebo MBROLA. Kvalita výsledné řeči je obecně ne stejně dobře jako to od výběru jednotky ale přirozenější-sondování než výstup formant syntezátorů. Diphone syntéza trpí zvukovými závadami concatenative syntézy a robotic-znít jako povaha formant syntézy, a má nemnoho výhod jednoho přístupu jiný než malá velikost. Jako takový, jeho použití v komerčních využitích klesá, ačkoli to pokračuje být používán ve výzkumu protože tam být množství volně dostupných implementací.
- Doména-specifická syntéza concatenates pre-zaznamenal slova a fráze vytvořit kompletní promluvy. To je použito v aplikacích kde paleta textů systém výstup vůle je omezený na zvláštní doménu, jako dopravní plánová oznámení nebo počasí hlásí. Tato technologie jde velmi snadno splnit, a byl v komerčním použití na dlouhou dobu: toto je technologie používaná věcmi jako mluvící hodiny a kalkulačkami. Přirozenost těchto systémů může potenciálně být velmi vysoký protože paleta typů věty je omezená a silně odpovídá prozódii a intonaci originálních nahrávek. Nicméně, protože tyto systémy jsou limitovány slovy a výrazy v jeho databázi, oni nejsou general-purpose a moci jen syntetizovat kombinace slov a frází oni byli pre-naprogramovaný s.
Formant syntéza
Formant syntéza nepoužívá nějaké vzorky lidské řeči u provozní. Místo toho, výstupní syntetizovaná řeč je vytvořena používat akustický model. Parametry taková jak základní frekvence, vyjadřovat, a hlučnosti jsou měněny v průběhu doby vytvořit vlnovou křivku umělé řeči. Tato metoda je někdy nazvaná Pravidlo-založená syntéza ale někteří se dohadují o tom, protože mnoho concatenative systémů používá pravidlo-založené komponenty pro některé části systému, jako přední konec, termín není přesný dost.
Mnoho systémů založených na formant syntézové technologii vytváří umělý, robotic-řeč sondování a výstup by nikdy se mýlili pro řeč skutečného člověka. Nicméně, maximální přirozenost není vždy branka systému syntézy řeči a formant syntézové systémy mají některé výhody oproti systémům concatenative.
Formant syntetizovaná řeč může být velmi spolehlivě srozumitelná, dokonce u velmi vysokých rychlostí, vyhýbat se akustickým závadám, které mohou často soužit concatenative systémy. Mžiková syntetizovaná řeč je často používána zrakově postižený pro rychle plující počítače používat čtenáře obrazovky. Sekunda, formant syntezátory jsou často menší programy než concatenative systémy, protože oni nemají databázi vzorků řeči. Oni mohou tak být použiti v vložených počítačových situacích kde prostor paměti a síla procesoru jsou často vzácní. Minule, protože formant-založené systémy mají úplnou kontrolu nad všemi aspekty řeči výstupu, široká paleta prozódie nebo intonace může být výstup, odesílání ne správné otázky a příkazy, ale paleta emocí a tónů hlasu.
- Articulatory syntéza je metoda syntézy většinou akademického zájmu v tomto okamžiku. To je založené na výpočetních modelech člověka hlasitá plocha a procesy artikulace nastávat tam. Tyto modely jsou nyní ne dostatečně pokročilý být použit v reklamě systémy syntézy řeči.
- Hybridní syntéza vezme si stránky formant a syntézy concatenative minimalizovat akustické závady když segmenty řeči jsou kaskádové.
Text-k-fonémové výzvy
TODO: pravidlo-založené vs. slovník-založené systémyTam je mnoho slov v angličtině který být vyslovován rozdílně založený na kontextu. Některé příklady:
- projekt: Můj nejnovější projekt má učit se jak lépe projektovat můj hlas.
- se ohnout: Dívka s úklonou v jejích vlasech byla řeknuta k úkloně hluboce když pozdraví ji superiors.
Rozhodný jak přeměnit čísla je jiný problémové TTS systémy mají k adrese. To je docela jednoduchá programovací výzva změnit číslo na slova, jako 1325 slušivý “jeden tisíc tři sta pětadvacet”. Nicméně, čísla se vyskytují v mnoha jiných kontextech v textech, a 1325 should pravděpodobně být čten jak “třináct pětadvacet” když část adresy (1325 hlavní St.) a jak “jeden tři dva pět” jestliže to je poslední čtyři číslice čísla sociálního pojištění. Často TTS systém může odvodit jak expandovat číslo založilo na obklopujících slovech, číslech a interpunkci a někdy systémy poskytují způsob, jak specifikovat druh kontextu jestliže to je dvojznačné.
Podobně, zkratky jako”etc.” být snadno poskytnutý jak “et cetera”, ale často zkratky mohou být dvojznačné. Například, zkratka”v.” v následování příkladu: “včera to pršelo 3 v. Brát 1 ven, pak dal 3 v.”.”St.” moci také být dvojznačný: “St. John St.” TTS systémy s inteligentními předními konci mohou dělat kvalifikované odhady o jak se zabývat dvojznačnýma zkratkami, zatímco jiní dělají stejnou věc ve všech případech, končit nesmyslný ale někdy komické výstupy: “včera to pršelo tři v.” nebo “vzít jednoho ven, pak dal tři se posunuje.”
Nějaký volně dostupný text-k-systémy řeči:
- [Festival] je volně dostupný kompletní diphone zřetězovací TTS systém.
- [Flite] (festival-lehký) je menší, rychlejší alterative verze festivalu určeného pro vestavěné systémy a servery velkého množství.
- [MBROLA] je volně dostupný diphone systém zřetězení (pozadí).
- [Gnuspeech] je rozšiřitelný, text-k-balíček řeči, umístěný na real-time, articulatory, řeč-syntéza-- pravidla.
- [Speechworks Speechify]
- [Rétorické rVoice]
- [Loquendo TTS]
- [ScanSoft RealSpeak]
- [Nuance Vocalizer]
- [U a T; přirozené hlasy]
Klatt syntezátor, rozvinutý v 1980 Dennis Klatt, je kaskáda/paralelní formant syntezátor jehož základní přístup ještě slouží jako syntezátor vlnové křivky mnoho formant syntézových systémů.
Dobře známá externí hardwarová zařízení:
- Apollo
- PC dvojí řeči
Řečové syntézové značkovací jazyky
Množství značkovacích jazyků pro ztvárnění textu jako řeč v XML kompatibilní formát, byli založeni, nejvíce nedávno SSML navrhoval W3C (ještě ve stavu návrhu u doby tohoto psaní). Starší syntéza řeči značkovací jazyky zahrnují sobola a JSML. Ačkoli každý tito byli navrhováni jako nový standard, ještě žádný z nich byl široce adoptovaný.
Syntéza řeči značkovací jazyky by měly být rozlišovány od dialogických značkovacích jazyků takový jako VoiceXML, který obsahuje, kromě textu-k-značení řeči, přívěsky příbuzné rozpoznání řeči, vedení dialogu a vytáčení touchtone.
- [Vzorky] komerčních TTS systémů.