Statistický strojový překlad
Statistický strojový překlad (anglicky: statistical machine translation, SMT) je paradigma strojového překladu, kde jsou překlady generovány na základě statistických modelů, jejichž parametry jsou odvozeny z analýzy dvojjazyčných textových korpusů. Statistický přístup se liší od pravidlových i příkladových přístupů k strojovému překladu.[1]
První myšlenky o statistickém strojovém překladu byly představeny Warrenem Weaverem v roce 1949[2], včetně možností aplikace Claude Shannonovy informační teorie. Statistický strojový překlad byl znovu představen koncem 80. a začátkem 90. let vědci ve výzkumném středisku Thomase J. Watsona IBM a v posledních letech přispěl k významnému obnovení zájmu o něj.
Základ
[editovat | editovat zdroj]Myšlenka statistického strojového překladu vychází z teorie informací. Dokument je přeložen podle funkce rozdělení pravděpodobnosti , takže řetězec v cílovém jazyce (například v angličtině) je překlad řetězce ve zdrojovém jazyce (například francouzsky).
Problém modelování rozdělení pravděpodobnosti byl zpracován několika způsoby. Jedním z nich, který je vhodný pro počítačové zpracování, he aplikace Bayesovy věty, tedy , kde překladový model vyjadřuje pravděpodobnost že zdrojový řetězec je překladem cílového řetězce a jazykový model vyjadřuje pravděpodobnost získání tohoto cílového řetězce. Toto rozložení je přitažlivé, jelikož rozděluje původní problém do dvou menších. Nalezení nejlepšího překladu je pak řešeno vybráním toho, který má nejvyšší pravděpodobnost:
- .
K důsledné implementaci tohoto procesu je nutné provést důkladné prohledání všech řetězců ve vstupním jazyce. Efektivitu tohoto hledání připravuje dekodér strojového překladu, který použije vstupní řetězec, heuristiku a další metody k omezení prohledávaného zároveň se zachováním dostatečné kvality. Tento kompromis mezi časovou efektivitou a kvalitou se vyskytuje také u rozpoznávání řeči.
Protože překladové systémy nejsou schopny ukládat všechny původní řetězce a jejich překlady, je dokument obvykle přeložen po jednotlivých větách, ale ani to nestačí. Jazykové modely jsou obvykle nahrazoványvyhlazenými n- gramovými modely, a podobné přístupy jsou použity u překladatelských modelů, ale objevují se další problémy kvůli např. různým délkám vět a pořadí slov v různých jazycích.
Modely statistického překladu byly původně založeny na slovech (modely 1-5 z IBM skrytých Markovových modelů Stephana Vogela[3] a model 6 Franze-Josepha Ocha[4]), ale se zavedením frázových modelů došlo k výrazným pokrokům.[5][6] Nedávné práce zahrnovaly syntaktické nebo kvazi-syntaktické struktury.[7][8]
Výhody
[editovat | editovat zdroj]- Efektivnější využití lidských a datových zdrojů
- Existuje mnoho paralelních korpusů ve strojově čitelném formátu a ještě více jednojazyčných dat.
- Obecně nejsou systémy SMT přizpůsobeny žádné konkrétní dvojici jazyků.
- Překladové systémy založené na pravidlech vyžadují manuální sestavení jazykových pravidel, což může být nákladné, a navíc se výsledky často nedají zevšeobecnit do dalších jazyků.
- Plynulejší překlady díky použití jazykového modelu
Nedostatky
[editovat | editovat zdroj]- Vytváření korpusu může být nákladné.
- Konkrétní chyby je těžké předvídat a opravit.
- Výsledky mohou mít zdánlivou plynulost, která maskuje problémy s překladem.[9]
- Statistický strojový překlad obvykle funguje hůř pro jazykové páry s výrazně odlišným slovosledem.
- Přínosy získané při překladu mezi západoevropskými jazyky nejsou reprezentativní pro výsledky pro jiné jazykové páry, a to kvůli menším korpusům a větším gramatickým rozdílům.
Překlad založený na slovech
[editovat | editovat zdroj]Pro tuto metodu strojového překladu je základní jednotkou překladu slovo v přirozeném jazyce. Počet slov v přeložených větách se obvykle liší kvůli existenci složených slov, morfologie a idiomů. Poměr délek sekvencí přeložených slov se nazývá plodnost, která říká kolik cizích slov každé rodné slovo produkuje. Teorie informací předpokládá, že každé zahrnuje stejný koncept, ale v praxi to tak není. Například, anglické slovo corner může být ve španělštině buď Rincón nebo Esquina, v závislosti na tom, zda se jedná o vnitřní nebo vnější úhel.
Základní podoba této metody nedokáže překládat mezi jazyky s různou plodností. Je možné ji jednoduše upravit aby snesla vysokou plodnost, například mapování jediného slova na více možných překladů, ale zpětně to není možné. Například, pokud bychom překládali z angličtiny do francouzštiny, každé slovo v angličtině může vyprodukovat několik francouzských slov - a někdy i jen jedno, nebo žádné. Ale neexistuje způsob jak spojit dvě anglická slova tak, aby vyprodukovala jediné slovo francouzské.
Příkladem překladového systému založeného na slovech je volně dostupný balíček GIZA ++ (GPLed), který zahrnuje trénovací program pro modely IBM a HMM model a model 6.[4]
Slovně založený překlad se dnes již moc nepoužívá; frázové systémy jsou častější. Většina systémů založených na frázích stále používají GIZA++ k seřazení korpusu. Řazení je používáno k přípravě frází a dedukci syntaktických pravidel.[10] A odpovídající slova v bi-textu jsou stále aktivně diskutovaným problémem. Kvůli trvalé převaze GIZA++ lze dnes najít několik implementací online.[11]
Frázový překlad
[editovat | editovat zdroj]V případě překladů založených ve frázích je cílem zabránit problémům překladů založených na slovech překladem celých sekvencí slov, jejichž délky se mohou lišit. Sekvence slov se nazývají bloky nebo fráze, ale obvykle se nejedná o lingvisticky motivované fráze, jen o frazémy získané pomocí statistických metod z korpusů. Ukázalo se, že omezení frází na ty lingvistické (syntakticky motivované skupiny slov) snižuje kvalitu překladu.[12]
Vybrané fráze jsou dále mapovány 1:1 na základě tabulky překladů frází a mohou být přeřazeny. Tuto tabulku lze systém naučit na základě zarovnání slov nebo přímo z paralelního korpusu. Druhý model je školen pomocí algoritmu maximalizace očekávání, podobně jako u modelu IBM pro překlad založený na slovech.[1]
Překlad založený na syntaxi
[editovat | editovat zdroj]Překlad založený na syntaxi je založen na myšlence překladu syntaktických jednotek, tj. (částečných) parsových stromů vět/výroků, nikoli na jednotlivých slovech nebo řetězcích slov (jako ve frázovém strojovém překladu).[13] Myšlenka překladu založeného na syntaxi je ve strojovém překladu dost stará, ale jeho statistická podoba se objevila až po příchodu silných stochastických parserů v 90. letech. Mezi příklady tohoto přístupu patří například synchronní bezkontextové gramatiky.
Hierarchický frázový překlad
[editovat | editovat zdroj]Hierarchický frázový překlad kombinuje silné stránky frázového a syntakticky založeného překladu. Používá pravidla synchronních bezkontextových gramatik, ale mohou být konstruovány rozšířením metod pro frázový překlad bez odkazu na lingvisticky motivované syntaktické složky. Tato myšlenka byla poprvé představena v Chiangově systému Hiero (2005).[7]
Jazykové modely
[editovat | editovat zdroj]Jazykový model je nezbytnou součástí každého statistického systému strojového překladu, který pomáhá zajistit co nejplynulejší překlad. Je to funkce, která bere přeloženou větu a vrací pravděpodobnost, že ji řekne rodilý mluvčí. Dobrý jazykový model například přiřadí vyšší pravděpodobnost větě „ten dům je malý“ než „malý ten je dům“. Kromě slovosledu jazykové modely mohou také pomoci s výběrem slova: pokud cizí slovo má několik možných překladů, tyto funkce mohou poskytnout lepší pravděpodobnost některých překladů v určitých kontextech v cílovém jazyce.[1]
Problémy statistického strojového překladu
[editovat | editovat zdroj]Problémy, které musí statistický strojový překlad řešit, zahrnují:
Přiřazování vět
[editovat | editovat zdroj]V paralelních korpusech lze najít jednotlivé věty v jednom jazyce přeloženy do několika vět v druhém a naopak.[13] Dlouhé věty mohou být rozděleny, krátké věty sloučeny. Existují dokonce i jazyky, které používají psací systémy bez jasného označení věty (například thajština). Zarovnání věty lze provést pomocí Gale-Churchova zarovnávacího algoritmu. Prostřednictvím tohoto a dalších matematických modelů je možné účinné vyhledávání a získávání zarovnání vět s nejvyšším skóre.[1]
Přiřazování slov
[editovat | editovat zdroj]Zarovnání věty je obvykle zajištěno korpusem nebo získáno výše uvedeným Gale-Churchovým zarovnávacím algoritmem. Ale abychom se naučili například překladový model, musíme vědět, která slova stojí naproti sobě ve zdrojově-cílovém páru vět. Řešením jsou modely IBM nebo modely HMM.
Jedním z prezentovaných problémů jsou gramatická slova, která v cílovém jazyce nemají jasný ekvivalent. Například při překladu z angličtiny do němčiny věta „John does not live here“ nemá slovo „does“ v přeložené větě „John wohnt hier nicht“ jasný protějšek. Logickým zdůvodněním může být zarovnáno se slovy „wohnt“ (které v angličtině obsahuje gramatické informace pro slovo „live“) nebo „nicht“ (protože se objevuje ve větě pouze proto, že je negována) nebo může být bez protějšku.[1]
Statistické anomálie
[editovat | editovat zdroj]Reálné tréninkové sady mohou převážit překlady, například u vlastních jmen. Příkladem by mohlo být to, že „Jel jsem vlakem do Berlína“ se překládá špatně jako „Jel jsem vlakem do Paříže“ kvůli množství výskytů „vlaku do Paříže“ v tréninkové sadě.
Idiomy
[editovat | editovat zdroj]V závislosti na použitých korpusech nemusí být idiomy překládány „idiomaticky“. Například při použití Canadian Hansardu jako dvojjazyčného korpusu může být „hear“ téměř vždy přeloženo do „Bravo!“ protože v parlamentu „Hear, hear!“ se stává „Bravo!“[14]
Tento problém je spojen s přiřazováním slov, protože ve velmi specifických kontextech se může idiomatický výraz přiřadit ke slovům, která vedou k idiomatickému vyjádření stejného významu v cílovém jazyce. Je to však nepravděpodobné, protože toto zarovnání obvykle nefunguje v jiných kontextech. Z tohoto důvodu by se idiomy měly podrobovat pouze frázovému zarovnání, protože je nelze dále rozkládat, aniž by ztratily svůj význam. Tento problém je tedy specifický pro překlad založený na slovech.[1]
Různé pořadí slov
[editovat | editovat zdroj]Pořadí slov v jazycích se liší. Určitou klasifikaci lze provést pojmenováním typického pořadí předmětu (subject, S), slovesa (verb, V) a objektu (object, O) ve větě a lze mluvit například o jazycích SVO nebo VSO. Existují také další rozdíly v pořadí slov, například dle umístění modifikátorů substantiv, nebo použití téže slov v tázací nebo oznamovací větě.
Při rozpoznávání řeči lze řečový signál a odpovídající textovou reprezentaci promítat na sebe v blocích ve stejném pořadí. Tak to nemusí být u stejného textu ve dvou jazycích. Pro SMT může strojový překladač spravovat pouze malé sekvence slov a pořadí slov musí připravit konstruktér programu. Pokusy o řešení zahrnovaly modely pro znovuseřazení, kde je distribuce změn umístění pro každou položku překladu odhadnuta ze zarovnaného bi-textu. Různé jazykové změny lze zhodnotit pomocí jazykového modelu a následně vybrat ty nejlepší.
Hlasový komunikátor Skype nedávno začal testovat překlad řeči.[15] Strojový překlad však následuje technologické trendy v řeči pomaleji než rozpoznávání řeči. Některé nápady z výzkumu rozpoznávání řeči byly dokonce přebrány a využity statistickým strojovým překladem.[16]
Slova mimo slovník (out of vocabulary, OOV)
[editovat | editovat zdroj]SMT systémy obvykle ukládají různé slovní formy jako samostatné symboly bez jakéhokoli vztahu k sobě navzájem a slovní formy nebo fráze, které nebyly v tréninkových datech, tak nelze přeložit. Důvodem může být nedostatek tréninkových údajů, nebo rozdíly v morfologii.
Mobilní zařízení
[editovat | editovat zdroj]Rychlý nárůst výkonu tabletů a chytrých telefonů v kombinaci s širokou dostupností vysokorychlostního mobilního přístupu k internetu jim umožňuje provozovat systémy strojového překladu. Experimentální systémy již byly vyvinuty na pomoc zahraničním zdravotnickým pracovníkům v rozvojových zemích. Podobné systémy jsou již na trhu k dispozici. Například Apple iOS 8 umožňuje uživatelům diktovat textové zprávy. Vestavěný systém ASR rozpoznává řeč a výsledky rozpoznávání jsou editovány online systémem.[17]
Projekty, jako je Universal Speech Translation Advanced Research (U-STAR1, pokračování projektu A-STAR) a EU-BRIDGE2, v současné době provádějí výzkum v oblasti překladů celých vět rozpoznaných z promluvy. V posledních letech roste zájem o kombinaci rozpoznávání řeči, strojového překladu a syntézy řeči. Pro dosažení překladu řeči na řeč jsou n-best seznamy předávány z ASR do systému statistického strojového překladu. Kombinace těchto systémů však vyvolává problémy jako jsou segmentace vět, de-normalizace a predikce interpunkce, které je potřeba eliminovat pro dosažení kvalitních překladů.[18]
Systémy implementující statistický strojový překlad
[editovat | editovat zdroj]- Google Překladač
- Překladač Microsoft
- Omniscien Technologies
- Systran
- Yandex.Translate
Odkazy
[editovat | editovat zdroj]Reference
[editovat | editovat zdroj]V tomto článku byl použit překlad textu z článku Statistical machine translation na anglické Wikipedii.
- ↑ a b c d e f KOEHN, PHILIPP. Statistical machine translation. Cambridge: Cambridge University Press 1 online resource (xii, 433 pages) s. ISBN 9780511689109, ISBN 0511689101. OCLC 649914151
- ↑ W. Weaver (1955). Translation (1949). In: Machine Translation of Languages, MIT Press, Cambridge, MA.
- ↑ S. Vogel, H. Ney and C. Tillmann. 1996. HMM-based Word Alignment in Statistical Translation Archivováno 2. 3. 2018 na Wayback Machine.. In COLING ’96: The 16th International Conference on Computational Linguistics, pp. 836-841, Copenhagen, Denmark.
- ↑ a b OCH, Franz Josef; NEY, Hermann. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics. 2003-3, roč. 29, čís. 1, s. 19–51. Dostupné online [cit. 2019-08-31]. ISSN 0891-2017. DOI 10.1162/089120103321337421. (anglicky)
- ↑ P. Koehn, F.J. Och, and D. Marcu (2003). Statistical phrase based translation Archivováno 31. 10. 2018 na Wayback Machine.. In Proceedings of the Joint Conference on Human Language Technologies and the Annual Meeting of the North American Chapter of the Association of Computational Linguistics (HLT/NAACL).
- ↑ Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics on - NAACL '09. Morristown, NJ, USA: Association for Computational Linguistics Dostupné online. ISBN 9781932432411.
- ↑ a b D. Chiang (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation Archivováno 31. 10. 2018 na Wayback Machine.. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL'05).
- ↑ Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics - ACL '05. Morristown, NJ, USA: Association for Computational Linguistics Dostupné online.
- ↑ SHARON, Zhou. Has AI surpassed humans at translation? Not even close!. Skynet Today [online]. 2018-07-25 [cit. 2019-08-31]. Dostupné online.
- ↑ P. Koehn, H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A. Constantin, E. Herbst. 2007. Moses: Open Source Toolkit for Statistical Machine Translation Archivováno 31. 10. 2018 na Wayback Machine.. ACL 2007, Demonstration Session, Prague, Czech Republic
- ↑ GAO, Qin; VOGEL, Stephan. Parallel implementations of word alignment tool. In: Software Engineering, Testing, and Quality Assurance for Natural Language Processing on - SETQA-NLP '08. Morristown, NJ, USA: Association for Computational Linguistics, 2008. Dostupné online. ISBN 9781932432107. DOI 10.3115/1622110.1622119.
- ↑ Philipp Koehn, Franz Josef Och, Daniel Marcu: Statistical Phrase-Based Translation (2003)
- ↑ a b WILLIAMS, PHILIP (PHILIP JAMES),. Syntax-based statistical machine translation. [San Rafael, California]: [s.n.] 1 online resource (xvii, 190 pages) s. ISBN 9781627055024, ISBN 1627055029. OCLC 956738395
- ↑ HUTCHINS, W. JOHN (WILLIAM JOHN), 1939-. An introduction to machine translation. London: Academic Press xxi, 362 pages s. Dostupné online. ISBN 012362830X, ISBN 9780123628305. OCLC 59911610
- ↑ Skype Translator Preview
- ↑ New perspectives in information systems and technologies. Volume 1. Cham: [s.n.] 1 online resource s. ISBN 9783319059518, ISBN 3319059513. OCLC 874914825
- ↑ WOŁK, KRZYSZTOF MARASEK, KRZYSZTOF. Polish - English Speech Statistical Machine Translation Systems for the IWSLT 2014. [s.l.]: [s.n.] OCLC 1106224861
- ↑ MARASEK, Krzysztof; WOŁK, Krzysztof. Polish - English Speech Statistical Machine Translation Systems for the IWSLT 2013. arxiv.org. 2015-09-30. Dostupné online [cit. 2019-08-31]. (anglicky)
Externí odkazy
[editovat | editovat zdroj]- Statistický strojový překlad — zahrnuje úvod do výzkumu, konference, korpusy a výpisy softwaru
- Moses - SMT systém s otevřeným zdrojovým kódem
- Anotovaný seznam statistických zdrojů zpracování přirozeného jazyka — zahrnuje odkazy na volně dostupný statistický strojový překladový software