PUHESYNTEESI
1. HANKKEEN TAVOITTEET
Puhesynteesihankkeen tavoitteita olivat:
- tekstiä puheeksi muokkaava puhesynteesiohjelmisto, joka on sellaisenaan käytettävissä useissa erilaisissa sovelluksissa,
- olemassa olevia synteesiohjelmia selvästi parempi laatu, etenkin luonnolliselta kuulostava puhe,
- eri puhujien foneettiset mallit eri synteesiääniä varten.
- Koordinointi
- Prosodiakorpus
- Difonitietokanta
- XML-esitysmuotojen määrittely
- Lyhenteiden lavennus
- Numeroilmausten lavennus
- Vierasperäisten sanojen/nimien ääntäminen
- Painotusta/tauotusta ohjaavat merkinnät
- Festival-synteesijärjestelmän toiminta
- Prosodian mallinnus Festival-järjestelmässä
- Morfologisten ja syntaktisten jäsentimien integrointi
- Synteesin laadun evaluointi
Tulokset
Tulosaineisto
Projektin tulosaineisto on julkaistu LGPL-lisenssin alla. Kaikki sen osat ovat saatavilla tämän WWW-palvelimen kautta, keskeiset synteesikomponentit lisäksi myös Helsingin yliopiston hankesivlta: http://www.ling.helsinki.fi/suopuhe/.
Miesääni suomenkieliseen Festival-järjestelmään
http://phon.joensuu.fi/suopuhe/tulosaineisto/hy_fi_mv_diphone-20041119.tgzNaisääni suomenkieliseen Festival-järjestelmään
http://phon.joensuu.fi/suopuhe/tulosaineisto/suo_fi_lj-1.0g-20051204.tgz
Lavennin
Lavennin-ohjelman avulla voidaan konvertoida tavallisessa kirjoitetussa tekstissä esiintyvät numerot, lyhenteet ja muut sellaisenaan luettavaksi kelpaamattomat merkkijonot luettavaan muotoon. Syntetisaattorin tehtäväksi jää grafeemi-foneemi-konversio, jossa kirjaimet muutetaan äänteiksi.http://phon.joensuu.fi/suopuhe/tulosaineisto/lavennin-20041119.tgz
Dokumentaatio
- Ohjeet suomenkielisen äänteen asennuksesta Festivaliin
- (Ks. myös Nicholas Volkin Festivalin asennusohjeet)
- Äänten funktioiden kuvaukset (englanniksi)
- Suopuhe-DTD
Suomenkielinen EMACSpeak
http://www.ling.helsinki.fi/suopuhe/emacspeak/Oheisaineisto
Miesäänen difoniaineisto
http://phon.joensuu.fi/suopuhe/tulosaineisto/oheis/hy_fi_mv_diphone_wavs.tgz
Karjalainen-puhekorpus ("prosodiakorpus")
Luonnollisen prosodian tutkimusta varten laadittu korpus käsittää 24 artikkelia ja muuta tekstiä (ml. radio-ohjelma, rivi-ilmoituksia, elintarvikeliikkeen mainos, yleisönosaston kirje, nimipäivälista ym.) 4.5.2000 Karjalainen-sanomalehdestä. Sama materiaali on kaksi kertaa äänitetty, kahden ammattilukijan voimin (Yleisradion uutislukijoita, 1m/1n), joista naislukija on tuottanut myös difoniaineiston. Korpus sisältää yhteensä 700 virkettä eli noin 80 minuuttia puhetta ja on valmiiksi nimikoitu. Vuosina 2001/2002 Praatilla tehdyt F0-analyysit eivät ole mukana tulosaineistossa, koska nykyiset ohjelmarutiinit antavat vielä tarkempia mittauksia ja ovat helposti ja nopeasti suoritettavissa (toisin kuin työläs nimikointi).http://phon.joensuu.fi/suopuhe/tulosaineisto/oheis/karjalainenkorpus/
COST 258 -puhetyylikorpus
COST 258 -hankkeen puhetyylikorpus nimikoitiin ja sen intonaatiokäyrät analysoitiin Suopuheprojektia varten. (HUOM: eri käyttölisenssi, GPL.)http://phon.joensuu.fi/suopuhe/tulosaineisto/oheis/cost258/
MOMEL
MOMEL (''MOdélisation de la MELodie''), D. Hirstin ja R. Espesserin intonaatio-annotaation standardimenetelmän Perl-implementaatio. (HUOM: eri käyttölisenssi, GPL.)http://phon.joensuu.fi/suopuhe/tulosaineisto/oheis/momel/
Automaattinen tavunrajojen merkintä
TM-ohjelma lisää Praatin TextGrid-nimikoinititiedostoihin uuden tason, joka sisältää tavunrajat. Rajat päätellään lause- ja äännetason merkinnöistä.http://phon.joensuu.fi/suopuhe/tulosaineisto/oheis/tm/
Muunnin Suopuhe XML -> Microsoft SAPI 5.1 TTS
http://phon.joensuu.fi/suopuhe/tulosaineisto/oheis/suo2tss/
Hankkeen tuottamat julkaisut
Seuraavat julkaisut ovat syntyneet kokonaan tai osittain puhesynteesihankkeen puitteissa:
M. Vainio, T. Altosaar, and S. Werner, "Measuring the importance of morphological information for Finnish speech synthesis," in Proceedings ICSLP 2000 (B. Yuan, T. Huang, and X. Tang, eds.), vol. 1, (Beijing, China), pp. 641-644, Oct. 2000.
S. Werner, "Puhetyylien mallintaminen suomenkielisessä text-to-speech-synteesissä," in 21. Fonetiikan Päivät, Turku 4.-5.1.2001 (S. Ojala and J. Tuomainen, eds.), vol. 67 of Publications of the Department of Finnish and General Linguistics of the University of Turku, pp. 47-57, University of Turku, 2001.
S. Werner and M. Vainio, "Modelling Finnish intonation for TTS," in Nordic Prosody: Proceedings of the VIIIth conference, Trondheim 2000 (W. A. van Dommelen and T. Fretheim, eds.), (Frankfurt), pp. 227-238, Peter Lang, 2001.
H. Mixdorff, M. Vainio, S. Werner, and J. Järvikivi, "The manifestation of linguistic information in prosodic features of Finnish," in Prosody 2002 (B. Bel and I. Marlien, eds.), pp. 515-518, 2002.
M. Vainio, H. Mixdorff, J. Järvikivi, and S. Werner, "The production and perception of focus in Finnish," in Proceedings of the XVth International Congress of Phonetic Sciences, (Barcelona), 2003 (forthcoming).
M. Vainio, N. Volk, S. Werner, J. Järvikivi, and J. Välikangas, "Uusi suomalainen puhesynteesi," in 30. Kielitieteen päivät, (Joensuu), 2003 (forthcoming).
M. Vainio, J. Järvikivi, and S. Werner, "Suomen lausepainon havaitsemisesta: tonaaliset piirteet ja sanajärjestys," in 30. Kielitieteen päivät, (Joensuu), 2003 (forthcoming).
N. Volk, "Rule-based customizable text expander," in Nodalida '03, (Reykjavik), 2003 (forthcoming).