Suopuhe
Yleistä | Puhujantunnistus | Puhesynteesi

PUHESYNTEESI

1. HANKKEEN TAVOITTEET

Puhesynteesihankkeen tavoitteita olivat:

Tavoitteiden toteuttaminen edellytti difonitietokantojen lisäksi eri puhujien eri puhetyylien prosodisisten piirteiden mallintamista varten laadittavien puhetietokantojen analysointia ja nimikointia sekä toimivaa modulaarista synteesijärjestelmää. Puhesynteesihankkeen työsisältö jaettiin kahteentoista osatehtävien työpakettiin:
  1. Koordinointi
  2. Prosodiakorpus
  3. Difonitietokanta
  4. XML-esitysmuotojen määrittely
  5. Lyhenteiden lavennus
  6. Numeroilmausten lavennus
  7. Vierasperäisten sanojen/nimien ääntäminen
  8. Painotusta/tauotusta ohjaavat merkinnät
  9. Festival-synteesijärjestelmän toiminta
  10. Prosodian mallinnus Festival-järjestelmässä
  11. Morfologisten ja syntaktisten jäsentimien integrointi
  12. Synteesin laadun evaluointi

Tulokset

Tulosaineisto

Projektin tulosaineisto on julkaistu LGPL-lisenssin alla. Kaikki sen osat ovat saatavilla tämän WWW-palvelimen kautta, keskeiset synteesikomponentit lisäksi myös Helsingin yliopiston hankesivlta: http://www.ling.helsinki.fi/suopuhe/.

Miesääni suomenkieliseen Festival-järjestelmään

http://phon.joensuu.fi/suopuhe/tulosaineisto/hy_fi_mv_diphone-20041119.tgz

Naisääni suomenkieliseen Festival-järjestelmään

http://phon.joensuu.fi/suopuhe/tulosaineisto/suo_fi_lj-1.0g-20051204.tgz

Lavennin

Lavennin-ohjelman avulla voidaan konvertoida tavallisessa kirjoitetussa tekstissä esiintyvät numerot, lyhenteet ja muut sellaisenaan luettavaksi kelpaamattomat merkkijonot luettavaan muotoon. Syntetisaattorin tehtäväksi jää grafeemi-foneemi-konversio, jossa kirjaimet muutetaan äänteiksi.

http://phon.joensuu.fi/suopuhe/tulosaineisto/lavennin-20041119.tgz

Dokumentaatio

Suomenkielinen EMACSpeak

http://www.ling.helsinki.fi/suopuhe/emacspeak/

Oheisaineisto

Miesäänen difoniaineisto

http://phon.joensuu.fi/suopuhe/tulosaineisto/oheis/hy_fi_mv_diphone_wavs.tgz

Karjalainen-puhekorpus ("prosodiakorpus")

Luonnollisen prosodian tutkimusta varten laadittu korpus käsittää 24 artikkelia ja muuta tekstiä (ml. radio-ohjelma, rivi-ilmoituksia, elintarvikeliikkeen mainos, yleisönosaston kirje, nimipäivälista ym.) 4.5.2000 Karjalainen-sanomalehdestä. Sama materiaali on kaksi kertaa äänitetty, kahden ammattilukijan voimin (Yleisradion uutislukijoita, 1m/1n), joista naislukija on tuottanut myös difoniaineiston. Korpus sisältää yhteensä 700 virkettä eli noin 80 minuuttia puhetta ja on valmiiksi nimikoitu. Vuosina 2001/2002 Praatilla tehdyt F0-analyysit eivät ole mukana tulosaineistossa, koska nykyiset ohjelmarutiinit antavat vielä tarkempia mittauksia ja ovat helposti ja nopeasti suoritettavissa (toisin kuin työläs nimikointi).

http://phon.joensuu.fi/suopuhe/tulosaineisto/oheis/karjalainenkorpus/

COST 258 -puhetyylikorpus

COST 258 -hankkeen puhetyylikorpus nimikoitiin ja sen intonaatiokäyrät analysoitiin Suopuheprojektia varten. (HUOM: eri käyttölisenssi, GPL.)

http://phon.joensuu.fi/suopuhe/tulosaineisto/oheis/cost258/

MOMEL

MOMEL (''MOdélisation de la MELodie''), D. Hirstin ja R. Espesserin intonaatio-annotaation standardimenetelmän Perl-implementaatio. (HUOM: eri käyttölisenssi, GPL.)

http://phon.joensuu.fi/suopuhe/tulosaineisto/oheis/momel/

Automaattinen tavunrajojen merkintä

TM-ohjelma lisää Praatin TextGrid-nimikoinititiedostoihin uuden tason, joka sisältää tavunrajat. Rajat päätellään lause- ja äännetason merkinnöistä.

http://phon.joensuu.fi/suopuhe/tulosaineisto/oheis/tm/

Muunnin Suopuhe XML -> Microsoft SAPI 5.1 TTS

http://phon.joensuu.fi/suopuhe/tulosaineisto/oheis/suo2tss/


Hankkeen tuottamat julkaisut

Seuraavat julkaisut ovat syntyneet kokonaan tai osittain puhesynteesihankkeen puitteissa:

M. Vainio, T. Altosaar, and S. Werner, "Measuring the importance of morphological information for Finnish speech synthesis," in Proceedings ICSLP 2000 (B. Yuan, T. Huang, and X. Tang, eds.), vol. 1, (Beijing, China), pp. 641-644, Oct. 2000.

S. Werner, "Puhetyylien mallintaminen suomenkielisessä text-to-speech-synteesissä," in 21. Fonetiikan Päivät, Turku 4.-5.1.2001 (S. Ojala and J. Tuomainen, eds.), vol. 67 of Publications of the Department of Finnish and General Linguistics of the University of Turku, pp. 47-57, University of Turku, 2001.

S. Werner and M. Vainio, "Modelling Finnish intonation for TTS," in Nordic Prosody: Proceedings of the VIIIth conference, Trondheim 2000 (W. A. van Dommelen and T. Fretheim, eds.), (Frankfurt), pp. 227-238, Peter Lang, 2001.

H. Mixdorff, M. Vainio, S. Werner, and J. Järvikivi, "The manifestation of linguistic information in prosodic features of Finnish," in Prosody 2002 (B. Bel and I. Marlien, eds.), pp. 515-518, 2002.

M. Vainio, H. Mixdorff, J. Järvikivi, and S. Werner, "The production and perception of focus in Finnish," in Proceedings of the XVth International Congress of Phonetic Sciences, (Barcelona), 2003 (forthcoming).

M. Vainio, N. Volk, S. Werner, J. Järvikivi, and J. Välikangas, "Uusi suomalainen puhesynteesi," in 30. Kielitieteen päivät, (Joensuu), 2003 (forthcoming).

M. Vainio, J. Järvikivi, and S. Werner, "Suomen lausepainon havaitsemisesta: tonaaliset piirteet ja sanajärjestys," in 30. Kielitieteen päivät, (Joensuu), 2003 (forthcoming).

N. Volk, "Rule-based customizable text expander," in Nodalida '03, (Reykjavik), 2003 (forthcoming).

Valid XHTML 1.0!
mailto:webmaster
Viimeksi muokattu: 4.12.2005