Nama : Imam Rosyadi
Npm : 13112640
Kelas : 4ka11
Speech
Synthesis
1.
Pengertian Speech Synthesis
Speech synthesis adalah transformasi dari teks ke arah suara (speech).
Transformasi ini mengkonversi teks ke pemadu suara (speech synthesis) yang
sebisa mungkin dibuat menyerupai suara nyata, disesuaikan dengan aturan –
aturan pengucapan bahasa.TTS (text to speech) dimaksudkan untuk
membaca teks elektronik dalam bentuk buku, dan juga untuk menyuarakan teks
dengan menggunakan pemaduan suara. Sistem ini dapat digunakan sebagai sistem
komunikasi, pada sistem informasi referral, dapat diterapkan untuk membantu
orang-orang yang kehilangan kemampuan melihat dan membaca.
Ada
beberapa masalah yang terdapat pada pemaduan suara, yaitu:
·
User sangat sensitif
terhadap variasi dan informasi suara. Oleh sebab itu, mereka tidak dapat
memberikan toleransi atas ketidaksempurnaan pemadu suara.
·
Output dalam bentuk suara tidak dapat
diulang atau dicari dengan mudah.
·
Meningkatkan keberisikan
pada lingkungan kantor atau jika menggunakan handphone, maka akan meningkatkan
biaya pengeluaran.
Lingkungan
dari aplikasi pemadu suara adalah:
·
Bagi tunanetra, pemadu
suara menawarkan media komunkasi dimana mereka dapat memiliki akses yang tidak
terbatas.
·
Lingkungan dimana visual
dan haptic skill user berfokus pada hal lain. Contohnya: sinyal bahaya pada
kokpit pesawat udara.
2.
Sejarah Speech Synthesis
Upaya yang paling awal
untuk menghasilkan lahirnya pemandu suara, pada abad XVIII. Terlepas dari
kenyataan bahwa upaya pertama adalah bentuk mesin mekanis, kita dapat
mengatakan hari ini bahwa synthesizer sudah berkualitas tinggi. Pada
tahun 1779 di
St Petersburg, Rusia Profesor Kratzenshtein Kristen fisiologis
menjelaskan perbedaan antara lima vokal panjang (/ A /, / e /, / i /, / o
/, dan / u /) dan membuat alat untuk menghasilkan mereka artifisial.
Tahun 1791 di Wina, Wolfgang von Kempelen memperkenalkan nya “Akustik-Mekanik
Mesin Speech”. Dalam sekitar pertengahan 1800-an Charles Wheatstone
dibangun terkenal versi mesin berbicara von Kempelen’s.
Generasi
dari sistem pemaduan suara ini dapat dibagi ke dalam 3 masa, yaitu:
♦ Generasi pertama (1962-1977). Format
sintesis dari fonem adalah teknologi dominan. Teknologi ini memanfaatkan aturan
berdasarkan penguraian fonetik pada kalimat untuk kontur frekuensi forman.
Beberapa sintesis masih miskin atau kurang dalam kejelasan dan
kealamiannya.
♦ Generasi kedua (1977-1992). Metode
pemadu suara adalah diphone diwakilkan dengan parameter LPC. Hal tersebut
menunujukkan bahwa kejelasan yang baik pada pemadu suara dapat diperoleh dengan
andal dari input teks dengan menggabungkan diphone yang sesuai dengan unit.
Kejelasan meningkat selama sintesis forman, tetapi kealamian dari pemadu suara
masih tetap rendah.
♦ Generasi ketiga (1992-sekarang).
Generasi ini ditandai dengan metode ‘ sintesis pemilihan unit’ yang
diperkenalkan dan disempurnakan oelh Sagisaka di Labs ATR Kyoto. Hasil dari
pemandu suara pada periode ini sangat mendekati human-generated
speech pada bagian kejelasan dan kealamian,
Teknologi
pemadu suara modern melibatkan metode dan algoritma yang canggih dan rumit.
alat pemadu suara dari keluarga “Infovox” mungkin mejadi salah satu multi
bahasa TTS yang paling dikenal saat ini. Versi komersial pertamanya, Infovox-SA
101, dikembangkan pada tahun 1982 di Institute Teknologi Royal, Swedia dan
didasarkan pada sintesis forman.
AT
& T Bell Laboratories (Lucent Technologies) juga memiliki tradisi yang sangat
panjang tentang pemandu suara (speech synthesis). TTS lengkap yang pertama
didemostrasikan di Boston pada tahun 1972 dan diliris pada tahun 1973. Hal ini
didasarkan pada model artikulatoris yang sikembangkan oleh Ceceil Coker (Klatt
1987). Pengembangan proses dari sistem penggabungan sintesis ini dimulai oleh
Joseph Olive pada pertengahan tahun 1970-an (Bell Labs 1997). Sistem ini
sekarang sudah tersedia untuk bahasa Inggris, Perancis, Spanyol, Italia,
Jerman, Rusia, Rumania, Cina, dan Jepang (Mcbius et al 1996).
Tabel
TTS System

Sumber :
Tidak ada komentar:
Posting Komentar