Nama : Imam Rosyadi
Npm : 13112640
Kelas : 4ka11
Speech
Recognition
Pengenalan ucapan atau pengenalan wicara—dalam istilah
bahasa Inggrisnya, automatic speech recognition (ASR)—adalah suatu
pengembangan teknik dan sistem yang memungkinkan komputer untuk
menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu
perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan
cara digitalisasi kata dan mencocokkan sinyal
digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu
perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital
dengan cara mengubah gelombang suara menjadi sekumpulan angka yang
kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan
kata-kata tersebut. Hasil dari identifikasi kata yang diucapkan dapat
ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi
sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan
tombol pada telepon genggam yang dilakukan secara otomatis dengan
komando suara.
Alat pengenal ucapan, yang sering disebut dengan speech
recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna.
Sampel kata akan didigitalisasi, disimpan dalam komputer, dan kemudian
digunakan sebagai basis data dalam mencocokkan kata yang diucapkan selanjutnya.
Sebagian besar alat pengenal ucapan sifatnya masih tergantung kepada
pembicara. Alat ini hanya dapat mengenal kata yang diucapkan dari satu atau dua
orang saja dan hanya bisa mengenal kata-kata terpisah, yaitu kata-kata yang
dalam penyampaiannya terdapat jeda antar kata. Hanya sebagian kecil dari
peralatan yang menggunakan teknologi ini yang sifatnya tidak tergantung pada
pembicara. Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak orang
dan juga dapat mengenal kata-kata kontinu, atau kata-kata yang dalam
penyampaiannya tidak terdapat jeda antar kata.
Pengenalan ucapan dalam perkembangan teknologinya merupakan
bagian dari pengenalan suara (proses identifikasi seseorang berdasarkan
suaranya). Pengenalan suara sendiri terbagi menjadi dua, yaitu pengenalan
pembicara (identifikasi suara berdasarkan orang yang berbicara) dan pengenalan
ucapan (identifikasi suara berdasarkan kata yang diucapkan).
Perkembangan
alat pengenal ucapan
Sejak tahun 1940, perusahaan American Telephone and
Telegraph Company (AT&T) sudah mulai mengembangkan suatu perangkat
teknologi yang dapat mengidentifikasi kata yang diucapkan manusia. Sekitar
tahun 1960-an, para peneliti dari perusahaan tersebut sudah berhasil membuat
suatu perangkat yang dapat mengidentifikasi kata-kata terpisah dan pada tahun
1970-an mereka berhasil membuat perangkat yang dapat mengidentifikasi kata-kata
kontinu. Alat pengenal ucapan kemudian menjadi sangat fungsional sejak tahun
1980-an dan masih dikembangkan dan terus ditingkatkan keefektifannya hingga
sekarang.
Skema
Utama dan Algoritma Speech Recognition
·
Terdapat 4 langkah utama
dalam sistem pengenalan suara:
·
Penerimaan data input
·
Ekstraksi,
yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
·
Pembandingan
/ pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan
tata bahasa) pada template.
·
Validasi
identitas pengguna.
Secara
umum, speech recognizer memproses sinyal suara yang masuk dan menyimpannya
dalam bentuk digital. Hasit proses digitalisasi tersebut kemudian dikonversi
dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan
template suara pada database sistem.
Sebelumnya, data suara masukan dipilah-pilah dan diproses
satu per satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses
analisis dapat dilakukan secara paralel. Proses yang pertama kali dilakukan
ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit.
Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :
·
Transformasi gelombang
diskrit menjadi array data.
·
Untuk masing-masing elemen pada aiTay data,
hitung "ketinggian" gelombang (frekuensi).
·
Objek permasaiahan yang
akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.
Ketika mengkonversi gelombang suara ke dalam bentuk diskrit,
gelombang diperlebar dengan cara memperinci berdasarkan waktu. Hal ini
dilakukan agar proses algontma seianjutnya (pencocokan) lebih mudah diiakukan.
Namun, efek buruknya ialah array of array data yang terbentuk akan lebih
banyak.
Dari tiap elemen array data tersebut, dikonversi ke dalam
bentuk bilangan biner. Data biner tersebut yang nantinya akan dibandingkan
dengan template data suara.
Proses divide and
conquer:
·
Pilih sebuah angkaN,
dimana N merupakan bilangan bulat kelipatan 2.Bilangan ini berfungsi untuk
menghitung jumlah elemen transformasi FFT.
·
Bagi dua data diskrit secara (dengan
menerapkan algoritma divide and conquer) menjadi data diskrit yang lebih kecii
berukuran N = N,.N2.
·
Objek data dimasukkan ke
dalam table (sebagai elemen tabel).
·
Untuk setiap eiemen data, dicocokkan dengan
data pada template (pada data template juga dilakukan pemrosesan digitaiisasi
menjadi data diskrit, dengan cara yang sama dengan proses digitaiisasi data
masukan bam yang ingin dicocokkan).
·
Setiap upa masalah
disatukan kembali dan dianalisis secara keseluruhan, kecocokan dari segi tata
bahasa dan apakah data yang diucapkan sesuai dengan kata yang tersedia pada
template data.
·
Verifikasi data. Jika
sesuai, proses iebih lanjut, sesuai dengan aplikasi yang mengimplementasikan
algoritma ini.
Implementasi
Speech Recognition
Hardware
yang dibutuhkan dalam implementasi Speech Recognition :
·
Sound card : Merupakan
perangkat yang ditambahkan dalam suatu Komputer yang fungsinya sebagai
perangkat input dan output suara untuk mengubah sinyal elektrik, menjadi analog
maupun menjadi digital.
·
Microphone : Perangkat
input suara yang berfungsi untuk mengubah suara yang melewati udara, air dari
benda orang menjadi sinyal elektrik.
·
Komputer atau Komputer
Server : Dalam proses suara digital menterjemahkan gelombang suara menjadi
suatu simbol biasanya menjadi suatu nomor biner yang dapat diproses lagi
kemudian diidentifikasikan dan dicocokan dengan database yang berisi
berkas suara agar dapat dikenali.
Contoh
Implementasi teknologi Speech Recognition :
Saat
ini pada tahun 2010 Microsoft windows vista dan windows 7 , speech recognition
telah disertakan dalam system operasinya . sebagaimana fungsi dari speech
recognition menterjemahkan pengucapan kata – kata kedalam bentuk teks
digital. Salah satu implementasi speech recognition adalah pada konfrensi
PBB dimana seluruh Negara tergabung dalam keanggotaan nya , fungsi speech
recognition dalam hal ini menterjemahkan bahasa pembicara dari suatu Negara
kedalam bahasa yang dipahami pendengar . Contoh penggunaan lain speech
recognition adalah Perawatan kesehatan.
Dalam perawatan kesehatan domain, bahkan di bangun meningkatkan teknologi
pengenalan suara, transcriptionists medis (MTs) belum menjadi usang. Layanan
yang diberikan dapat didistribusikan daripada diganti. Pengenalan pembicaraan
dapat diimplementasikan di front-end atau back-end dari proses dokumentasi
medis. Front-End SR adalah salah satu alat untuk mengidentifikasi kata-kata
yang ucapkan dan ditampilkan tepat setelah mereka berbicara Back-End SR atau SR
tangguhan adalah di mana penyedia menentukan menjadi sebuah sistem dikte
digital, dan suara yang diarahkan melalui pidato-mesin pengakuan dan draft
dokumen diakui dirutekan bersama dengan file suara yang asli ke MT / editor,
yang mengedit draft dan memfinalisasi laporan. Ditangguhkan SR sedang banyak
digunakan dalam industri saat ini.
Banyak
aplikasi Electronic Medical Records (EMR) dapat menjadi lebih efektif dan dapat
dilakukan lebih mudah bila digunakan dalam hubungannya dengan pengenalan-mesin
bicara. Pencarian, query, dan pengisian formulir semua bisa lebih cepat untuk
melakukan dengan suara dibandingkan dengan menggunakan keyboard.
Sumber
:
https://id.wikipedia.org/wiki/Pengenalan_ucapan
http://kuliah319.blogspot.com/2011/02/speech-recognition-dengan-algoritma-fft.html
http://citraanindya.blog.upi.edu/2009/06/25/tugas-artikel-300-kata/
http://kuliah319.blogspot.com/2011/02/speech-recognition-dengan-algoritma-fft.html
Tidak ada komentar:
Posting Komentar