imam rosyadi: Speech Recognition

Nama : Imam Rosyadi

Npm : 13112640

Kelas : 4ka11

Speech Recognition

Pengenalan ucapan atau pengenalan wicara—dalam istilah bahasa Inggrisnya, automatic speech recognition (ASR)—adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan komando suara.

Alat pengenal ucapan, yang sering disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan selanjutnya. Sebagian besar alat pengenal ucapan sifatnya masih tergantung kepada pembicara. Alat ini hanya dapat mengenal kata yang diucapkan dari satu atau dua orang saja dan hanya bisa mengenal kata-kata terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat jeda antar kata. Hanya sebagian kecil dari peralatan yang menggunakan teknologi ini yang sifatnya tidak tergantung pada pembicara. Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak orang dan juga dapat mengenal kata-kata kontinu, atau kata-kata yang dalam penyampaiannya tidak terdapat jeda antar kata.

Pengenalan ucapan dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi dua, yaitu pengenalan pembicara (identifikasi suara berdasarkan orang yang berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan kata yang diucapkan).

Perkembangan alat pengenal ucapan

Sejak tahun 1940, perusahaan American Telephone and Telegraph Company (AT&T) sudah mulai mengembangkan suatu perangkat teknologi yang dapat mengidentifikasi kata yang diucapkan manusia. Sekitar tahun 1960-an, para peneliti dari perusahaan tersebut sudah berhasil membuat suatu perangkat yang dapat mengidentifikasi kata-kata terpisah dan pada tahun 1970-an mereka berhasil membuat perangkat yang dapat mengidentifikasi kata-kata kontinu. Alat pengenal ucapan kemudian menjadi sangat fungsional sejak tahun 1980-an dan masih dikembangkan dan terus ditingkatkan keefektifannya hingga sekarang.

Skema Utama dan Algoritma Speech Recognition

· Terdapat 4 langkah utama dalam sistem pengenalan suara:

· Penerimaan data input

· Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.

· Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.

· Validasi identitas pengguna.

Description: https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgY93Dcq37kBoCVRecA9jKZ1SSGyeKrWKQbwIr7K6jkB3ndjnHdaQAvtUv7OYOAOh1sMDA0y0TKydAq1xpDaa2ymmNCDCZZrXNKGvRI00M3aDqpGlddHuaHbFPoy3yLz3qMkkNHppvSs_I/s320/1.jpg

Secara umum, speech recognizer memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasit proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan template suara pada database sistem.

Description: https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEh5urMtUbKS_89s5E4Ew34DoxIj9aev-YLntn2bmiZpDCoFZ-OxC4SlJGxMrtZbvWxhiumFBXloTFZ9HII4dkbDZUilr5uSoVHmUCeJUct7F1zZ_haNy9H5ddTDF25U4rbXyH6r-JpZg9s/s320/2.jpg

Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses analisis dapat dilakukan secara paralel. Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :

· Transformasi gelombang diskrit menjadi array data.

· Untuk masing-masing elemen pada aiTay data, hitung "ketinggian" gelombang (frekuensi).

· Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.

Ketika mengkonversi gelombang suara ke dalam bentuk diskrit, gelombang diperlebar dengan cara memperinci berdasarkan waktu. Hal ini dilakukan agar proses algontma seianjutnya (pencocokan) lebih mudah diiakukan. Namun, efek buruknya ialah array of array data yang terbentuk akan lebih banyak.

Description: https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEirQQqXWS7FpS4hf6SIgpDh1LhGoGknjExsumv-yBk647ToxxeyadJsugnyAL2jHaq0Ww8tjKDT89CQltrcrggG3i2dic45nMCJ9IAlIhTUhPKJ8DKGVSOCtW-j6xIb7B02Zv2FMSXUgS4/s320/3.jpg

Dari tiap elemen array data tersebut, dikonversi ke dalam bentuk bilangan biner. Data biner tersebut yang nantinya akan dibandingkan dengan template data suara.

Proses divide and conquer:

· Pilih sebuah angkaN, dimana N merupakan bilangan bulat kelipatan 2.Bilangan ini berfungsi untuk menghitung jumlah elemen transformasi FFT.

· Bagi dua data diskrit secara (dengan menerapkan algoritma divide and conquer) menjadi data diskrit yang lebih kecii berukuran N = N,.N2.

· Objek data dimasukkan ke dalam table (sebagai elemen tabel).

· Untuk setiap eiemen data, dicocokkan dengan data pada template (pada data template juga dilakukan pemrosesan digitaiisasi menjadi data diskrit, dengan cara yang sama dengan proses digitaiisasi data masukan bam yang ingin dicocokkan).

· Setiap upa masalah disatukan kembali dan dianalisis secara keseluruhan, kecocokan dari segi tata bahasa dan apakah data yang diucapkan sesuai dengan kata yang tersedia pada template data.

· Verifikasi data. Jika sesuai, proses iebih lanjut, sesuai dengan aplikasi yang mengimplementasikan algoritma ini.

Implementasi Speech Recognition

Hardware yang dibutuhkan dalam implementasi Speech Recognition :

· Sound card : Merupakan perangkat yang ditambahkan dalam suatu Komputer yang fungsinya sebagai perangkat input dan output suara untuk mengubah sinyal elektrik, menjadi analog maupun menjadi digital.

· Microphone : Perangkat input suara yang berfungsi untuk mengubah suara yang melewati udara, air dari benda orang menjadi sinyal elektrik.

· Komputer atau Komputer Server : Dalam proses suara digital menterjemahkan gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor biner yang dapat diproses lagi kemudian diidentifikasikan dan dicocokan dengan database yang berisi berkas suara agar dapat dikenali.

Contoh Implementasi teknologi Speech Recognition :

Saat ini pada tahun 2010 Microsoft windows vista dan windows 7 , speech recognition telah disertakan dalam system operasinya . sebagaimana fungsi dari speech recognition menterjemahkan pengucapan kata – kata kedalam bentuk teks digital. Salah satu implementasi speech recognition adalah pada konfrensi PBB dimana seluruh Negara tergabung dalam keanggotaan nya , fungsi speech recognition dalam hal ini menterjemahkan bahasa pembicara dari suatu Negara kedalam bahasa yang dipahami pendengar . Contoh penggunaan lain speech recognition adalah Perawatan kesehatan.

Dalam perawatan kesehatan domain, bahkan di bangun meningkatkan teknologi pengenalan suara, transcriptionists medis (MTs) belum menjadi usang. Layanan yang diberikan dapat didistribusikan daripada diganti. Pengenalan pembicaraan dapat diimplementasikan di front-end atau back-end dari proses dokumentasi medis. Front-End SR adalah salah satu alat untuk mengidentifikasi kata-kata yang ucapkan dan ditampilkan tepat setelah mereka berbicara Back-End SR atau SR tangguhan adalah di mana penyedia menentukan menjadi sebuah sistem dikte digital, dan suara yang diarahkan melalui pidato-mesin pengakuan dan draft dokumen diakui dirutekan bersama dengan file suara yang asli ke MT / editor, yang mengedit draft dan memfinalisasi laporan. Ditangguhkan SR sedang banyak digunakan dalam industri saat ini.

Banyak aplikasi Electronic Medical Records (EMR) dapat menjadi lebih efektif dan dapat dilakukan lebih mudah bila digunakan dalam hubungannya dengan pengenalan-mesin bicara. Pencarian, query, dan pengisian formulir semua bisa lebih cepat untuk melakukan dengan suara dibandingkan dengan menggunakan keyboard.

Sumber :

https://id.wikipedia.org/wiki/Pengenalan_ucapan

http://kuliah319.blogspot.com/2011/02/speech-recognition-dengan-algoritma-fft.html
http://citraanindya.blog.upi.edu/2009/06/25/tugas-artikel-300-kata/
http://kuliah319.blogspot.com/2011/02/speech-recognition-dengan-algoritma-fft.html

imam rosyadi

Selasa, 17 November 2015

Speech Recognition

Tidak ada komentar:

Posting Komentar

Mengenai Saya