Speech Recognition

Pengenalan suara (voice recognition) dibagi menjadi dua jenis, yaitu speech recognition dan speaker recognition. Namun pada kali ini konsen kita hanya kepada Speech recognition yang berarti proses identifikasi yang dilakukan komputer untuk mengenali kata yang diucapkan oleh seseorang tanpa mempedulikan identitas orang terkait dengan melakukan konversi sebuah sinyal akustik, yang ditangkap oleh audio device (perangkat input suara). Pola kerja Pengenalan Ujaran (speech recognition) adalah mencocokkan sinyal akustik yang diterima dengan data yang tersimpan dalam template ataupun database. Proses pencocokan memiliki dua model utama yaitu Model Akustik yang terdiri dari fonem yang memiliki nilai tertentu yang diambil dari sinyal akustik dan Model Bahasa berupa metode yang mengestimasikan satu kata diikuti oleh serangkaian kata lainnya.

Speech Recognition juga merupakan sistem yang digunakan untuk mengenali perintah kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data yang dimengerti oleh komputer. Pada saat ini, sistem ini digunakan untuk menggantikan peranan input dari keyboard dan mouse. Keuntungan dari sistem ini adalah pada kecepatan dan kemudahan dalam penggunaannya. Kata – kata yang ditangkap dan dikenali bisa jadi sebagai hasil akhir, untuk sebuah aplikasi seperti command & control, penginputan data, dan persiapan dokumen. Parameter yang dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan template database yang tersedia. Sedangkan sistem pengenalan suara berdasarkan orang yang berbicara dinamakan speaker recognition. Kompleksitas algoritma pada Speech recognition yang diimplementasikan lebih sederhana daripada speaker recognition. Algoritma yang akan diimplementasikan pada bahasan mengenai proses speech recognition ini adalah algoritma FFT (Fast Fourier Transform), yaitu algoritma yang cukup efisien dalam pemrosesan sinyal digital (dalam hal ini suara) dalam bentuk diskrit. Algoritma ini mengimplementasikan algoritma Divide and Conquer untuk pemrosesannya. Konsep utama algoritma ini adalah mengubah sinyal suara yang berbasis waktu menjadi berbasis frekuensi dengan membagi masalah menjadi beberapa upa masalah yang lebih kecil. Kemudian, setiap upaya masalah diselesaikan dengan cara melakukan pencocokan pola digital suara.

Sejarah Speech Recognition

  • 1874 :

Alexander Graham Bell berhasil membuktikkan bahwa frekuensi harmoni dari sebuah sinyal elektrik dapat dibagi-bagi yang kemudian hari berlanjut pada digitalisasi ucapan.

  • 1952 :

Bell Labs mengembangkan speech recognizer pertama dengan menggunakan teknologi pemisah frekuensi yang serupa dengan teknologi yang dikembangkan oleh Alexander Graham Bell.

  • 1971-1976 :

Defence Advance Research Project Agency dibentuk yang merupakan proyek riset dengan dana dari pemerintah AS. Tujuan dari proyek ini adalah untuk melakukan penelitian teknologi speech recognition. Penemuan terbesar yang dihasilkan proyek ini adalah peningkatan dalam menekan permasalahan variabilitas suara.

  • Pertengahan tahun 1970-an :

Itakura mengadakan sebuah riset untuk mengembangkan sebuah produk yang berbasis pada asumsi bahwa noise itu walaupun terdengar sama namun pada kenyataannya tidak demikian. Produk tersebut akurasinya mencapai 97,3% saat diuji menggunakan 200 kosakata.

Bell Labs mengembangkan sistem yang mampu mengenali suara dari orang-orang yang berbeda dengan akurasi hingga 97,1%.

  • Akhir 1970-an :

Produk speech recognition pertama mulai dipasarkan dengan harga mulai $259 hingga $100.000.

  • 1980-an :

Pasaran speech recognition mulai digolongkan menjadi dua, yaitu Call Center Speech Recognition System dan Speech-to-Text Application.

  • 1990-an :

Prosesor sebuah personal computer telah sanggup memenuhi level minimal yang diperlukan agar sebuah software speech recognition dapat berjalan dengan lancar serta efektif untuk penggunaan pribadi.

  • 1999 :

Sebuah program speech recognition baru telah mampu memahami pembicaraan manusia secara berkesinambungan dengan tingkat akurasi hingga 99% yang membuatnya dapat dengan mudah digunakan oleh pengguna awam sekaligus.

Terdapat 4 langkah utama dalam sistem pengenalan suara:

  • Penerimaan data input
  • Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
  • Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template atau database.
  • Validasi identitas pengguna.

Jenis – Jenis Speech Recognition

Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu:

  1. Kata-kata yang terisolasi: Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata
  2. Kata-kata yang berhubungan: Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat
  3. Kata-kata yang berkelanjutan: Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural
  4. Kata-kata spontan: Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata
  5. Verifikasi atau identifikasi suara: Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.

Kelebihan dan Kekurangan Menggunakan Speech Recognition

Kelebihan:

  1. Cepat

Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi tersebut. Contohnya pada komando suara. Hanya dalam selang waktu sekitar satu atau dua detik setelah kita mengkomandokan perintah melalui suara, komputer sudah memberi umpan balik atas komando kita.

  1. Mudah digunakan

Kemudahan teknologi ini juga dapat dilihat dalam aplikasi komando suara. Komando yang biasanya kita masukkan ke dalam komputer dengan menggunakan tetikus atau papan ketik kini dapat dengan mudahnya kita lakukan tanpa perangkat keras, yakni dengan komando suara.

Kekurangan:

  1. Rawan terhadap gangguan. Hal ini disebabkan oleh proses sinyal suara yang masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara mempunyai komponen frekuensi yang sama banyaknya dengan komponen frekuensi gangguannya, akan sulit untuk memisahkan gangguan dari sinyal suara.
  2. Jumlah kata yang dapat dikenal terbatas. Hal ini disebabkan pengenal ucapan bekerja dengan cara mencari kemiripan dengan basis data yang dimiliki.

Penerapan Speech Recognition

  1. Bidang komunikasi
  • Komando Suara adalah suatu program pada komputer yang melakukan perintah berdasarkan komando suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang berbasis bahasa Inggris. Ketika pengguna mengatakan “Mulai kalkulator” dengan intonasi dan tata bahasa yang sesuai, komputer akan segera membuka aplikasi kalkulator. Jika komando suara yang diberikan sesuai dengan daftar perintah yang tersedia, aplikasi akan memastikan komando suara dengan menampilkan tulisan “Apakah Anda meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan verifikasi, pengguna cukup mengatakan “Lakukan” dan komputer akan langsung beroperasi.
  • Pendiktean adalah sebuah proses mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian. Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi yang dapat menuliskan apa yang diucapkan oleh pengguna secara otomatis.
  • Telepon

Pada telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol otomatis yang dapat menelpon nomor tujuan dengan komando suara.

  1. Bidang kesehatan

Alat pengenal ucapan banyak digunakan dalam bidang kesehatan untuk membantu para penyandang cacat dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atauVoice User Interface (VUI) yang menggunakan teknologi pengenal ucapan dimana pengendalian saklar lampu misalnya, tidak perlu dilakukan secara manual dengan menggerakkan saklar tetapi cukup dengan mengeluarkan perintah dalam bentuk ucapan sebagai saklarnya. Metode ini membantu manusia yang secara fisik tidak dapat menggerakkan saklar karena cacat pada tangan misalnya. Penerapan VUI ini tidak hanya untuk lampu saja tapi bisa juga untuk aplikasi-aplikasi kontrol yang lain.

  1. Bidang militer
  • Pelatihan Penerbangan, Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur lalu-lintas udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada pilot dengan cara berdialog.
  • Helikopter

Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi. Alat ini sangat diperlukan pada helikopter karena ketika terbang, sangat banyak gangguan yang akan menyulitkan pilot bila harus berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu memencet tombol tertentu.

Daftar Pustaka

http://princessglad.blogspot.co.id/2014/11/speech-recognition.html

http://dee-x-cisadane.webs.com/apps/blog/show/10345884-speech-recognition

http://alexaxeel.blogspot.co.id/2015/11/tulisan-pengantar-telematika-speech.html

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s