affandeZone: Kuliah hikmah (bagian 2)

"Inti dari Audio database adalah bagaimana mengekstrak data audio sehingga dapat dikenali sebagai sebuah teks yang selanjutnya akan disimpan ke dalam bentuk tabel dalam database. Apabila data audio telah menjadi data teks, maka kita dapat dengan mudah melakukan query ke database", begitu ucapan beliau saat menyampaikan kesimpulan materi pertama yang dibahasnya pada hari itu.

"Nah, yang menjadi permasalahannya adalah bagaimana proses konversi data audio menjadi data teks.", beliau melanjutkan materinya dengan permasalahan baru yang menurut aku pasti berhubungan dengan rumus atau metode-metode yang tak jelas itu, mungkin.

Kampus ITB

Beliau mulai menjelaskan bahwa ada teknologi yang bisa digunakan untuk menjawab permasalahan tersebut, antara lain adalah speech recognition dan speaker recognition. Speech Recognition adalah teknologi untuk mengenal apa yang diucapkan pada suatu rekaman suara. Sedangkan Speaker Recognition adalah teknologi untuk mengenal siapa yang mengucapkan kata tersebut pada suatu rekaman data. Lalu bagaimana cara kerjanya?

Beliau mengatakan bahwa, sesungguhnya otak manusia belajar dari contoh dan mempraktekkan. Misalkan seorang anak yang mulai belajar mengucapkan huruf A, ia harus mendengar terlebih dahulu seperti apa bunyi huruf A, lalu otaknya akan menangkap pola bunyi tersebut dan mulai memerintahkan mulut untuk mengeluarkan bunyi yang serupa. Jika mulut tidak mengeluarkan bunyi yang serupa, maka otak akan menangkap adanya ketidakcocokan antara bunyi yang didengarnya pertama kali dengan bunyi yang ia keluarkan dari mulutnya. Lalu otak akan mengkonfigurasi ulang dan mengulang memerintahkan mulut untuk mengucapkannya dengan 'konfigurasi' yang baru. Apabila bunyi yang didengarnya terasa cocok dengan apa yang didengarnya pertama kali, maka otak akan menyimpan 'setingan' bunyi tersebut untuk digunakan lagi.

Itulah mengapa orang yang tuli sejak lahir juga tidak dapat berbicara. Karena telinganya tidak pernah mendengar bagaimana sebenarnya bunyi huruf A, sehingga ia tidak bisa mengucapkannya.

Ini juga lah yang menjadi alasan bahwa sesungguhnya setiap huruf itu memiliki getaran dan frekuensi tersendiri, sehingga seseorang dapat mengenali apa yang diucapkan oleh orang lain.

Dengan prinsip itulah kita dapat membandingkan masing-masing frekuensi huruf terhadap apa yang kita ucapkan, dengan begitu kita dapat mengubah data audio menjadi teks.

Memang sejatinya tidak sesederhana itu, karena dalam mengucapkan sebuah kata, kita tidak mengucapkannya per satu huruf, tetapi kita mengucapkannya per satu suku kata, jadi frekuensi untuk suku kata 'ba' dengan 'ca' tentu tidak sama. Jadi kita tidak hanya menyimpan frekuensi untuk satu huruf saja, tetapi juga untuk satu suku kata. Klo dihitung-hitung, banyak kombinasi huruf yang bisa dijadikan suku kata menjadi sekitar 676 pola suku kata. Jika masing-masing pola suku kata tersebut memiliki ukuran file sekitar 500 Kb, maka diperlukan sekitar 338 MB untuk menyimpan data tersebut di komputer. Bayangkan saja berapa lama waktu yang diperlukan untuk menganalisa sebuah kalimat yang terdiri dari 10 suku kata, jika dalam satu detik processor mampu membandingkan 20 pola suku kata, maka perlu 338 detik atau 5 menit 38 detik untuk mengubahnya menjadi data teks. Bagaimana jika dialog yang dianalisa berdurasi 100 jam? Haha...inilah bagian yang paling malas untuk aku pikirkan.

Belum lagi untuk melakukan proses pengenalan siapa orang yang mengucapkan kata tersebut. Untuk mengetahui prinsipnya, beliau menganalogikan seperti saat menerima telepon dari seseorang. Tanpa memperhatikan layar ponsel kita hampir dapat mengenali siapa yang sedang menelepon. Ini dikarenakan adanya perbedaan 'warna' suara untuk masing-masing orang. Di dalam frekuensi suara terdapat bermacam-macam frekuensi yang disebut dengan f1,f2,f3,f4,f5 dan seterusnya. Beliau menyebutkan pola pada frekuensi-frekuensi inilah yang akan menentukan warna suara seseorang, terutama pada f2,f3,f4 dan seterusnya. Jika komputer telah menyimpan 100 pola warna dari 100 orang yang berbeda, maka untuk mengetahui siapa saja yang berbicara pada sebuah rekaman akan memerlukan waktu 100 kali lipat lebih lama dari waktu yang diperlukan sebelumnya.

"Tetapi,...", beliau berhenti sejenak.

"Semua proses perhitungan dan analisa itu akan akurat jika data rekaman yang dianalisa tidak terganggu dengan suara-suara lainnya atau noise. Apabila suara rekaman tersebut terganggu dan bercampur dengan suara lainnya, atau terdapat 2 atau lebih orang yang berbicara secara bersamaan, maka proses analisa belum tentu akurat, karena disana akan terjadi tabrakan frekuensi (interferensi gelombang suara) yang menyebabkan frekuensi tersebut tidak dapat dikenali atau dicocokkan".

Lalu beliau melanjutkan, "Berbeda dengan otak manusia, kita dengan mudahnya mengetahui lirik sebuah lagu yang sedang dimainkan, kita juga dapat mengetahui alat musik apa saja yang ada dimusik tersebut walaupun semua suara telah tercampur aduk menjadi satu. Itulah mengapa otak manusia jauh lebih hebat dibandingkan dengan komputer manapun. Belum ada satu teknologi yang dapat menandingi kehebatan otak manusia", ungkap beliau.

Mendengar itu aku langsung terhenyak. Beberapa saat pandanganku masih tak bergerak melihat beliau, kata-kata beliau masih bergema di atas kepalaku, seolah-olah kalimat itu berputar-putar mengelilingi kepalaku.

Benar yang beliau katakan itu, sudah berapa lama manusia sibuk menggali ilmu pengetahuan dan teknologi, sampai saat inipun belum ada yang bisa mengalahkan fungsi otak manusia dalam mengenal suara. Padahal otak manusia paling bodoh pun dapat mengenali suara, dan itu seperti tidak membutuhkan energi untuk melakukannya.

Coba anda bayangkan jika otak manusia diganti dengan otak komputer, tentu anda akan membutuhkan waktu sekitar 5 menit untuk mengetahui orang lain mengucapkan "Assalammmu'alaikum" kepada anda. Haha...

affandeZone

19 November 2011

Kuliah hikmah (bagian 2)

No comments: