"Inti dari
Audio database adalah bagaimana mengekstrak data audio sehingga dapat dikenali
sebagai sebuah teks yang selanjutnya akan disimpan ke dalam bentuk tabel dalam
database. Apabila data audio telah menjadi data teks, maka kita dapat dengan
mudah melakukan query ke database", begitu ucapan beliau saat menyampaikan
kesimpulan materi pertama yang dibahasnya pada hari itu.
"Nah, yang
menjadi permasalahannya adalah bagaimana proses konversi data audio menjadi
data teks.", beliau melanjutkan materinya dengan permasalahan baru yang
menurut aku pasti berhubungan dengan rumus atau metode-metode yang tak jelas
itu, mungkin.
Kampus ITB |
Beliau mulai
menjelaskan bahwa ada teknologi yang bisa digunakan untuk menjawab permasalahan
tersebut, antara lain adalah speech recognition
dan speaker recognition. Speech Recognition adalah teknologi untuk
mengenal apa yang diucapkan pada suatu rekaman suara. Sedangkan Speaker Recognition adalah teknologi untuk
mengenal siapa yang mengucapkan kata tersebut pada suatu rekaman data. Lalu
bagaimana cara kerjanya?
Beliau mengatakan
bahwa, sesungguhnya otak manusia belajar dari contoh dan mempraktekkan.
Misalkan seorang anak yang mulai belajar mengucapkan huruf A, ia harus
mendengar terlebih dahulu seperti apa bunyi huruf A, lalu otaknya akan
menangkap pola bunyi tersebut dan mulai memerintahkan mulut untuk mengeluarkan
bunyi yang serupa. Jika mulut tidak mengeluarkan bunyi yang serupa, maka otak
akan menangkap adanya ketidakcocokan antara bunyi yang didengarnya pertama kali
dengan bunyi yang ia keluarkan dari mulutnya. Lalu otak akan mengkonfigurasi
ulang dan mengulang memerintahkan mulut
untuk mengucapkannya dengan 'konfigurasi' yang baru. Apabila bunyi yang
didengarnya terasa cocok dengan apa yang didengarnya pertama kali, maka otak
akan menyimpan 'setingan' bunyi tersebut untuk digunakan lagi.
Itulah mengapa orang
yang tuli sejak lahir juga tidak dapat berbicara. Karena telinganya tidak
pernah mendengar bagaimana sebenarnya bunyi huruf A, sehingga ia tidak bisa
mengucapkannya.
Ini juga lah yang
menjadi alasan bahwa sesungguhnya setiap huruf itu memiliki getaran dan
frekuensi tersendiri, sehingga seseorang dapat mengenali apa yang diucapkan
oleh orang lain.
Dengan prinsip
itulah kita dapat membandingkan masing-masing frekuensi huruf terhadap apa yang
kita ucapkan, dengan begitu kita dapat mengubah data audio menjadi teks.
Memang sejatinya
tidak sesederhana itu, karena dalam mengucapkan sebuah kata, kita tidak
mengucapkannya per satu huruf, tetapi kita mengucapkannya per satu suku kata,
jadi frekuensi untuk suku kata 'ba' dengan 'ca' tentu tidak sama. Jadi kita
tidak hanya menyimpan frekuensi untuk satu huruf saja, tetapi juga untuk satu
suku kata. Klo dihitung-hitung, banyak kombinasi huruf yang bisa dijadikan suku
kata menjadi sekitar 676 pola suku kata. Jika masing-masing pola suku kata
tersebut memiliki ukuran file sekitar 500 Kb, maka diperlukan sekitar 338 MB
untuk menyimpan data tersebut di komputer. Bayangkan saja berapa lama waktu
yang diperlukan untuk menganalisa sebuah kalimat yang terdiri dari 10 suku
kata, jika dalam satu detik processor mampu membandingkan 20 pola suku kata,
maka perlu 338 detik atau 5 menit 38 detik untuk mengubahnya menjadi data teks.
Bagaimana jika dialog yang dianalisa berdurasi 100 jam? Haha...inilah bagian
yang paling malas untuk aku pikirkan.
Belum lagi untuk
melakukan proses pengenalan siapa orang yang mengucapkan kata tersebut. Untuk
mengetahui prinsipnya, beliau menganalogikan seperti saat menerima telepon dari
seseorang. Tanpa memperhatikan layar ponsel kita hampir dapat mengenali siapa yang
sedang menelepon. Ini dikarenakan adanya perbedaan 'warna' suara untuk
masing-masing orang. Di dalam frekuensi suara terdapat bermacam-macam frekuensi
yang disebut dengan f1,f2,f3,f4,f5 dan seterusnya. Beliau menyebutkan pola pada
frekuensi-frekuensi inilah yang akan menentukan warna suara seseorang, terutama
pada f2,f3,f4 dan seterusnya. Jika komputer telah menyimpan 100 pola warna dari
100 orang yang berbeda, maka untuk mengetahui siapa saja yang berbicara pada
sebuah rekaman akan memerlukan waktu 100 kali lipat lebih lama dari waktu yang
diperlukan sebelumnya.
"Tetapi,...",
beliau berhenti sejenak.
"Semua proses
perhitungan dan analisa itu akan akurat jika data rekaman yang dianalisa tidak
terganggu dengan suara-suara lainnya atau noise. Apabila suara rekaman tersebut
terganggu dan bercampur dengan suara lainnya, atau terdapat 2 atau lebih orang
yang berbicara secara bersamaan, maka proses analisa belum tentu akurat, karena
disana akan terjadi tabrakan frekuensi (interferensi gelombang suara) yang
menyebabkan frekuensi tersebut tidak dapat dikenali atau dicocokkan".
Lalu beliau
melanjutkan, "Berbeda dengan otak manusia, kita dengan mudahnya mengetahui
lirik sebuah lagu yang sedang dimainkan, kita juga dapat mengetahui alat musik
apa saja yang ada dimusik tersebut walaupun semua suara telah tercampur aduk
menjadi satu. Itulah mengapa otak manusia jauh lebih hebat dibandingkan dengan
komputer manapun. Belum ada satu teknologi yang dapat menandingi kehebatan otak
manusia", ungkap beliau.
Mendengar itu aku
langsung terhenyak. Beberapa saat pandanganku masih tak bergerak melihat
beliau, kata-kata beliau masih bergema di atas kepalaku, seolah-olah kalimat
itu berputar-putar mengelilingi kepalaku.
Benar yang beliau
katakan itu, sudah berapa lama manusia sibuk menggali ilmu pengetahuan dan
teknologi, sampai saat inipun belum ada yang bisa mengalahkan fungsi otak
manusia dalam mengenal suara. Padahal otak manusia paling bodoh pun dapat
mengenali suara, dan itu seperti tidak membutuhkan energi untuk melakukannya.
Coba anda bayangkan
jika otak manusia diganti dengan otak komputer, tentu anda akan membutuhkan
waktu sekitar 5 menit untuk mengetahui orang lain mengucapkan
"Assalammmu'alaikum" kepada anda. Haha...
No comments:
Post a Comment