Mel-Frequency Cepstrum Coefficients (MFCC) Melalui Jaringan Syaraf
Mel-Frequency Cepstrum Coefficients (MFCC) Melalui Jaringan Syaraf
ABSTRACT
During this time, computer cursor operation was done by pressing and moving the mouse. So, this is less
flexible for computer user that require movement in operating a computer, since to use mouse comfortably someone has
to sit. Moreover, physical completeness is required for mouse operating, so that for someone who has physical
disabilities feels difficult to operate it. Therefore, it is required to develop a system that provides a better comfort and
flexibility not only for the healthy user computer but also for the user computer who has physical disabilities.
In this final project, computer cursor operation program via voice is created. With this program, someone will
have more flexibility when operating the computer cursor and also people with physical disabilities is enabled to
communicate with computer. Voice recognition is a technology that is apllied in this program, with the feature
extraction process used MFCC (Mel-Frequency Cepstrum Coefficients) method. As for the recognitions process used
artificial neural network type LVQ (Learning Vector Quantization). Voice is passed through a microphone and then it is
analyzed by MFCC to produce MFCC coefficients. These coefficients are used as input vector for LVQ neural network
and used as data to train the network until it has the classification capability. Programming language that is used in
creating this software is Delphi programming language.
Based on the result of the testing program, it is found that the success percentage rate of voice recognition with
training data, that is data which is derived from databases that have been recorded and trained into the program which
amounts to 240 data, is 88,89 %. While in the testing with test data, that is data which is derived from the real time
sayings of respondents which is amounts to 240 data, it is found that the success percentage rate of voice recognition is
83,99 %.
Berikut ini merupakan penjelasan dari Gambar 2 Diagram blok pemroses MFCC
masing-masing blok :
1. Pengekstraksi Ciri Untuk lebih jelasnya, masing-masing proses
Bagian ini merupakan proses mendapatkan pada diagram pemroses MFCC akan diuraikan
sederetan besaran pada bagian sinyal berikut ini
masukan untuk menetapkan pola
pembelajaran atau pola uji. Untuk sinyal 2.2.1 Frame Blocking
suara, ciri-ciri besaran biasanya merupakan Pada langkah ini, sinyal ucapan yang terdiri
keluaran dari beberapa bentuk teknik dari S sampel (X(S)) dibagi menjadi beberapa frame
analisis spektrum seperti LPC (Linear yang berisi N sampel, masing-masing frame
Predictive Coding) atau MFCC (Mel- dipisahkan oleh M (M<N). Frame pertama berisi
Frequency Cepstrum Coefficients). sampel N pertama. Frame kedua dimulai M sampel
2. Pembelajaran Pola setelah permulaaan frame pertama, sehingga frame
Satu atau lebih pola uji yang berhubungan kedua ini overlap terhadap frame pertama sebanyak
dengan bunyi suara dari kelas yang sama, N-M sampel. Seterusnya, frame ketiga dimulai M
3
sampel setelah frame kedua (juga overlap sebanyak dalam Hz, sebuah pola diukur dalam sebuah skala
N-M sampel terhadap frame kedua). Proses ini yang disebut „mel‟. Skala „mel frekuensi‟ adalah
berlanjut sampai seluruh suara tercakup dalam skala frekuensi linier di bawah 1000 Hz dan skala
frame. Hasil dari proses ini adalah matriks dengan logaritmik di atas 1000 Hz.
N baris dan beberapa kolom sinyal X[N]. Skala ini didefinisikan oleh Stanley Smith,
Proses ini tampak pada Gambar 3, Sn John Volkman dan Edwin Newman sebagai :
adalah nilai sampel yang dihasilkan, dan n f
mel ( f ) 2595 * log 10 (1 )
menunjukkan urutan sampel yang akan diproses. 700
Sebuah pendekatan untuk simulasi spektrum dalam
skala mel adalah dengan menggunakan filter bank
yang diletakkan secara seragam dalam skala mel
yang ditunjukkan pada Gambar 4.
2.2.2 Windowing
Langkah selanjutnya adalah windowing setiap
frame untuk meminimalisir diskontinuitas sinyal
pada permulaan dan akhir setiap frame. Konsepnya
adalah meruncingkan sinyal ke angka nol pada Gambar 4 Contoh mel-spaced filter bank
permulaan dan akhir setiap frame. Bila window
didefinisikan sebagai w(n), 0 ≤ n ≤ N-1, dengan N Bila spektrum F[N] adalah masukan proses
adalah jumlah sampel dalam tiap frame, maka hasil ini, maka keluarannya adalah spektrum M[N] yang
dari proses ini adalah sinyal : merupakan spektrum F[N] termodifikasi yang berisi
y(n) x(n)w(n),0 n N 1 power output dari filter-filter ini. Koefisien
spektrum mel dinyatakan dengan K, dan secara
dengan = sinyal hasil windowing sampel
khusus ditentukan berharga 20.
ke-n
Dalam mel-frequency wrapping, sinyal hasil
= nilai sampel ke-n
FFT dikelompokkan ke dalam berkas filter
= nilai window ke-n
triangular ini. Maksud pengelompokan di sini
= jumlah sampel dalam frame
adalah setiap nilai FFT dikalikan terhadap gain
Secara khusus (dalam masalah ini), secara
filter yang bersesuaian dan hasilnya dijumlahkan.
empiris, digunakan hamming window, yang
Maka setiap kelompok mengandung sejumlah bobot
mempunyai bentuk,
energi sinyal sebagaimana dinyatakan sebagai
2n
w(n) 0,54 0,46 cos ,0 n N 1 m1….mp seperti tampak pada Gambar 4.
N 1
2.2.5 Cepstrum
2.2.3 Fast Fourier Transform (FFT) Cepstrum adalah sebutan kebalikan untuk
Proses selanjutnya adalah Alihragam Fourier spectrum. Cepstrum biasa digunakan untuk
Cepat (Fast Fourier Transform), yang mendapatkan informasi dari suatu sinyal suara yang
mengkonversi setiap frame yang berisi N sampel diucapkan oleh manusia.Pada langkah terakhir ini,
dari ranah waktu ke ranah frekuensi. spektrum log mel dikonversi menjadi cepstrum
FFT adalah sebuah algoritma cepat untuk menggunakan Discrete Cosine Transform (DCT).
implementasi Discrete Fourier Transform (DFT) Hasil dari proses ini dinamakan Mel-Frequency
yang dioperasikan pada sebuah sinyal waktu-diskret Cepstrum Coefficients (MFCC).
yang terdiri dari N sampel sebagai berikut : MFCC ini adalah hasil alihragam cosinus dari
f (n) KN 10 y k e 2jkn / N , n 0,1,2,..., N 1 logaritma short-term power spectrum yang
dinyatakan dalam skala mel-frekuensi. Bila mel
power spectrum coefficients dinotasikan sebagai Sk,
2.2.4 Mel-Frequency Wrapping
Studi psikofisik telah menunjukkan bahwa k = 1,2…..K , Minh N.Do mendefinisikan koefisien
persepsi manusia tentang frekuensi suara untuk dari MFCC (ĉn) sebagai :
1
sinyal ucapan tidak mengikuti skala linier. Jadi, cn K
k 1 (log Sk ) cos[n(k ) ], n 1,2,..., K
2 K
untuk setiap nada dengan frekuensi sesungguhnya f,
4
pengguna.
2.3.1. Algoritma Pembelajaran LVQ
Algoritma ini akan mengubah bobot satu Menguji sistem pengenalan dengan data latih dan
data uji
Mulai
Analog input
Gambar 8 Rangkaian alat saat pengujian dengan data latih
Biodata Penulis
Angga Setiawan, lahir di
kota Salatiga pada
tanggal 25 Januari 1990.
Menempuh pendidikan di
SDN Sidomulyo 4
Ungaran, SMPN 3
Ungaran, SMAN 1
Ungaran dan saat ini
masih menyelesaikan
studi Strata-1 di Jurusan
Teknik Elektro
Universitas Diponegoro
Semarang dengan
mengambil konsentrasi Elektronika
Telekomunikasi.
Menyetujui,
Dosen Pembimbing I,