Pengenalan Pola Karakter Bahasa Jepang Hiragana Menggunakan 2D Convolutional Neural Network
Pengenalan Pola Karakter Bahasa Jepang Hiragana Menggunakan 2D Convolutional Neural Network
net/publication/331889051
CITATIONS READS
5 643
3 authors, including:
Some of the authors of this publication are also working on these related projects:
Deep Facial Analysis of Integrated Video Surveillance for Measuring Customers Journey Experience View project
All content following this page was uploaded by Nehemia Sugianto on 20 March 2019.
Komputer dapat digunakan untuk mengetik karakter menyertakan studi pendahuluan yang digunakan, rancang
Bahasa Jepang, namun untuk mengenali karakter yang desain, implementasi aplikasi berserta langkah-langkahnya
terdapat pada media gambar dibutuhkan komputasi yang dan hasil tes yang telah dilakukan.
besar dimana dipengaruhi oleh akurasinya [3]. Bahasa
Jepang memiliki susunan kalimat yang terdiri dari huruf II. LANDASAN TEORI
Hiragana, Katakana, dan Kanji, dan dituliskan dengan a. Komik
kombinasi karakter suku kata (hiragana dan katakana) dan Komik adalah seni yang menggunakan gambar yang
yang bersifatkan gambar (kanji). Selain itu terdapat disusun sedemikian rupa sehingga membentuk jalinan
tambahan diakritik yang jika dipakai akan menghasilkan arti cerita. Komik dicetak di atas kertas dan dilengkapi dengan
yang berbeda, hal ini membuat Bahasa Jepang memiliki teks. Komik dapat diterbitkan dalam berbagai bentuk, mulai
banyak kemungkinan kombinasi [4]. Huruf Jepang tidak dari strip dalam koran, dimuat dalam majalah, hingga
memiliki pemisah seperti spasi, dan beberapa karakter berbentuk buku tersendiri [1].
Jepang memiliki kemiripan yang menambah kompleksitas Komik yang dibuat di Jepang disebut dengan Manga.
dalam pengenalan. Oleh sebab itu OCR untuk Bahasa Manga memiliki gaya gambar yang khas hingga seringkali
Jepang adalah penelitian yang menantang dan memerlukan digunakan sebagai referensi menggambar oleh komikus
banyak usaha untuk dilaksanakan [4]. internasional. Di Jepang industri ini dapat mencapai angka
Optical Character Recognition dapat digunakan dengan 40,6 miliar yen tiap tahunnya. Industri penerbit
berbagai metode yang ada, salah satunya adalah neural mengelompokkan manga pada usia dan jenis kelamin target
network [5]. Cara kerja neural network seperti otak manusia pembaca. Untuk laki-laki biasa disebut dengan shōnen dan
yang dapat dilatih untuk menambah pengetahuannya untuk shōjo untuk pembaca perempuan [1].
mendapatkan akurasi tinggi. Dengan menganalisa tiap pixel Majalah manga biasanya terdiri dari beberapa judul
gambar dan mencocokkannya dengan data yang telah ada, komik yang masing-masing memiliki 30-40 halaman untuk
metode ini cocok untuk dokumen dan teks yang rusak. tiap bab-nya, sehingga total jumlah halaman majalah manga
Neural network ideal untuk masalah spesifik seperti data berkisar 200 hingga 850 halaman. Alur membaca manga
pasar saham atau menemukan trend pola gambar, sejauh ini dari kanan ke kiri karena kebiasaan menulis Bahasa Jepang,
neural network adalah metode yang paling efisien berbeda dengan alur membaca Indonesia yang dari kiri ke
dibandingkan dengan metode lain [5]. kanan, karena itu penerbit Indonesia umumnya melakukan
Convolutional Neural Network (CNN) adalah salah satu flip untuk halaman komik sehingga dapat dibaca dari kiri ke
algoritma lanjutan yang dimiliki oleh neural network dan kanan, namun hal ini membuat ambiguitas terutama dengan
memiliki kelas model yang bagus untuk mengenali manga kategori detektif dimana sering memberikan
handwritten text, terutama bilangan digit dan karakter Cina. informasi yang tidak sesuai dengan gambar.
[6]
Pada penelitian ini akan diterapkan penggunaan neural b. Bahasa Jepang
network dengan algoritma 2D Convolutional Neural Bahasa Jepang memiliki tiga macam karakter, yaitu
Network. Telah banyak penelitian menggunakan CNN Hiragana, Katakana, dan Kanji. Kanji digunakan untuk
untuk mengenali tulisan handrwitten dalam bahasa Jepang menyatakan arti dasar dari kata (baik berupa kata benda,
[6], namun belum ada penelitian untuk tulisan cetak. kata kerja, kata sifat, atau kata sandang).
Tujuan penelitian ini adalah melakukan pengenalan pola Karakter Hiragana dan Katakana memiliki 46 set huruf
huruf Hiragana dengan menggunakan metode 2D masing-masing. Hiragana dan Katakana tidak memiliki arti
Convolutional Neural Network dengan tingkat akurasi apapun, seperti layaknya abjad dalam Bahasa Indonesia,
minimal 60%. hanya melambangkan suatu bunyi tertentu, meskipun ada
Untuk mencapai tujuan tersebut penelitian dilakukan juga kata-kata dalam bahasa Jepang yang terdiri dari satu
dengan melakukan studi pendahuluan terlebih dahulu suku kata, seperti me (mata), ki (pohon), ni (dua). Berbeda
dengan sumber jurnal, buku, artikel, dan publikasi di dengan kanji yang tiap hurufnya melambangkan suatu arti
internet. Studi yang dilakukan adalah mengenai teknik tertentu.
computer vision, text extraction from image, pengenalan Dalam kalimat bahasa Jepang tidak ada spasi yang
pola karakter Jepang dan convolutional neural network. memisahkan antara kata dan tidak ada spasi yang
Setelah studi pendahuluan dilanjutkan dengan pembuatan memisahkan antara kalimat. Terdapat dua tanda baca yang
desain aplikasi seperti desain arsitektur, desain tampilan dikenal dalam bahasa Jepang yaitu kuten ( 。 ) yang
user interface dan desain arsitektur convolutional neural berfungsi sebagai tanda baca titik, dan toten ( 、 ) yang
network. Implementasi dilakukan dengan membuat aplikasi berfungsi sebagai tanda baca koma.
berdasarkan teori yang didapatkan pada studi pendahuluan Dalam penulisan kalimat Bahasa Jepang dimulai dari atas
dan desain yang telah dirancang. Setelah aplikasi selesai ke bawah, berbeda dengan alfabet yang dimulai dari kiri ke
dibuat dilakukan tes untuk menguji peforma dan akurasi kanan. Penulisan kalimat selanjutnya diletakkan di sebelah
aplikasi serta mengetahui kesalahan atau error yang terjadi kiri kalimat sebelumnya, sehingga arah baca penulisannya
selama aplikasi digunakan. Tes dilakukan dengan dimulai dari kanan ke kiri [7].
menggunakan 10 input yang berbeda untuk tiap tahapnya.
Langkah terakhir adalah menyusun laporan dengan
c. Pattern Recognition berukuran satu dimensi. Bobot pada CNN berbentuk empat
Pattern recognition merupakan salah satu cabang dimensi yang merupakan kumpulan kernel konvolusi.
pembelajaran dari machine learning yang berfokus pada Dimensi bobot pada CNN adalah:
pengenalan pola dan regularitas data. Sistem pengenalan neuron input x neuron output x tinggi x lebar.
pola dilatih dari data training yang telah dilabeli Karena sifat proses konvolusi, CNN hanya dapat
(supervised learning), namun saat ada data yang belum di digunakan pada data yang memiliki struktur dua dimensi
labeli maka algoritma akan mengenali pola tersebut seperti gambar dan suara. CNN umumnya menggunakan
(unsupervised learning). implementasi dari LeCun, yaitu LeNet. LeNet terdiri dari
Secara umum, algoritma pattern recognition bertujuan beberapa layer, jenis layer yaitu convolution dan
untuk menyediakan jawaban yang paling mendekati input. subsampling.
Hal ini bertentangan dengan algoritma pattern matching Layer convolution digunakan untuk mengaplikasikan
dimana mencari jawaban yang benar-benar sesuai dengan ‘filter’ pada gambar. Filter terdiri dari layer hubungan bobot,
input oleh pola yang telah ada. dengan input ukuran gambar patch kecil 2D, dan outputnya
Pattern recognition memiliki beberapa proses yaitu, unit tunggal. Filter ini diaplikasikan berulang kali sehingga
image retrieval, pre-processing (untuk menghilangkan menghasilkan hubungan seperti serangkaian bidang
noise ataupun normalisasi gambar), feature extraction, dan receptive fields.
classification. Pattern recognition bergerak pada proses Layer Subsampling mengacu pada pengurangan rata-rata
classification [8]. besar sinyal. Metode spesifik subsampling yang digunakan
dikenal dengan ‘max pooling’, yang meliputi pemisahan
d. Neural Network matriks filter output menjadi grid kecil yang non-
Jaringan saraf tiruan atau yang sering disebut dengan overlapping (semakin besar grid, semakin besar sinyal
neural network adalah jaringan dari sekelompok unit reduksi), dan mengambil nilai maksimal pada tiap grid
pemroses yang menggunakan model jaringan saraf manusia. sebagai nilai matriks yang tereduksi. Singkatnya, layer ini
Neural network sangat adaptif dan dapat mengubah merespon perubahan yang terjadi pada layer convolutional.
strukturnya untuk memecahkan masalah berdasarkan Dengan mengaplikasikan layer ini diantara layer
informasi eksternal maupun internal yang mengalir melalui convolutional, maka dapat meningkatkan spatial
jaringan tersebut. abstractness seiring meningkatnya feature abstractness.
Secara sederhana, neural network adalah alat pemodelan
data statistik non linear yang dapat digunakan untuk f. Inisialisasi Awal Xavier
membuat model hubungan yang kompleks antara input dan Inisialisasi awal merupakan langkah yang sangat penting
output untuk menemukan pola-pola pada data. Neural pada pembelajaran neural network. Tujuan dari inisialisasi
network dibangun dari banyak node/unit/neuron yang awal adalah memberikan nilai bobot awal sebelum pelatihan
dihubungkan oleh link/sinaps secara langsung. Link dari dilakukan. Dimana saat pelatihan dilakukan bobot akan
unit yang satu ke unit yang lainnya digunakan untuk disesuaikan kembali untuk menghasilkan klasifikasi yang
melakukan propagasi aktivasi dari unit pertama ke unit akurat.
selanjutnya. Setiap link memiliki bobot numerik (weight). Untuk menginisialisasi bobot awal terdapat beberapa cara,
Bobot ini menentukan kekuatan serta penanda dari sebuah cara yang paling sederhana adalah memberi nilai acak
konektivitas [9]. antara 0 atau 1. Namun setelah diteliti lebih lanjut
Neural network terdiri dari banyak neuron yang penentuan bobot awal dengan metode tertentu dapat
dikelompokkan ke dalam beberapa layer. Neuron pada tiap meningkatkan hasil klasifikasi lebih baik. Salah satu metode
layer terhubung dengan neuron pada layer lainnya. tersebut adalah menggunakan metode Xavier, dimana
Informasi yang diterima di layer input dilanjutkan ke layer- inisialisasi yang umum digunakan adalah [10] :
layer dalam neural network secara satu persatu hingga
mencapai layer terakhir/output. Layer yang terletak di (1)
antara input dan output disebut hidden layer. Banyaknya Dimana W adalah distribusi inisialisasi untuk neuron,
hidden layer tidak tetap, bergantung pada kebutuhan. sedangkan adalah jumlah neuron feeding. Distribusi
Metode dasar dari neural network adalah multilayer
yang umum digunakan adalah Gaussian atau seragam. Pada
perceptron.
metode Xavier digunakan [10] :
e. Convolutional Neural Network (2)
Convolutional Neural Network (CNN) adalah
pengembangan dari Multilayer Perceptron (MLP) yang Dimana adalah jumlah hasil neuron yang telah di
didesain untuk mengolah data dua dimensi. CNN termasuk feeding.
dalam jenis Deep Neural Network karena kedalaman
jaringan yang tinggi dan banyak diaplikasikan pada data III. ANALISIS DAN DESAIN
citra. a. Analisis Masalah
Cara kerja CNN memiliki kesamaan pada MLP, namun Pada studi yang dilakukan oleh Tsai [11] didapati
pada CNN setiap neuron dipresentasikan dalam bentuk dua kekurangan jenis data latih. Seluruh data latih yang
dimensi, tidak seperti MLP yang setiap neuron hanya digunakan adalah handwritten dan tidak ada huruf cetak.
Huruf cetak selalu digunakan pada media elektronik, karakter Hiragana input gambar tersebut, sehingga
sehingga walaupun dapat membaca tulisan handwritten outputnya adalah hasil klasifikasi pengenalan karakter.
dengan baik namun jika sistem tidak dapat membaca huruf
cetak, maka akan berakibat fatal.
Pada studi yang sudah pernah dilakukan [12] dijelaskan
bagaimana metode pengambilan karakter dari komik secara
sistematis, namun pada studi tersebut tidak dijelaskan
selanjutnya akan digunakan untuk apa hasil dari metode
tersebut. Sehingga studi tersebut tidak memiliki tujuan
konkrit untuk mengekstrasi elemen komik.
Pada studi yang sudah pernah dilakukan [11] mengenali
karakter Jepang dengan menggunakan cara perhitungan
manual, dengan mencari titik tengah dan titik potong.
Kekurangan dari metode ini adalah terbatasnya nilai feature
dari karakter, dimana pada paper ini feature yang dimiliki
hanyalah 4, padahal seharusnya diperlukan 46 jenis huruf
yang harus diklasifikasikan.
b. Solusi
Berdasarkan permasalahan yang didapatkan dari
penelitian terdahulu, terdapat beberapa solusi yang
ditawarkan. Adapun pemetaan solusi dapat dilihat dalam
tabel berikut.
TABEL I
PEMETAAN MASALAH DAN SOLUSI
Masalah Solusi
Data latih pengenalan Menggunakan data latih
karakter Jepang hanya dengan jenis tulisan
menggunakan jenis tulisan cetak Gambar 1. Desain Arsitektur
handwritten
Tidak adanya tujuan Memberikan tujuan ii. Desain User Interface
konkrit untuk mengekstrasi konkrit setelah proses Gambar 2 adalah desain tampilan dari aplikasi ekstraksi
elemen komik ekstrasi selesai, yaitu komik. Terdapat tiga tombol untuk memproses tiga jenis
mengenali pola karakter input. Tombol pertama untuk input berupa satu halaman
Pengenalan karakter Pengenalan karakter komik, tombol kedua untuk input berupa satu frame
dengan cara penghitungan menggunakan cara komik, dan tombol terakhir untuk input berupa satu balon
manual menghasilkan Convolutional Neural teks.
sedikit feature Network untuk Lalu terdapat 3 gambar yang dipergunakan untuk
menghasilkan banyak menampilkan input dari pengguna pada panel input. Pada
feature panel raw sample untuk menunjukkan hasil ekstraksi yang
belum di proses. Pada panel threshold untuk menunjukkan
hasil proses threshold dari gambar pada panel raw sample.
c. Desain Sistem
i. Desain Arsitektur
Pada penelitian ini dibangun dua aplikasi, yaitu
aplikasi pengambilan karakter dan aplikasi pengenalan
pola Hiragana. Input pada aplikasi pengambilan
karakter adalah gambar komik, dimana output dari
aplikasi tersebut adalah gambar karakter yang di
dapatkan dari dalam balon teks pada komik. Pada
program pengenalan pola telah disiapkan data latih
dalam image database (IMDB) untuk dilatih pada (Gambar 2 Desain User Interface)
jaringan convolutional neural network, dimana output
dari aplikasi tersebut adalah jaringan yang telah dilatih. iii. Desain Algoritma Pengambilan Karakter
Output dari aplikasi pertama digunakan sebagai input Untuk mengambil karakter dari input komik dibutuhkan
untuk jaringan yang telah dilatih mengidentifikasi 3 proses. Proses pertama ialah pengambilan frame satu-
V. HASIL PENGUJIAN
Pengujian untuk ekstraksi elemen komik dilakukan
dengan tiga tahap, yakni pengambilan frame, pengambilan
balon teks, dan pengambilan karakter.
DAFTAR PUSTAKA
[1] Fusanosuke, N. (2003). Japanese Manga: Its Expression and
Popularity. ABD, 34(1), 3-5.
[2] Moeran, B. (2014). Japanese "Merchants of Culture": The Publishing
Business in Japan. International Journal of Culture, Tourism and
Hospitality Research, 4(4), 97-125.
[3] Vedaldi, A., Lenc, K., & Gupta, A. (2014). MatConvNet
Convolutional Neural Network for MATLAB. Oxford: MatConvNet.
[4] Das, S., & Banerjee, S. (2015). An Algorithm for Japanese
Character Recognition. International Journal of Image, Graphics,
and Signal Processing , 1, 9-15.
[5] Rao, N. V., Sastry, A. C., Chakravarthy, A. N., & Kalyanchakravarthi,
P. (2016, January). Optical Character Recognition Technique
Algorithms. Journal of Theoretical and Applied Information
Technology, 83(2), 275-282.
[6] Tsai, C. (2016). Recognizing Handwritten Japanese Characters
Using Deep Convolutional Neural Networks. Stanford University,
Department of Chemical Engineering. California: Stanford
University.
[7] Sakamoto, K. (2015). Translation of Japanese Poems into English:
Literature in the First Language as a Motive to Communicate in a
Second Language. Tokyo: Palgrave Macmillan UK.
[8] Rigelsford, J. (2002). Pattern Recognition: Concepts, Methods and
Applications. Assembly Automation, 22(4), 10.
[9] Rughooputh, H. S., & Rughooputh, S. D. (2002). Neural Network
Process Vision Systems for Flotation Process. Kybernetes, 31(3/4),
529-535.
[10] Goldberg, Y. (2017). Neural Network Methods in Natural Language
Processing. Toronto: Morgan & Claypool Publisher.
[11] Tsai, C. (2016). Recognizing Handwritten Japanese Characters
Using Deep Convolutional Neural Networks. Stanford University,
Department of Chemical Engineering. California: Stanford
University.
[12] Arai, K., & Tolle, H. (2011). Method for Real Time Extraction of
Digital Manga Comic. International Journal of Image Processing
(IJIIP), 4(6), 669-676.