Unduh sebagai pdf atau txt
Unduh sebagai pdf atau txt
Anda di halaman 1dari 10

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/331889051

Pengenalan Pola Karakter Bahasa Jepang Hiragana Menggunakan 2D


Convolutional Neural Network

Article · January 2018

CITATIONS READS

5 643

3 authors, including:

Daniel Wonohadidjojo Nehemia Sugianto


Universitas Ciputra Surabaya Southern Cross University
17 PUBLICATIONS   112 CITATIONS    19 PUBLICATIONS   54 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Deep Facial Analysis of Integrated Video Surveillance for Measuring Customers Journey Experience View project

All content following this page was uploaded by Nehemia Sugianto on 20 March 2019.

The user has requested enhancement of the downloaded file.


28 JUISI, Vol. 03, No. 02, Agustus 2017

Pengenalan Pola Karakter Bahasa Jepang Hiragana


Menggunakan 2D Convolutional Neural Network
Mellysa Margarita Susilo1, Daniel Martomanggolo Wonohadidjojo2, Nehemia Sugianto3

Abstract— Comics are loved by people all over the world.


Abstrak— Komik disukai oleh banyak orang di seluruh Japanese comic or manga can be found in internet, but not
dunia. Komik Jepang atau yang biasa disebut manga dapat everyone can read it because it is written in Japanese. There
ditemukan di internet, tapi tidak semua orang dapat are non-profit teams who are willing to translate manga, but
membacanya karena berbahasa Jepang. Terdapat tim non- because of limited time and effort not all manga can be
profit yang bersedia menerjemahkan manga namun karena translated. Therefore, even though there are many manga in
waktu dan tenaga yang terbatas maka tidak semua manga internet, not everyone can read it. So cause disappointment for
dapat diterjemahkan. Oleh sebab itu, walaupun terdapat the readers whom anticipate it. It can be solved by using
banyak manga di internet, tidak semua orang dapat pattern recognition, and convolutional neural network
membacanya. Sehingga menimbulkan kekecewaan pada algorithm. In this research, manga will be used as the input
pembaca yang menantikannya. Masalah ini dapat diselesaikan sample. The first step is to retrieve Japanese text from text
dengan menggunakan pattern recognition dan algoritma balloon in manga. After that, perform feature extraction, then
convolutional neural network. Pada penelitian ini akan analyze and save the pattern to be compared with prepared
menggunakan media gambar komik. Langkah pertama yang bank of data so it can be decided what is the character of the
dilakukan adalah mengambil tulisan Jepang dari balon teks source’s image. To train the pattern recognition for maximum
pada manga. Setelah tulisan Jepang didapatkan, dilakukan output, Convolutional Neural Network algorithm is used to
feature extraction untuk dianalisa dan disimpan polanya make the application smarter in pattern recognition and can
untuk dibandingkan dengan bank data tulisan yang telah run independently. There will be two applications, the first
dipersiapkan sehingga dapat ditentukan karakter yang application is Element Extractor from Manga (Japanese
terdapat pada sumber gambar dikenali sebagai apa. Untuk Comic), developed using C# programming language and
melatih agar pattern recognition menghasilkan hasil yang AForge library. And pattern recognition program developed
maksimal, dikembangkanlah dengan algoritma convolutional using MATLAB. Based on testing result using 10 different
neural network agar aplikasi dapat berjalan secara mandiri inputs, the Element Extractor from Manga program able to
dan semakin pintar dalam mengenali pola. Akan terdapat dua extract 88% frame, 91% text balloon, and 46% character.
aplikasi, aplikasi pertama adalah Element Extractor from Character extraction showing a low result and needs more
Manga (Japanese Comic) yang dikembangkan dengan bahasa pre-processing steps. The convolutional neural network
pemograman C# dan library AForge. Aplikasi kedua adalah training reached 96.2% accuracy and 86% accuracy from
program pattern recognition yang dikembangkan dengan cross validation test.
MATLAB. Tes dilakukan dengan 10 input yang berbeda
untuk tiap tahapnya. Element Extractor from Manga berhasil Keywords: Computer Vision, Dekstop Application, Pattern
mengekstrak 88% frame komik, 91% balon teks, dan 46% Recognition, Convolutional Neural Network, Hiragana,
karakter. Pelatihan convolutional neural network mencapai Japanese Comics
akurasi 96.2% dan tes cross validation mencapai akurasi 86%.

Kata Kunci: Pencitraan Komputer, Aplikasi Dekstop,


I. PENDAHULUAN
Pengenalan Pola, Jaringan Saraf Tiruan Convolutional,
Hiragana, Komik Jepang
Komik digemari oleh banyak orang di seluruh dunia saat
ini. Komik dapat dibedakan dari lokasi asalnya, seperti
komik dari Jepang disebut manga, komik dari Korea disebut
manhwa, dan komik dari China disebut manhua. Selain dari
nama, perbedaan lain juga terdapat pada gaya
penggambarannya. Pada era digital saat ini komik telah
banyak dipindai dan diunggah ke internet sehingga dapat
1
Mahasiswa, Program Studi Teknik Informatika Fakultas dinikmati oleh masyarakat dari seluruh dunia. Manga
Industri Kreatif Universitas Ciputra, Jln. UC Town, Citraland, adalah komik terbanyak yang beredar di internet, karena
Surabaya 60219 INDONESIA (tlp: 031-7451699; fax: 031- berasal dari Jepang maka manga berisi tulisan Jepang.
7451698; e-mail: [email protected]) Karena minat pembaca manga sangatlah banyak,
2
Dosen, Program Studi Teknik Informatika Fakultas Industri terbentuklah tim non-profit untuk menerjemahkan manga
Kreatif Universitas Ciputra, Jln. UC Town, Citralamd, Surabaya dari bahasa Jepang menjadi bahasa Inggris. Namun manga
60219 INDONESIA (tlp: 031-7451699; fax: 031-7451698; e- yang beredar sangatlah banyak dan tim penerjemah sangat
mail: [email protected]) terbatas, oleh sebab itu banyak manga yang belum
3
Dosen, Program Studi Teknik Informatika Fakultas Industri diterjemahkan [1, 2].
Kreatif Universitas Ciputra, Jln. UC Town Citraland, Surabaya
60219 INDONESIA (tlp: 031-7451699; fax: 031-7451698; e-
mail: [email protected])

ISSN: 2460-1306 Mellysa Margarita Susilo: Pengenalan Pola Karakter Bahasa…


JUISI, Vol. 03, No. 02, Agustus 2017 29

Komputer dapat digunakan untuk mengetik karakter menyertakan studi pendahuluan yang digunakan, rancang
Bahasa Jepang, namun untuk mengenali karakter yang desain, implementasi aplikasi berserta langkah-langkahnya
terdapat pada media gambar dibutuhkan komputasi yang dan hasil tes yang telah dilakukan.
besar dimana dipengaruhi oleh akurasinya [3]. Bahasa
Jepang memiliki susunan kalimat yang terdiri dari huruf II. LANDASAN TEORI
Hiragana, Katakana, dan Kanji, dan dituliskan dengan a. Komik
kombinasi karakter suku kata (hiragana dan katakana) dan Komik adalah seni yang menggunakan gambar yang
yang bersifatkan gambar (kanji). Selain itu terdapat disusun sedemikian rupa sehingga membentuk jalinan
tambahan diakritik yang jika dipakai akan menghasilkan arti cerita. Komik dicetak di atas kertas dan dilengkapi dengan
yang berbeda, hal ini membuat Bahasa Jepang memiliki teks. Komik dapat diterbitkan dalam berbagai bentuk, mulai
banyak kemungkinan kombinasi [4]. Huruf Jepang tidak dari strip dalam koran, dimuat dalam majalah, hingga
memiliki pemisah seperti spasi, dan beberapa karakter berbentuk buku tersendiri [1].
Jepang memiliki kemiripan yang menambah kompleksitas Komik yang dibuat di Jepang disebut dengan Manga.
dalam pengenalan. Oleh sebab itu OCR untuk Bahasa Manga memiliki gaya gambar yang khas hingga seringkali
Jepang adalah penelitian yang menantang dan memerlukan digunakan sebagai referensi menggambar oleh komikus
banyak usaha untuk dilaksanakan [4]. internasional. Di Jepang industri ini dapat mencapai angka
Optical Character Recognition dapat digunakan dengan 40,6 miliar yen tiap tahunnya. Industri penerbit
berbagai metode yang ada, salah satunya adalah neural mengelompokkan manga pada usia dan jenis kelamin target
network [5]. Cara kerja neural network seperti otak manusia pembaca. Untuk laki-laki biasa disebut dengan shōnen dan
yang dapat dilatih untuk menambah pengetahuannya untuk shōjo untuk pembaca perempuan [1].
mendapatkan akurasi tinggi. Dengan menganalisa tiap pixel Majalah manga biasanya terdiri dari beberapa judul
gambar dan mencocokkannya dengan data yang telah ada, komik yang masing-masing memiliki 30-40 halaman untuk
metode ini cocok untuk dokumen dan teks yang rusak. tiap bab-nya, sehingga total jumlah halaman majalah manga
Neural network ideal untuk masalah spesifik seperti data berkisar 200 hingga 850 halaman. Alur membaca manga
pasar saham atau menemukan trend pola gambar, sejauh ini dari kanan ke kiri karena kebiasaan menulis Bahasa Jepang,
neural network adalah metode yang paling efisien berbeda dengan alur membaca Indonesia yang dari kiri ke
dibandingkan dengan metode lain [5]. kanan, karena itu penerbit Indonesia umumnya melakukan
Convolutional Neural Network (CNN) adalah salah satu flip untuk halaman komik sehingga dapat dibaca dari kiri ke
algoritma lanjutan yang dimiliki oleh neural network dan kanan, namun hal ini membuat ambiguitas terutama dengan
memiliki kelas model yang bagus untuk mengenali manga kategori detektif dimana sering memberikan
handwritten text, terutama bilangan digit dan karakter Cina. informasi yang tidak sesuai dengan gambar.
[6]
Pada penelitian ini akan diterapkan penggunaan neural b. Bahasa Jepang
network dengan algoritma 2D Convolutional Neural Bahasa Jepang memiliki tiga macam karakter, yaitu
Network. Telah banyak penelitian menggunakan CNN Hiragana, Katakana, dan Kanji. Kanji digunakan untuk
untuk mengenali tulisan handrwitten dalam bahasa Jepang menyatakan arti dasar dari kata (baik berupa kata benda,
[6], namun belum ada penelitian untuk tulisan cetak. kata kerja, kata sifat, atau kata sandang).
Tujuan penelitian ini adalah melakukan pengenalan pola Karakter Hiragana dan Katakana memiliki 46 set huruf
huruf Hiragana dengan menggunakan metode 2D masing-masing. Hiragana dan Katakana tidak memiliki arti
Convolutional Neural Network dengan tingkat akurasi apapun, seperti layaknya abjad dalam Bahasa Indonesia,
minimal 60%. hanya melambangkan suatu bunyi tertentu, meskipun ada
Untuk mencapai tujuan tersebut penelitian dilakukan juga kata-kata dalam bahasa Jepang yang terdiri dari satu
dengan melakukan studi pendahuluan terlebih dahulu suku kata, seperti me (mata), ki (pohon), ni (dua). Berbeda
dengan sumber jurnal, buku, artikel, dan publikasi di dengan kanji yang tiap hurufnya melambangkan suatu arti
internet. Studi yang dilakukan adalah mengenai teknik tertentu.
computer vision, text extraction from image, pengenalan Dalam kalimat bahasa Jepang tidak ada spasi yang
pola karakter Jepang dan convolutional neural network. memisahkan antara kata dan tidak ada spasi yang
Setelah studi pendahuluan dilanjutkan dengan pembuatan memisahkan antara kalimat. Terdapat dua tanda baca yang
desain aplikasi seperti desain arsitektur, desain tampilan dikenal dalam bahasa Jepang yaitu kuten ( 。 ) yang
user interface dan desain arsitektur convolutional neural berfungsi sebagai tanda baca titik, dan toten ( 、 ) yang
network. Implementasi dilakukan dengan membuat aplikasi berfungsi sebagai tanda baca koma.
berdasarkan teori yang didapatkan pada studi pendahuluan Dalam penulisan kalimat Bahasa Jepang dimulai dari atas
dan desain yang telah dirancang. Setelah aplikasi selesai ke bawah, berbeda dengan alfabet yang dimulai dari kiri ke
dibuat dilakukan tes untuk menguji peforma dan akurasi kanan. Penulisan kalimat selanjutnya diletakkan di sebelah
aplikasi serta mengetahui kesalahan atau error yang terjadi kiri kalimat sebelumnya, sehingga arah baca penulisannya
selama aplikasi digunakan. Tes dilakukan dengan dimulai dari kanan ke kiri [7].
menggunakan 10 input yang berbeda untuk tiap tahapnya.
Langkah terakhir adalah menyusun laporan dengan

Mellysa Margarita Susilo: Pengenalan Pola Karakter Bahasa… ISSN: 2460-1306


30 JUISI, Vol. 03, No. 02, Agustus 2017

c. Pattern Recognition berukuran satu dimensi. Bobot pada CNN berbentuk empat
Pattern recognition merupakan salah satu cabang dimensi yang merupakan kumpulan kernel konvolusi.
pembelajaran dari machine learning yang berfokus pada Dimensi bobot pada CNN adalah:
pengenalan pola dan regularitas data. Sistem pengenalan neuron input x neuron output x tinggi x lebar.
pola dilatih dari data training yang telah dilabeli Karena sifat proses konvolusi, CNN hanya dapat
(supervised learning), namun saat ada data yang belum di digunakan pada data yang memiliki struktur dua dimensi
labeli maka algoritma akan mengenali pola tersebut seperti gambar dan suara. CNN umumnya menggunakan
(unsupervised learning). implementasi dari LeCun, yaitu LeNet. LeNet terdiri dari
Secara umum, algoritma pattern recognition bertujuan beberapa layer, jenis layer yaitu convolution dan
untuk menyediakan jawaban yang paling mendekati input. subsampling.
Hal ini bertentangan dengan algoritma pattern matching Layer convolution digunakan untuk mengaplikasikan
dimana mencari jawaban yang benar-benar sesuai dengan ‘filter’ pada gambar. Filter terdiri dari layer hubungan bobot,
input oleh pola yang telah ada. dengan input ukuran gambar patch kecil 2D, dan outputnya
Pattern recognition memiliki beberapa proses yaitu, unit tunggal. Filter ini diaplikasikan berulang kali sehingga
image retrieval, pre-processing (untuk menghilangkan menghasilkan hubungan seperti serangkaian bidang
noise ataupun normalisasi gambar), feature extraction, dan receptive fields.
classification. Pattern recognition bergerak pada proses Layer Subsampling mengacu pada pengurangan rata-rata
classification [8]. besar sinyal. Metode spesifik subsampling yang digunakan
dikenal dengan ‘max pooling’, yang meliputi pemisahan
d. Neural Network matriks filter output menjadi grid kecil yang non-
Jaringan saraf tiruan atau yang sering disebut dengan overlapping (semakin besar grid, semakin besar sinyal
neural network adalah jaringan dari sekelompok unit reduksi), dan mengambil nilai maksimal pada tiap grid
pemroses yang menggunakan model jaringan saraf manusia. sebagai nilai matriks yang tereduksi. Singkatnya, layer ini
Neural network sangat adaptif dan dapat mengubah merespon perubahan yang terjadi pada layer convolutional.
strukturnya untuk memecahkan masalah berdasarkan Dengan mengaplikasikan layer ini diantara layer
informasi eksternal maupun internal yang mengalir melalui convolutional, maka dapat meningkatkan spatial
jaringan tersebut. abstractness seiring meningkatnya feature abstractness.
Secara sederhana, neural network adalah alat pemodelan
data statistik non linear yang dapat digunakan untuk f. Inisialisasi Awal Xavier
membuat model hubungan yang kompleks antara input dan Inisialisasi awal merupakan langkah yang sangat penting
output untuk menemukan pola-pola pada data. Neural pada pembelajaran neural network. Tujuan dari inisialisasi
network dibangun dari banyak node/unit/neuron yang awal adalah memberikan nilai bobot awal sebelum pelatihan
dihubungkan oleh link/sinaps secara langsung. Link dari dilakukan. Dimana saat pelatihan dilakukan bobot akan
unit yang satu ke unit yang lainnya digunakan untuk disesuaikan kembali untuk menghasilkan klasifikasi yang
melakukan propagasi aktivasi dari unit pertama ke unit akurat.
selanjutnya. Setiap link memiliki bobot numerik (weight). Untuk menginisialisasi bobot awal terdapat beberapa cara,
Bobot ini menentukan kekuatan serta penanda dari sebuah cara yang paling sederhana adalah memberi nilai acak
konektivitas [9]. antara 0 atau 1. Namun setelah diteliti lebih lanjut
Neural network terdiri dari banyak neuron yang penentuan bobot awal dengan metode tertentu dapat
dikelompokkan ke dalam beberapa layer. Neuron pada tiap meningkatkan hasil klasifikasi lebih baik. Salah satu metode
layer terhubung dengan neuron pada layer lainnya. tersebut adalah menggunakan metode Xavier, dimana
Informasi yang diterima di layer input dilanjutkan ke layer- inisialisasi yang umum digunakan adalah [10] :
layer dalam neural network secara satu persatu hingga
mencapai layer terakhir/output. Layer yang terletak di (1)
antara input dan output disebut hidden layer. Banyaknya Dimana W adalah distribusi inisialisasi untuk neuron,
hidden layer tidak tetap, bergantung pada kebutuhan. sedangkan adalah jumlah neuron feeding. Distribusi
Metode dasar dari neural network adalah multilayer
yang umum digunakan adalah Gaussian atau seragam. Pada
perceptron.
metode Xavier digunakan [10] :
e. Convolutional Neural Network (2)
Convolutional Neural Network (CNN) adalah
pengembangan dari Multilayer Perceptron (MLP) yang Dimana adalah jumlah hasil neuron yang telah di
didesain untuk mengolah data dua dimensi. CNN termasuk feeding.
dalam jenis Deep Neural Network karena kedalaman
jaringan yang tinggi dan banyak diaplikasikan pada data III. ANALISIS DAN DESAIN
citra. a. Analisis Masalah
Cara kerja CNN memiliki kesamaan pada MLP, namun Pada studi yang dilakukan oleh Tsai [11] didapati
pada CNN setiap neuron dipresentasikan dalam bentuk dua kekurangan jenis data latih. Seluruh data latih yang
dimensi, tidak seperti MLP yang setiap neuron hanya digunakan adalah handwritten dan tidak ada huruf cetak.

ISSN: 2460-1306 Mellysa Margarita Susilo: Pengenalan Pola Karakter Bahasa…


JUISI, Vol. 03, No. 02, Agustus 2017 31

Huruf cetak selalu digunakan pada media elektronik, karakter Hiragana input gambar tersebut, sehingga
sehingga walaupun dapat membaca tulisan handwritten outputnya adalah hasil klasifikasi pengenalan karakter.
dengan baik namun jika sistem tidak dapat membaca huruf
cetak, maka akan berakibat fatal.
Pada studi yang sudah pernah dilakukan [12] dijelaskan
bagaimana metode pengambilan karakter dari komik secara
sistematis, namun pada studi tersebut tidak dijelaskan
selanjutnya akan digunakan untuk apa hasil dari metode
tersebut. Sehingga studi tersebut tidak memiliki tujuan
konkrit untuk mengekstrasi elemen komik.
Pada studi yang sudah pernah dilakukan [11] mengenali
karakter Jepang dengan menggunakan cara perhitungan
manual, dengan mencari titik tengah dan titik potong.
Kekurangan dari metode ini adalah terbatasnya nilai feature
dari karakter, dimana pada paper ini feature yang dimiliki
hanyalah 4, padahal seharusnya diperlukan 46 jenis huruf
yang harus diklasifikasikan.

b. Solusi
Berdasarkan permasalahan yang didapatkan dari
penelitian terdahulu, terdapat beberapa solusi yang
ditawarkan. Adapun pemetaan solusi dapat dilihat dalam
tabel berikut.
TABEL I
PEMETAAN MASALAH DAN SOLUSI

Masalah Solusi
Data latih pengenalan Menggunakan data latih
karakter Jepang hanya dengan jenis tulisan
menggunakan jenis tulisan cetak Gambar 1. Desain Arsitektur
handwritten
Tidak adanya tujuan Memberikan tujuan ii. Desain User Interface
konkrit untuk mengekstrasi konkrit setelah proses Gambar 2 adalah desain tampilan dari aplikasi ekstraksi
elemen komik ekstrasi selesai, yaitu komik. Terdapat tiga tombol untuk memproses tiga jenis
mengenali pola karakter input. Tombol pertama untuk input berupa satu halaman
Pengenalan karakter Pengenalan karakter komik, tombol kedua untuk input berupa satu frame
dengan cara penghitungan menggunakan cara komik, dan tombol terakhir untuk input berupa satu balon
manual menghasilkan Convolutional Neural teks.
sedikit feature Network untuk Lalu terdapat 3 gambar yang dipergunakan untuk
menghasilkan banyak menampilkan input dari pengguna pada panel input. Pada
feature panel raw sample untuk menunjukkan hasil ekstraksi yang
belum di proses. Pada panel threshold untuk menunjukkan
hasil proses threshold dari gambar pada panel raw sample.
c. Desain Sistem
i. Desain Arsitektur
Pada penelitian ini dibangun dua aplikasi, yaitu
aplikasi pengambilan karakter dan aplikasi pengenalan
pola Hiragana. Input pada aplikasi pengambilan
karakter adalah gambar komik, dimana output dari
aplikasi tersebut adalah gambar karakter yang di
dapatkan dari dalam balon teks pada komik. Pada
program pengenalan pola telah disiapkan data latih
dalam image database (IMDB) untuk dilatih pada (Gambar 2 Desain User Interface)
jaringan convolutional neural network, dimana output
dari aplikasi tersebut adalah jaringan yang telah dilatih. iii. Desain Algoritma Pengambilan Karakter
Output dari aplikasi pertama digunakan sebagai input Untuk mengambil karakter dari input komik dibutuhkan
untuk jaringan yang telah dilatih mengidentifikasi 3 proses. Proses pertama ialah pengambilan frame satu-

Mellysa Margarita Susilo: Pengenalan Pola Karakter Bahasa… ISSN: 2460-1306


32 JUISI, Vol. 03, No. 02, Agustus 2017

persatu dari input komik, dimana output dari proses


pertama ini adalah frame-frame yang terdapat pada komik
[12].

Gambar 5. Algoritma Pengambilan Karakter

iv. Desain Algoritma Convolutional Neural Network


Gambar 3. Algoritma Pengambilan Frame Input dari CNN adalah berupa gambar, berbeda dengan
NN dimana inputnya berupa data. Dilanjutkan dengan
Proses kedua adalah pengambilan balon teks dari frame layer convolutional, dimana input gambar di proses untuk
yang telah diekstraksi dari proses sebelumnya. Output dari mendapatkan fitur-fiturnya. Output dari layer
proses ini adalah balon teks dari frame. convolutional menjadi node input untuk layer input bagian
NN. Model dari CNN yang digunakan adalah model M7-2
[11] dengan beberapa perubahan untuk menyesuaikan
dengan data input.

Gambar 6. Model CNN M7-2 (Tsai, 2016)

Maksud dari Conv3-64 adalah layer convolution dengan


matrix 3x3 dengan 64 feature output, semua layer
convolution menggunakan 1 stride dan 1 padding. Untuk
semua layer maxpool menggunakan matrix 2x2, 2 stride,
Gambar 4. Algoritma Pengambilan Balon Teks dan 0 padding. Layer FC-1024 adalah layer fully-
connected dengan 1024 feature output menggunakan layer
Proses ketiga dan yang terakhir adalah pengambilan convolution, dimana layer FC pertama untuk membuat
karakter dari balon teks yang telah diekstraksi dari proses output menjadi 1x1 dimensi, sehingga matrix layer FC
sebelumnya. Output dari proses ini adalah karakter dari pertama menyesuaikan dengan sisa matrix dari layer
balon teks. sebelumnya. Untuk output layer FC terakhir menyesuaikan
dengan banyaknya class yang ingin diklasifikasikan.

ISSN: 2460-1306 Mellysa Margarita Susilo: Pengenalan Pola Karakter Bahasa…


JUISI, Vol. 03, No. 02, Agustus 2017 33

(3) 1. Mengubah input gambar menjadi grayscale


Layer terakhir softmax digunakan untuk mendapatkan 2. Melakukan threshold pada gambar
hasil klasifikasi, dimana fungsi mapping menghasilkan 3. Mengubah warna dengan invert
nilai yang diintrepetasi sebagai probabilitas yang belum 4. Menentukan tinggi dan lebar minimal dari frame
dinormalisasi untuk tiap kelas. Nilai kelas dihitung dengan sesuai syarat
menggunakan fungsi softmax [3]: 5. Melakukan BlobCounter dengan memasukan kriteria
minimal tinggi dan lebar
(4) 6. Jika blob yang didapatkan sesuai dengan kriteria maka
di crop dan disimpan
Dimana adalah vector yang berisi nilai yang
didapatkan dari layer fully-connected terakhir dan
adalah vector yang berisi nilai antara 0 dan 1, dan jika
dijumlah hasilnya adalah 1. Fungsi loss dihitung dengan
[13]:
(5)

Dimana untuk membandingkan prediksi Gambar 8. Hasil Ekstraksi Frame Komik


dengan label . adalah vector dari probabilitas akhir
, dan adalah banyak kelas. ii. Pengambilan Balon Teks
Pengambilan balon teks dilakukan dengan frame yang
telah diambil pada proses sebelumnya. Balon teks yang
IV. IMPLEMENTASI dapat dikenali harus memenuhi beberapa syarat berikut :
a. Implementasi Pengambilan Karakter  Latar belakang putih
Pengambilan karakter diambil dari input yang berupa  Tidak bertumpukan dengan tulisan atau balon teks lain
komik. Terdapat 3 langkah untuk pengambilan karakter dari  Lebar balon teks minimal 1/8 dari lebar frame
input komik, yaitu mengambil frame yang terdapat pada  Tinggi balon teks minimal 1/6 dari tinggi frame
satu halaman komik, mengambil balon teks yang terdapat Langkah-langkah untuk mendeteksi dan memotong
pada frame yang diambil sebelumnya, dan mengambil balon teks dijelaskan sebagai berikut :
karakter dari balon teks yang diambil sebelumnya. 1. Mengubah input gambar menjadi grayscale
2. Melakukan threshold pada gambar
3. Mengubah warna dengan invert
4. Menentukan tinggi dan lebar minimal dari frame
sesuai syarat
5. Melakukan BlobCounter dengan memasukan kriteria
minimal tinggi dan lebar
6. Jika blob yang didapatkan sesuai dengan kriteria maka
di crop dan disimpan

Gambar 7. Contoh Input Gambar

i. Pengambilan Frame Komik


Input yang akan digunakan untuk pengambilan frame
komik adalah satu halaman komik seperti Gambar 7. Gambar 9. Hasil Ekstraksi Balon Teks
Frame yang dapat dikenali haruslah memenuhi beberapa
syarat sebagai berikut: Adapun untuk gambar hasil kesalahan ekstraksi
 Frame berbentuk kotak adalah sebagai berikut.
 Frame tidak tertumpuk ataupun tertutup apapun
 Frame memiliki space putih disekelilingnya
 Frame memiliki border
 Tinggi dan lebar minimal frame adalah ¼ input
gambar
Langkah-langkah untuk mendeteksi dan memotong
per-frame dijelaskan sebagai berikut : Gambar 10. Hasil Kesalahan Ekstraksi Balon Teks

Mellysa Margarita Susilo: Pengenalan Pola Karakter Bahasa… ISSN: 2460-1306


34 JUISI, Vol. 03, No. 02, Agustus 2017

iii. Pengambilan Karakter Implementasi pengenalan karakter menghasilkan output


Langkah-langkah untuk mendeteksi dan memotong berupa akurasi pelatihan, objective loss training, dan akurasi
per-karakter dijelaskan sebagai berikut : dari uji tes cross validation.
1. Mengubah gambar menjadi grayscale Pada Tabel II tertera rangkuman hasil pengujian yang
2. Menghilangkan noise pada gambar dengan Median telah dilakukan untuk aplikasi ekstraksi elemen komik dan
3. Melakukan threshold pada gambar dengan value pengenalan karakter.
threshold didapatkan dengan menggunakan rumus: TABEL II. HASIL PENGUJIAN
(6)
Ekstraksi Elemen Komik
Pengambilan Frame
= nilai pixel pada index i
Benar 88%
Salah 12%
4. Mengimplementasikan morphology dengan
menggunakan filter erosion Pengambilan Balon Teks
5. Menentukan minimal lebar karakter 1/20 dari balon Benar 91%
teks dan tinggi karakter 1/25 dari balon teks Salah 9%
6. Mengubah warna dengan invert Pengambilan Karakter
7. Melakukan BlobCounter dengan memasukan
kriteria minimal lebar dan tinggi Benar 46%
8. Jika Blob yang didapatkan sesuai dengan kriteria Salah 54%
maka di crop dan disimpan Pengenalan Karakter
Akurasi Training 96,2 %
Obejctive Loss 0,112
(Gambar 11 Hasil Ekstraksi Karakter) Akurasi Uji Cross
86%
Validation

Pada pengambilan frame perlu diperhatikan bahwa frame


yang dapat dikenali hanyalah yang berbentuk kotak dan
(Gambar 12 Hasil Ekstraksi Karakter Kurang Sempurna) memiliki space putih di ke empat sisinya, sehingga untuk
frame yang memiliki bentuk selain kotak dan frame yang
b. Implementasi Convolutional Neural Network berhimpitan dengan batas luar halaman komik tidak dapat
Dalam mengimplementasikan CNN terdapat 2 tahap, dikenali. Untuk frame yang bertumpukan satu sama lain
yaitu pelatihan (training) dan pengujian. Tahap pelatihan tidak dapat dikenali sebagai frame yang berbeda sehingga
adalah tahap utama sebelum melakukan tahap pengujian. dianggap kesatuan frame tersebut, berlaku juga dengan
Pada tahap pelatihan didapatkan hasil network yang telah tulisan maupun balon teks yang bertabrakan dengan frame.
dilatih, dimana network tersebut dapat digunakan Pada pengambilan balon teks didapatkan akurasi 91%
selanjutnya pada tahap pengujian. dimana mendekati sempurna. Metode yang digunakan untuk
i. Data Latih mengambil balon teks sudah tepat dan hanya dibutuhkan
Data latihan memiliki 460 data yang terdiri dari 46 sedikit tambahan untuk mengatasi kesalahan pendeteksian
jenis huruf Hiragana. Dimana pada tiap jenis hurufnya wajah sebagai balon teks.
terdapat 10 gambar dengan jenis tulisan yang berbeda. Pengambilan karakter didapati akurasi 46% sehingga
80% dari total gambar digunakan sebagai data latih dan dibutuhkan metode yang lebih tepat untuk memperbaiki
20% sisanya digunakan sebagai data tes. hasil tersebut. Kesalahan disebabkan oleh terlalu rapatnya
ii. Parameter Pelatihan karakter satu sama lain, sehingga dibaca sebagai kesatuan
Pelatihan dilakukan menggunakan parameter sebagai huruf.
berikut: learning rate 0,0001, 16 batch size, 0,0001
weight decay dan 100 epoch [11]. Inisialisasi bobot awal
menggunakan metode Xavier [10]. Komputasi dilakukan
dengan menggunakan mode CPU.

V. HASIL PENGUJIAN
Pengujian untuk ekstraksi elemen komik dilakukan
dengan tiga tahap, yakni pengambilan frame, pengambilan
balon teks, dan pengambilan karakter.

ISSN: 2460-1306 Mellysa Margarita Susilo: Pengenalan Pola Karakter Bahasa…


JUISI, Vol. 03, No. 02, Agustus 2017 35

Gambar 14. Uji Cross Validation

Pada Gambar 14 nilai yang didapatkan dari klasifikasi


gambar tersebut adalah 1 dimana 1 sebanding dengan 100%,
sedangkan “e” adalah hasil klasifikasi dari gambar tes
tersebut, dan 11 adalah kode dari label “e”.

VI. KESIMPULAN DAN SARAN


a. Kesimpulan
Berdasarkan rancangan dan implementasi yang telah
dilakukan, maka didapatkan kesimpulan berikut:
1. Penelitian ini berhasil mengimplementasikan desain
dan algoritma untuk mengekstraksi elemen komik.
2. Arsitektur jaringan convolutional neural network yang
Gambar 13. Hasil Training digunakan menghasilkan akurasi 96,2%
Pengujian pengenalan karakter dilakukan dua kali, yaitu 3. Metode untuk memotong frame dan balon teks dapat
pengujian akurasi training dan akurasi tes. Gambar 13 diimplementasikan dan menghasilkan akurasi >80%
menunjukan grafik hasil training menggunakan CNN. 4. Metode untuk memotong karakter masih belum tepat
Semakin bertambahnya epoch tingkat error turun hingga dan menghasilkan akurasi yang rendah.
mencapai titik 0,048 pada epoch ke-84 untuk training, dan
untuk validasi tingkat error mencapai titik 0,125 pada b. Saran
epoch ke-83. Berdasarkan kesimpulan yang telah dijabarkan, saran
Begitu pula dengan objective loss, semakin bertambahnya yang diberikan untuk pengembangan lebih lanjut dalam
epoch loss-nya semakin turun hingga mencapai titik 0,112 pengambilan karakter dan pengenalan pola disampaikan
pada epoch ke-90 untuk training, dan untuk validasi loss- sebagai berikut:
nya mencapai 0,486 pada epoch ke-90. 1. Menyempurnakan metode pengambilan karakter
Dengan demikian hasil akhir yang didapatkan dari hasil sehingga karakter dapat digunakan secara baik dalam
latihan ini adalah akurasi mencapai 96,2%. Selain itu juga proses pengenalan menggunakan convolutional neural
dilakukan pengujian cross-validation dimana hasilnya network.
adalah 79 gambar dinyatakan benar klasifikasinya dari total 2. Menambah data latih untuk convolutional neural
92 gambar, sehingga akurasi tes adalah 86%. Salah satu network dengan berbagai variasi huruf dan melakukan
contoh karakter yang diuji menggunakan cross validation training kembali secara berkala.
ditunjukkan pada Gambar 14. 3. Mengkaji kembali arsitektur jaringan convolutional
neural netwok untuk mencapai hasil yang lebih
optimal.
4. Mencari cara menggunakan algoritma lain untuk
menemukan learning rate yang optimal bagi arsitektur
jaringan convolutional neural network.

Mellysa Margarita Susilo: Pengenalan Pola Karakter Bahasa… ISSN: 2460-1306


36 JUISI, Vol. 03, No. 02, Agustus 2017

DAFTAR PUSTAKA
[1] Fusanosuke, N. (2003). Japanese Manga: Its Expression and
Popularity. ABD, 34(1), 3-5.
[2] Moeran, B. (2014). Japanese "Merchants of Culture": The Publishing
Business in Japan. International Journal of Culture, Tourism and
Hospitality Research, 4(4), 97-125.
[3] Vedaldi, A., Lenc, K., & Gupta, A. (2014). MatConvNet
Convolutional Neural Network for MATLAB. Oxford: MatConvNet.
[4] Das, S., & Banerjee, S. (2015). An Algorithm for Japanese
Character Recognition. International Journal of Image, Graphics,
and Signal Processing , 1, 9-15.
[5] Rao, N. V., Sastry, A. C., Chakravarthy, A. N., & Kalyanchakravarthi,
P. (2016, January). Optical Character Recognition Technique
Algorithms. Journal of Theoretical and Applied Information
Technology, 83(2), 275-282.
[6] Tsai, C. (2016). Recognizing Handwritten Japanese Characters
Using Deep Convolutional Neural Networks. Stanford University,
Department of Chemical Engineering. California: Stanford
University.
[7] Sakamoto, K. (2015). Translation of Japanese Poems into English:
Literature in the First Language as a Motive to Communicate in a
Second Language. Tokyo: Palgrave Macmillan UK.
[8] Rigelsford, J. (2002). Pattern Recognition: Concepts, Methods and
Applications. Assembly Automation, 22(4), 10.
[9] Rughooputh, H. S., & Rughooputh, S. D. (2002). Neural Network
Process Vision Systems for Flotation Process. Kybernetes, 31(3/4),
529-535.
[10] Goldberg, Y. (2017). Neural Network Methods in Natural Language
Processing. Toronto: Morgan & Claypool Publisher.
[11] Tsai, C. (2016). Recognizing Handwritten Japanese Characters
Using Deep Convolutional Neural Networks. Stanford University,
Department of Chemical Engineering. California: Stanford
University.
[12] Arai, K., & Tolle, H. (2011). Method for Real Time Extraction of
Digital Manga Comic. International Journal of Image Processing
(IJIIP), 4(6), 669-676.

ISSN: 2460-1306 Mellysa Margarita Susilo: Pengenalan Pola Karakter Bahasa…

View publication stats

Anda mungkin juga menyukai