Pembangunan taksonomi dari teks Melayu menggunakan algoritma kunang-kunang pembahagi dua sama

Taksonomi digunakan untuk menerangkan bahawa haiwan boleh dikelaskan kepada beberapa kategori seperti mamalia, reptilia dan buaya. Taksonomi biologi ini membolehkan persamaan, perbezaan malah hubungan antara haiwan ditakrifkan. Konsep dan fungsi taksonomi biologi ini ‘dipinjam’ oleh saintis dan j...

Full description

Bibliographic Details
Main Authors: Mohd Zakree Ahmad Nazri, Kurniawan, Tri Basuki, Abdul Razak Hamdan, Salwani Abdullah, Mohammed Azlan Mis
Format: Article
Language:English
Published: Penerbit Universiti Kebangsaan Malaysia 2018
Online Access:http://journalarticle.ukm.my/13779/
http://journalarticle.ukm.my/13779/
http://journalarticle.ukm.my/13779/1/25314-76342-2-PB.pdf
Description
Summary:Taksonomi digunakan untuk menerangkan bahawa haiwan boleh dikelaskan kepada beberapa kategori seperti mamalia, reptilia dan buaya. Taksonomi biologi ini membolehkan persamaan, perbezaan malah hubungan antara haiwan ditakrifkan. Konsep dan fungsi taksonomi biologi ini ‘dipinjam’ oleh saintis dan jurutera Internet dalam membangunkan taksonomi untuk Internet. Seperti taksonomi biologi, membangunkan taksonomi untuk Internet secara manual bukanlah suatu yang mudah dan murah. Tugas ini mengambil masa dan memerlukan kepintaran dalam bidang. Justeru saintis komputer telah menggunakan pendekatan kecerdasan buatan untuk membangunkan taksonomi secara automatik dari teks. Algoritma pembelajaran mesin dicipta untuk membolehkan mesin ‘membaca’ teks dan kemudiannya ‘belajar’ untuk membina taksonomi dari konteks yang diperolehi dari teks. Objektif utama kajian ini adalah untuk membangunkan algoritma pembelajaran taksonomi dari Bahasa Melayu yang lebih berkesan dari algoritma sedia ada menggunakan kaedah penghibridan. Makalah ini menyiasat keberkesanan algoritma hibrid antara Algoritma Kunang-Kunang (AKK) dengan Algoritma K-Min Pembahagi Dua Sama (PDS) yang dipanggil Algoritma Kunang-Kunang Pembahagi Dua Sama (AKK-PD). Kajian empirikal ini mengumpul data dari eksperimen yang dijalankan ke atas tiga teks Bahasa Melayu dari bidang Fekah, Biokimia dan Teknologi Maklumat. Perbandingan data ketepatan berasaskan ukuran-F menunjukkan algoritma hybrid AKK-PD membina taksonomi yang lebih tepat berbanding menggunakan algoritma sedia ada. AKK-PD didapati lebih berkesan dan mantap berbanding algoritma bandingan apabila mengendalikan masalah kejarangan data . Walau bagaimanapun, kajian penerokaan ini perlu diteruskan kepada korpus Bahasa Melayu yang lebih besar untuk menguji ketahanan algoritma ini apabila berhadapan dengan korpus yang lebih umum sifatnya berbanding korpus teks yang teknikal dan menjurus kepada suatu bidang sahaja. Teknik pengekstrakan ciri berasakan kebergantungan sintaksis juga perlu dipertingkatkan kerana jelas teknik telah menghasilkan konteks yang mengalami masalah kejarangan data yang serius. Justeru memberi cabaran baharu untuk penyelidikan pembelajaran taksonomi dari teks Melayu.