Malay part of speech tagger: a comparative study on tagging tools

Bahasa Melayu merupakan bahasa aglutinatif yang kaya dengan morfologi bagi menerbit perkataan dengan makna selain daripada kata akar yang memberi kesan kepada perubahan golongan katanya. Korpus beranotasi Bahasa Melayu sukar didapati lantas belum ada penerbitan tentang perbandingan prestasi penand...

Full description

Bibliographic Details
Main Authors: Hassan Mohamed, Nazlia Omar, Mohd. Juzaiddin Ab. Aziz
Format: Article
Language:English
Published: Penerbit Universiti Kebangsaan Malaysia 2015
Online Access:http://journalarticle.ukm.my/8851/
http://journalarticle.ukm.my/8851/
http://journalarticle.ukm.my/8851/1/8326-23713-1-PB.pdf
id ukm-8851
recordtype eprints
spelling ukm-88512016-12-14T06:48:13Z http://journalarticle.ukm.my/8851/ Malay part of speech tagger: a comparative study on tagging tools Hassan Mohamed, Nazlia Omar, Mohd. Juzaiddin Ab. Aziz, Bahasa Melayu merupakan bahasa aglutinatif yang kaya dengan morfologi bagi menerbit perkataan dengan makna selain daripada kata akar yang memberi kesan kepada perubahan golongan katanya. Korpus beranotasi Bahasa Melayu sukar didapati lantas belum ada penerbitan tentang perbandingan prestasi penandaan golongan kata (GK) mengguna kaedah Model Markov Tersembunyi (MMT), Entropi Maksimum (EM) dan Mesin Vektor Sokongan (MVS), terutamanya bagi melihat kesan morfologi Bahasa Melayu ke atas penandaan GK bagi perkataan anu. Kertas ini bertujuan membentang penilaian ketiga-tiga kaedah tersebut ke atas Bahasa Melayu. Tiga alatan penanda GK diguna yakni TnT mewakili MMT, MaxEnt mewakili EM dan SVMTool mewakili MVS. Bagi melengkapi latihan dan ujian bagi ketiga-tiga alatan tersebut, usaha menganotasi korpus Bahasa Melayu bagi domain kesihatan dilakukan. Alatan TnT diubah suai untuk memasukkan fitur imbuhan awalan serta apitan. Keputusan bagi seluruh eksperimen menunjukkan prestasi SVMTool mengatasi TnT dan MaxEnt bagi kejituan keseluruhan (99.23% untuk SVMTool, 94% untuk TnT dan 96% untuk MaxEnt) serta kejituan penandaan perkataan anu (96.78% untuk SVMTool, 67% untuk TnT dan 86.23% untuk MaxEnt). Keupayaan MaxEnt pula mengatasi TnT bagi kejituan keseluruhan serta kejituan penandaan perkataan anu. Ketepatan penandaan perkataan anu sebanyak 96.78% oleh SVMTool, menjadikan alatan tersebut sebagai yang tebaik pada ketika ini dalam penandaan GK Bahasa Melayu bagi domain spesifik. Penerbit Universiti Kebangsaan Malaysia 2015-06 Article PeerReviewed application/pdf en http://journalarticle.ukm.my/8851/1/8326-23713-1-PB.pdf Hassan Mohamed, and Nazlia Omar, and Mohd. Juzaiddin Ab. Aziz, (2015) Malay part of speech tagger: a comparative study on tagging tools. Asia-Pacific Journal of Information Technology and Multimedia, 4 (1). pp. 11-23. ISSN 2289-2192 http://ejournal.ukm.my/apjitm/issue/view/609
repository_type Digital Repository
institution_category Local University
institution Universiti Kebangasaan Malaysia
building UKM Institutional Repository
collection Online Access
language English
description Bahasa Melayu merupakan bahasa aglutinatif yang kaya dengan morfologi bagi menerbit perkataan dengan makna selain daripada kata akar yang memberi kesan kepada perubahan golongan katanya. Korpus beranotasi Bahasa Melayu sukar didapati lantas belum ada penerbitan tentang perbandingan prestasi penandaan golongan kata (GK) mengguna kaedah Model Markov Tersembunyi (MMT), Entropi Maksimum (EM) dan Mesin Vektor Sokongan (MVS), terutamanya bagi melihat kesan morfologi Bahasa Melayu ke atas penandaan GK bagi perkataan anu. Kertas ini bertujuan membentang penilaian ketiga-tiga kaedah tersebut ke atas Bahasa Melayu. Tiga alatan penanda GK diguna yakni TnT mewakili MMT, MaxEnt mewakili EM dan SVMTool mewakili MVS. Bagi melengkapi latihan dan ujian bagi ketiga-tiga alatan tersebut, usaha menganotasi korpus Bahasa Melayu bagi domain kesihatan dilakukan. Alatan TnT diubah suai untuk memasukkan fitur imbuhan awalan serta apitan. Keputusan bagi seluruh eksperimen menunjukkan prestasi SVMTool mengatasi TnT dan MaxEnt bagi kejituan keseluruhan (99.23% untuk SVMTool, 94% untuk TnT dan 96% untuk MaxEnt) serta kejituan penandaan perkataan anu (96.78% untuk SVMTool, 67% untuk TnT dan 86.23% untuk MaxEnt). Keupayaan MaxEnt pula mengatasi TnT bagi kejituan keseluruhan serta kejituan penandaan perkataan anu. Ketepatan penandaan perkataan anu sebanyak 96.78% oleh SVMTool, menjadikan alatan tersebut sebagai yang tebaik pada ketika ini dalam penandaan GK Bahasa Melayu bagi domain spesifik.
format Article
author Hassan Mohamed,
Nazlia Omar,
Mohd. Juzaiddin Ab. Aziz,
spellingShingle Hassan Mohamed,
Nazlia Omar,
Mohd. Juzaiddin Ab. Aziz,
Malay part of speech tagger: a comparative study on tagging tools
author_facet Hassan Mohamed,
Nazlia Omar,
Mohd. Juzaiddin Ab. Aziz,
author_sort Hassan Mohamed,
title Malay part of speech tagger: a comparative study on tagging tools
title_short Malay part of speech tagger: a comparative study on tagging tools
title_full Malay part of speech tagger: a comparative study on tagging tools
title_fullStr Malay part of speech tagger: a comparative study on tagging tools
title_full_unstemmed Malay part of speech tagger: a comparative study on tagging tools
title_sort malay part of speech tagger: a comparative study on tagging tools
publisher Penerbit Universiti Kebangsaan Malaysia
publishDate 2015
url http://journalarticle.ukm.my/8851/
http://journalarticle.ukm.my/8851/
http://journalarticle.ukm.my/8851/1/8326-23713-1-PB.pdf
first_indexed 2023-09-18T19:53:18Z
last_indexed 2023-09-18T19:53:18Z
_version_ 1777406362970488832