16/07/2009

stemming bahasa indonesia

Posted in Computer tagged at 5:37 PM by Boy Mustafa

hmm,,, sewaktu semester genap kemaren kebetulan sekali aku ikut kuliah pemrosesan teks. nah pas banget di situ dikasi tugas akhir kuliah. dosen aku bilang se terserah topiknya apa. tapi aku binun mw garap topik apa. soale tugas biasa aja g ada yang beres. paling banter juga aku nanya (baca:nyonto) ke salah satu tmen aku. hmmm topiknya ada banyak gitu, ada clustering, summarization, etc lah. dapet ide juga gmn klu topiknya stemming? selain gampang, codingnya dikit, terus juga g ada perhitungan (damn, i hate math).

akhirnya aku garap juga stemming. stemming itu sendiri artinya proses pencarian kata dasar dari kata berimbuhan. proses ini akan menghilangkan baik prefiks (awalan), suffiks (akhiran), maupun (infiks) pada kata turunan. contoh; misal ada kata pertahanan, maka stemming adalah proses menghilangkan awalan “pe” dan akhiran “an”. kira2 seperti itulah.

untuk memahami stemming bahasa Indonesia, ada baiknya pelajari terlebih dahulu struktur morfologi dalam bahasa Indonesia agar paham prosesnya. menurut pemahaman aku dan sumber aku, struktur morfologi bahasa indonesia ada 2 yaitu:

  1. struktur infleksional (imbuhan yang tidak mengubah kata dasar)

ada dua jenis yaitu:

    • partikel : “lah”, “kah”, “pun””
    • kata ganti kepunyaan: “mu”, “ku”, “nya”

2.   struktur derivasional (imbuhan yang mengubah kata dasar)

yaitu: prefiks (awalan), suffiks(akhiran), infiks (akhiran), confix (awalan dan akhiran), perulangan kata, kombinasi  prefiks, suffiks, infiks dan perulangan kata

oke sudah cukup dengan morfologi bahasa indonesia. kita sekarang ke algoritmanya.

  1. kata yang dimasukkan akan dicari dalam kamus terlebih dahulu. jika ada dalam kamus, maka kata itu adalh kata dasar. jika tidak ada maka dilakukan proses stemming.
  2. hilangkan partikel terlebih dahulu. jika sudah, maka hilangkan kata ganti kepunyaan. dicek lagi, apakah masih ada, jika tidak ada maka ke langkah berikutnya
  3. hilangkan derivasional sufiks dahulu. lakukan langkah ini sampai berhasil dihilangkan. kemudian ke proses berikutnya
  4. hilangkan derivasional prefiks. lakukan ini sampai berhasil dihilangkan. kemudian ke proses berikutnya.
  5. setelah semua proses ini yang berarti semua imbuhan selese hilang, kata yang dihasilkan dicek di kamus.
  6. jika kata yang dihasilkan ada di kamus maka kata algoritma selesai. jika tidak ada di kamus, maka algoritma akan mengembalikan kata sebelum dilakukan proses stemming.

hmmm itu aja yang aku mengerti. untuk lebih jelasnya silakan hubungi saya. kebetulan jika ada yang ingin belajar programnya aku uda buat. tapi masa banyak bug. aku gak keberatan berbagi…hubungi aku aja

2 Comments »

  1. Danu said,

    mantap gannn
    Lanjutkan…

    Pertamax neeh

  2. Danu said,

    Mantap gann
    lanjutkan…!!

    Pertamax neeh


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: