blog tentang kuliah Elins UGM: 2009

Temen-temen, karena Tugas UAS mata kuliah KSJ tahun 2009 semester ganjil ini adalah membuat ulasan tentang spam filter, dan diupload di blog, maka sayapun sibuk bereksperimen dan membuatnya. Setelah utak-atik lama, jadilah pekerjaan ini, semoga memuaskan. Tolong Commentnya yah.
Review:

Spam Filtering

Tugas: Menjelaskan cara kerja spam filtering

Spam adalah pesan atau surat yang tidak diinginkan yang diterima melalui media email[1]., sehingga dapat dikategorikan sebagai sampah karena tidak terkait langsung dengan kebutuhan penerima email. Email sampah ini disebut spam atau junk email atau UCE (Unsolicited Commercial Email)[4], atau UBE (Unsolicited Bulk Email)[12]. Sedangkan Spam Filtering atau mail filter, menurut Wikipedia, the Free Encyclopedia [15], adalah “a piece of software wich take an input of an email message. For it's output, it might pass the message through unchanged for delivery to the user mailbox, it might redirect the message for delivery elsewhere, or it might throw the message away. Some mail filter are able to edit messages during processing.”.

Spam dapat menimbulkan gangguan yang cukup serius terhadap kinerja operasional dari fasilitas publik. Para pengirim spam secara langsung akan mengambil alokasi sumberdaya dari parapengguna internet dan penyedia jasa internet tanpa timbal balik ataupun otorisasi.[4] Spam memang tidak serawan virus komputer, tetapi bagi organisasi tetap merugikan karena menurunkan efektifitas kerja berhubung jumlah spam yang disebarluaskan setiap harinya terus meningkat cukup signifikan. Spam akan menghabiskan waktu, biaya, dan tenaga dari para pemilik email yang tertipu, dan membuka kotak surat (mailbox), hanya untuk menemukan bahwa isinya dipenuhi oleh spam yang tidak penting.

Karena spam memang sudah menjadi masalah besar bagi bisnis internet umumnya, maka berbagai bentuk teknologi juga sudah berkembang untuk mengatasi persoalan ini. Teknologi yang sedang berkembang, rata-rata didominasi oleh

Teknik Bayesian

Teknik Bayes menjelaskan bahwa perhitungan probabilistik suatu kejadian sekarang menpunyai kaitan dengan kejadian sebelumnya. dengan kejadian sebelumnya. Pengambilan keputusan suatu kejadian adalah benar/salah bergantung pada kejadian kejadian sebelumnya. Praktiknya, suatu email dinyatakan sebagai suatu spam/ham ditentukan probabilitasnya berdasarkan email tersebut berada dalam database spam atau database ham. Tingkat toleransi suatu email sebagai spam ditentukan oleh desainernya, semakin tinggi tingkat toleransi mengkategorikan sebagai spam, maka semakin tinggi pula keakurasiannnya dalam memblok email tersebut.

Penerapan teori bayes dalam penyaringan email, apakah termasuk dalam kategori spam atau bukan, sangatlah akurat, dikarenakan karakteristik dari spam tersebut yang akan terulang pada setiap client. Karakteristik pengulangan tersebut yang menjadi point dari penggunaan teori Bayes untuk filtering spam.

banyak digunakan dalam banyak aplikasi filtering/ pendeteksian atau pengklasifikasian spam , karena filter Bayesian mempunyai tingkatan tingkatan filtering yang sangat intim pada objeknya, yakni pada pasangan text corpi, pada objek spam dan pada objek ham. Filtering yang intim ini ditujukan agar filter Bayesian terbiasa mengenali objeknya terlebih dahulu sehingga bisa dengan langsung mendefinisikan mana spam atau bukan spam.

Sebagai ilustrasi, jika suatu pesan dipecah menjadi elemen-elemen dengan karakteristik khusus (teks, tag HTML, URL, dll), dan elemen-elemen tersebut terjadi berulang ulang dalam sebuah pesan, maka patut . dicurigai bahwa pesan tersebut adalah spam.

Secara umum filter Bayesian mengenali pesan (email) berdasarkan pada karakteristik sebagai berikut[2]:

• Kata-kata pada badan suatu pesan, tentu juga pada

• Header (pengirim dan path pesan, dan aspek lainnya seperti

• Kode HTML (misal warna-warna yang digunakan, sebagai contoh:warna merah biasanya sering digunakan untuk subjek pada pesan yang tergolong spam )

• Pasangan kata, frase, dan

• Meta Information

Banyak cara untuk membangun filter Bayesian, tulisan ini mengambil secara umum tahapan-tahapan yang dilakukan dalam pembangunan filter Bayesian (diambil dari banyak tulisan/paper):

1. Pembentukan Database Spam

2. Pelatihan filter Bayesian

3. Pemfilteran

Pembentukan Database

Untuk dapat mengenali karakteristik suatu spam diperlukan suatu database kata yang memuat sampel dari kata-kata yang sering dijumpai pada spam atau ham. Hal tersebut bertujuan agar filter lebih akurat dalam menjaring spam meminimkan kesalahan dalam pemblokiran ham, hal tersebut seiringdengan banyak-nya dan kreatifnya para spammer (individu atau kelompok yang mengirim spam) dalam mengkotak-katik dan memanipulasi “kata”.

Pembentukan database word of probabilities database

Database probabilitas kata yang berisikan probabilitas kata atau token (yang termasuk spam) misalnya nama domain,,tanda ‘$’, IP addresses, warna merah, dan lain-lain. Isi mesin database tersebut dikumpulkan dari sampel email spam dan email yang valid (valid email), selanjutnyadisebut ham.

Setiap kata atau token yang ada diberi nilai probabilitas; probabilitas tersebut berdasarkan perhitungan, seberapa sering suatu kata muncul dalam spam dan berbanding terbalik dengan ham. Sebagai contoh per-hitungan probabilitas kata; jika kata “MORTGAGE”

muncul sebanyak 400 kali dari 3000 email spam dan 5 kali dari 300 email sah, sebagai contoh, maka probabilitas email spam ini sebesar 0,8889 (didapat dari, \[400/3000] dibagi \[5/300 + 400/3000]).

Pembentukan database ham

Pembuatan database ham juga tidak kalah pentingnya terutama bagi institusi atau perusahaan yang salah satu sarana komunikasinya melalui Internet. Sebagai contoh, suatu perusahaan yang bergerak di bidang keuangan mempunyai tipikal penggunaan kata “WINNER berkali-kali dan apabila menggunakan anti-spam biasa akan berdampak kesalahan positif bagi perusahaan. Namun apabila menggunakan filter Bayesian, kata “WINNER” tersebut menjadi bahan pelatihan , apakah termasuk dalam kategori/kelas spam atau ham.

Pembuatan database spam

Hal yang penting yaitu pembuatan database spam, sebagai bahan pelatihan bagi filter Bayesian dalam mengidentifikasi suatu pesan termasuk dalam kategori spam. Kapasitas database spam harus memuat sampel spam dalam jumlah besar dan terus di up-date dengan menggunakan software anti-spam. Sehingga filter Bayesian dapat mengidentifikasi dengan lebih cepat dan meningkatkan tingkat keakuratannya serta dapat mengatasi trik-trik terbaru dari spam.

Pelatihan Filter Bayesian

Setelah pembuatan database selesai, tahap selanjutnya adalah pelatihan filter Bayesian agar terbiasa dan up-to-date alam mengidentifikasi atau mendeteksi spam atau non-spam. Beberapa metode dapat digunakan dalam pelatihan filter Bayesian, tiga diantaranya\[1]:

• TEFT –Train Everything –untuk setiap anggota dari himpunan teks, klasifikasikan teks, rekam/ record outputnya (benar atau tidak benar), dan latih teks tersebut ke dalam database dalam kategori benar.

• TOE –Train Only Error –untuk setiap anggota dari himpunan teks, klasifikasikan teks, rekam outputnya (benar atau tidak benar), dan jika teks tersebut terklasifikasikan dengan tidak benar, maka latih teks tersebut ke dalam database dalam kategori benar.

• TUNE –Train Until No Errors –untuk setiap 500-pesan pertama, klasifikasi ulang dan latih pesan-pesan tersebut jika tidak benar. Setelah pengujian pelatihan yang intensif ini dan merekam 500 teks tersebut,maka latih kembali filter Bayesian jika terjadi error sampai tidak adanya error.

Pemfilteran

Apabila database ham dan database spam telah dibuat, probabilitaskata dapat dihitung dan tersimpan dalam database probabilitas kata, maka filter sudah dapat digunakan Ketika suatu pesan (email) dating, maka akan dipecah menjadi kata atau kata yang relevan dengannya. Lebih detilnya, suatu email yang masuk akan diperiksa berdasarkan kata-kata yang termasuk dalam karakte-ristik tipikal yang telah ditentukan, yaitu badan pesan, headernya, kode HTML, kalimat, frase, meta infor-mation. Dari kata-kata tersebut kemudian dihitung probabilitas suatu email tergolong spam atau non-spam. Jika probabilitas melebihi batas toleransi yang ditetapkan sebagai spam, misal 0.9, maka email tersebut masuk dalam kategori spam dan tidak dapat masuk ke dalam client inbox, jika tidak email tersebut masuk dalam kategori ham an masuk ke client inbox.
Artificial Intelegence

Adalah dengan membuat kecerdasan buatan pada mesin antispam, menset antispam dengan berbagai macam rule, dan semua email masuk akan dicek dengan rule-rule tersebut. Pemrosesan selanjutnya adalah dengan fuzzy logic, dimana semua rule akan dicek dengan logika antara 0 dan 1.
Machine Learning[6].

Machine Learning adalahmembuat sistim antispam itu menjadi cerdas dengan belajar.

Prosesnya adalah seperti ini

Figure 1. The process of supervised ML

4. Heuristik

Sejumlah besar pesan spam cenderung untuk memiliki karakteristik yang sama..Pemfilteran Heuristik menerapkan sebuah set peraturan untuk setiap surat yang masuk untuk mendeteksi tampilan-tampilan yang mirip spam. Setiap peraturan memiliki sebuah nilai yang terkait dengan itu. Untuk menentukan sebuah pesan spam atau bukan, nilai untuk sebuah peraturan yang sama ditambahkan menjadi satu. Jika total nilai lebih besar dari sebuah ambang batas yang diset oleh sistim administrator atau user, pesan tersebut akan terfilter seagai spam.

5. Penolakan DNS

Beberapa layanan daftar pemeliharaan dari alamat IP diketahui sebagai sumber Spam. Dengan Anti-Spam Gateway, administrator dapat menggunakan layanan ini untuk memfilter lalu lintas data yang tidak diinginkan, sebelum transaksi SMTP, antispam mengambil sebuah server DNS yang disediakan oleh layanan Blacklisting DNS. Berdasarkan informasi yang diambil dari daftar tersebut, antispam menolak pesan, atau menerimanya untuk analisis yang lebih lanjut.

6. Verify Mail From Address (VMF)

Modul VMF secara berubah-ubah mengecek alamat pengirim untuk email masuk,, untuk memastikan bahwa itu valid. Alamat ini, yang diketahui apa amplop MAIL FROM: alamat, sering terlupakan dalam surat spam dan sering merupakan alamat yang tidak nyata( tidak dapat dikirim pesan ulang) VMF bekerja dengan mengirim surat untuk tiap pesan pada seuah server Software Proses, yang memverifikasikan validnya alamat dengan menginisiasi sebuah sesi SMTP dengan mail server pokok.

7. Pemfilteran Reputasi URL

Software Antispam secara otomatis menganalisa berjuta-juta jenis website dengan 20 indikator lebih yang digunakan oleh spammer dan phisher. Situs juga dianalisa untuk isi untuk orang-orang dewasa. Setiap analisa web diberikan sebuah nilai reputasi, berdasarkan “seberapa buruknya”.

Anti-Spam Gateway memperoleh nilai reputasi untuk URL URL terdiri dari email masuk, dan menggunakan data reputasi tersebut untuk menentukan apakah sebuah surat adalah spam.

8. Sender Policy Framework (SPF)

Tujuan dari SPF (RFC 4408) adalah untuk menjaga pengirim email dari alamat email palsu sehingga mengurangi kesempatan phishing. Itu mengijinkan pemilik do ain untuk menyebutkan mail

sending policy, dan aturan aturan surat mereka yang lain., yang digunakan oleh mail server mereka untuk mengirimkan surat dari domain mereka.

9. Tarpitting

Tarpitting adalah praktek memperlambat tramnsmisi pesan email yang terkirim dalam bulks sebagai pencegahan terhadap tindakan spammer. Tujuannya adalah untuk menjaga kualitas terbaik untuk pengguna yang sesungguhnya, sementara membuat prosesnya menjadi tidak praktis bagi spammers, yang – karena response rate nya yang rendah – harus dapat mengirim banyak surat secepatnya dan dengan murah. Antispam mengijinkan administrator untuk menspesifikasikan jumlah angka yang tidak valid.

RCPT TO: perintah persesi yang diperbolehkan sebelum tarpitting aktig dan angka yang tiap RCPT TO: harus ditunda. Terintegrasikan (sebagai lawan dari SMTP standalone) instalasi dari antispam boleh meremote sender melawan DNS blacklists. Yang Diterima: header dianalisa untuk alamat IP, yang kemudian dicek terhadap DNS blacklists yang telah diatur.

10. URI DNSBL

Domain dari URI terletak pada badan pesan dicek terhadap blaklist DNS yang telah terkonfigurasikan. Antispam mengkonfirmasikan bahwa domain terkait dengan spammer melalui sebuah atau lebih block lists.

11. Reverse DNS Lookups

Reverse DNS Lookups pada domain ditetapkan dalam URI pada badan pesan. Spam

domain seringkali tidak memiliki reverse DNS domains terdefinisikan.

12. Anti-Relay Plugin

Pilihan Anti-Relay menjafa pihak ketiga dari mengirikan atau menerima pesan email yang tidak untuk atau dari lokal host. Antispamakan memverifikasikan MAIL FROM: pokok alamat pastinya dari domain dimana lokal adress itu tertera. Ini akan menjaga alamat email palsu dari sistem untuk terterima,. Situs dapat menyuplai sebuah image yang dapat dishare untuk memakaikan verifikasi terhadap sumber pihak ketiga, seperti server LDAP.

13. Block and Allow List

Antispam Gateway juga menyediakan untuk administrator dan user kemampuan untuk memblok penggirim tergantung pada isi surat. Listnya bisa terdefinisikan dengan sebuah alamat atau grup pengirim email yang datang dari domain yang sama. Pengguna secara umum mempunyai sebuah list alamat atau grup dari patner bisnis yang diketahui dan kolega dimana dia berkomunikasi dengan dasar yang umum. Penyaringan pesan dari pengirim terpercaya tidak diperlukan, mengabaikan isinya juga.. Antispam Gateway menyediakan sistem administrator and user kemampuan untuk menciptakan sebuah daftar dari pengirim yang dapat dipercaya yang selalu dilewatkan oleh filter.Fitur ini, dikenal dengan allow list, dapat didefinisikan oleh sebuah alamat atau grup pengirim email yang datang dari domain yang sama. Ini mudah untuk menghasilkan list menggunakan intituitif antarmuka web. Pengguna dapat juga membangun allow list merek secara manual mengetikan alamat email.Saat pesan dikembalikan dari karantina, sebuah option secara otomatis ditampilkan menanyakan users jika mereka hendak untuk menambah alamat pengirim pada allow list sehingga selanjutnya jika ada komiunikasi lagi, pesan akan langsung dilewatkan oleh filter. Juga, pengguna dapat mengimpor entri adress book mereka yang masih ada pada antispamallow list secara cepat dan mudah dengan antarmuka website. Hal seperti ini terdapat pada layanan email berbayar.

He he.. Lumayan panjang yah, walaupun ini masih reviewnya. Jika temen-temen ingin mengunduh file komplitnya dapat diunduh disini. Semoga menyenangkan

http://www.4shared.com/file/180736373/bbbbc376/Spam_Filter.html

blog tentang kuliah Elins UGM

Pengikut

Arsip Blog

Mengenai Saya

Kamis, 24 Desember 2009

Tugas Matakuliah KSJ