Please download to get full document.

View again

of 10

Analisis Klasifikasi Data E-mail Spam dengan Pendekatan Machine Learning

Analisis Klasifikasi Data E-mail Spam dengan Pendekatan Machine Learning
4 views10 pages
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Documenttranscript
  Analisis Klasifikasi Data E-mail Spam dengan Pendekatan  Machine Learning 1 Anadia Rahmat Syihab Hidayatullah - 06211540000001 1 Departemen Statistika, Institut Teknologi Sepuluh Nopember Jl. Teknik Mesin No.175, Kampus ITS Sukolilo, Kota Surabaya, Jawa Timur, Indonesia 60115 e-mail: 1 anadiarahmat123@gmail.com Abstrak - Spam adalah penggunaan perangkat elektronik untuk mengirimkan pesan secara bertubi-tubi tanpa dikehendaki oleh penerimanya. Orang yang melakukan spam disebut spammer  . Tindakan spam dikenal dengan nama spamming. Konsep "spam" beragam namun berdasarkan data spambase UCI adalah iklan untuk produk / situs web, membuat skema uang cepat, surat berantai, pornografi dan lain-lain. Permasalahan yang dihadapi adalah email yang yang tidak terklasifikasikan secara tepat sebagai spam atau tidak maka akan membuat ruang penyimpanan kotak masuk tercampur dengan informasi bersifat spam dan memberikan efek berat pada penyimpanan pesan email. Dalam penelitian ini ingin diketahui metode terbaik dari 10 metode machine learning , antara lain  Random Forest Classifier  ,  Adaptive Boosting , Gradient Boosting Classifier   yang nantinya dapat digunakan untuk mendeteksi pesan email bersifat spam atau tidak. Dalam final project ini peneliti melakukan  preprocessing ,  feature selection  dengan  feature importances , eksplorasi data, standarisasi, crossvalidation , dan klasifikasi. Didapatkan metode terbaik untuk menyelesaikan data Spambase UCI  Machine Learning Repository  adalah dengan menggunakan Gradient Boosting Classifier  . Kata Kunci Klasifikasi, Spambase ,  Random Forest Classifier  ,  Adaptive Boosting , Gradient Boosting Classifier    1 Pendahuluan Cybercrime  memiliki banyak jenis mulai dari hacking , crackcing , spamming , carding ,  phising , malware , serta pornografi dan lain-lain. Kejahatan terhadap komputer dapat merugikan terhadap pengguna komputer dan internet yang lain. Seorang yang melakukan kejahatan komputer dapat melakukan perusakan program, perusakan data, mengubah data serta mencuri data penting, hingga melakukan penipuan dan tindak kriminal lain. Salah satu bentuk kriminalitas di internet adalah spamming [1]. Spamming  merupakan pengiriman berita atau iklan lewat surat elektronik (e-mail) yang tidak dikehendaki atau sering disebut bulk email  atau  junk e-mail  alias sampah. Keberadaanspam ini sangat mengganggu kenyamanan dan merugikan pengguna email. Beberapa jenis spam membawa mail worm , virus komputer dan program berbahaya yang  berkamuflase dan melekat pada attachment   mereka. Masalah spamming di dunia sangat banyak [1] Permasalahan yang dihadapi dalam penanganan kasus email spam adalah masih terdapat kasus salah deteksi jenis pesan apakah termasuk spam atau tidak sehingga data tercampur dengan pesan masuk yang bukan jenis spam, disamping itu efek buruk penyimpanan yang besar akibat spam email serta potensi virus. Untuk menanggulangi masalah tersebut, peneliti akan mencari metode terbaik dari metode-metode klasifikasi seperti:  Random Forest Classifier  ,  Adaptive Boosting , Gradient Boosting Classifier  Logistic Regression , k-Nearest Neighbors , Support Vector Machine, Bagging, Decision Tree, Neural Network, dan Naive Bayes Classifier   yang dapat digunakan untuk mempermudah dalam mendeteksi jenis email berdasarkan kata yang ada dalam pesan, sehingga akan membantu pembutan filter email yang lebih baik. Analisis dan klasifikasi yang dilakukan pada data Spambase  dari UCI  Machine Learning . 2 Metodologi Penelitian Metodologi penelitian yang digunakan pada penelitian ini adalah sumber data, variabel penelitian dan struktur data, dan langkah analisis. A.   Sumber Data Sumber data pada penelitian adalah data sekunder. Data Spambase Dataset UCI  Machine Learning  sebanyak 4601 data dan 58 data  feature . Data diambil pada hari Rabu, 5 Desember 2018. B.   Variabel Penelitian dan Struktur Data Variabel independen yang digunakan pada penelitian ini sebanyak 57 variabel dan 1 variabel dependen. Variabel penelitian yang akan digunakan ditampilkan pada Tabel 2.1. Tabel 2.1  Variabel Penelitian No Atribut Tipe data Variabel 1 %Word_freq_make Rasio X 2 %Word_freq_address   Rasio X 3 %Word_freq_all Rasio X 4 %Word_freq_3d Rasio X 5 %Word_freq_our Rasio X 6 %Word_freq_remove Rasio X 7 %Word_freq_over Rasio X ... ... ... ... ... ... 57 crl_average Rasio X 58 Y(Spam = 1 dan Non Spam = 0) Nominal Y Adapun struktur data yang digunakan pada penelitian ini akan disajikan pada Tabel 2.2.    Tabel 2.2  Struktur Data No. Word_freq_make   Word_freq_address   Word_freq_all  ... crl_average  Class 1 0 0,64 0,64 ... 61 1 2 0,21 0,28 0,5 ... 101 1 3 0,06 0 0,71 ... 485 1 . . . . . . . . . . . . . . . . . . . . . 4601 0 0 0,65 .. 5 0 C. Langkah Analisis Langkah analisis yang dilakukan pada penelitian ini adalah sebagai berikut. 1.  Import     Libraries    Libraries  yang digunakan pada penelitian ini antara lain: numpy, pandas, seaborn, dan lain sebagainya. 2.  Import Dataset   Langkah ini merupakan langkah yang digunakan untuk memanggil data yang akan digunakan dalam penelitian. 3. Preprocessing Data  Proses penyesuaian data mentah menjadi data yang siap diolah. Langkah ini terdiri dari deteksi  missing value, deteksi dan penanganan  outlier   serta transformasi data. 4. Feature Selection  Langkah ini digunakan untuk mengetahui variabel prediktor apa saja yang paling berpengaruh signifikan dalam memprediksi variabel respon. Pendekatan yang digunakan dalam langkah ini adalah skor dari  feature important  . Sehingga pada tahap selanjutnya yakni analisis hanya akan digunakan data yang signifikan. 5.  Data Exploration  Sebelum diolah lebih lanjut, perlu diketahui karakteristik dan insight   dari data tersebut. Langkah ini terdiri dari statistika deskriptif dan visualisasi data. 6.  Analysis  Pada langkah ini, data dinormalisasi lalu dilakukan klasifikasi menggunakan metode  Logistic Regression  dengan Cross Validation , k-   Nearest Neighbors ,  Adaptive Boosting , dan Support Vector Machine  dengan  Radial Basis Function Kernel . 7. Penarikan Kesimpulan Penarikan kesimpulan yang dilakukan adalah melakukan perbandingan metode klasifikasi dengan membandingkan nilai akurasi untuk setiap metode klasifikasi. 3 Analisis dan Pembahasan Analisis dan pembahasan yang dilakukan pada penelitian ini adalah preprocessing data, eksplorasi data, feature selection, dan klasifikasi. A. Preprocessing Data Preprocessing Data adalah suatu proses yang dilakukan untuk membuat data mentah menjadi data yang berkualitas untuk selanjutnya diolah. Berikut ini merupakan langkah-langkah preprocessing data yang dilakukan: 1. Mendeteksi Missing Value Missing value merupakan data yang tidak tersedia pada sebuah dataset. Pada prinsipnya missing value tidak terlalu bermasalah bagi keseluruhan data ketika jumlahnya hanya sedikit. Tabel 3.1  Missing Value   No Variabel  Missing Value 1 %Word_freq_make 0 2 %Word_freq_address   0 3 %Word_freq_all 0 4 %Word_freq_3d 0 5 %Word_freq_our 0 6 %Word_freq_remove 0 7 %Word_freq_over 0 . . . . . . 57 crl_average 0 58 Y 0 Pada data spambase tidak ditemukan pada masing-masing variabel yang missing value (1) dan semua bernilai (0) sehingga data telah bersih dari kasus missing value  dan tidak diperlukan penanganan.   2. Deteksi Outlier Deteksi outlier dapat dilakukan dengan cara visual melalui boxplot  , dan secara pengujian Z -score  serta perhitungan IQR score . a. Deteksi menggunakan boxplot   Hasil output deteksi berupa gambar disajikan dalam bentuk boxplot berikut. Gambar 3.1  Boxplot  Pencilan ditemukan pada persebaran boxplot diantaranya 5 titik terluar sebelah kanan boxplot sehingga mengindikasikan adanya outlier dalam data secara visual. b. Deteksi menggunakan Z- score Berikut adalah hasil pengujian data outlier dengan pendekatan metode uji Z. Gambar 3.2  Z-score  Konsepnya dengan digunakan treshold Z score , maka data yang nilai Z- score  nya lebih dari 3 adalah outlier. Hal tersebut ditunjukkan dengan hasil
Advertisement
MostRelated
View more
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks
SAVE OUR EARTH

We need your sign to support Project to invent "SMART AND CONTROLLABLE REFLECTIVE BALLOONS" to cover the Sun and Save Our Earth.

More details...

Sign Now!

We are very appreciated for your Prompt Action!

x