Friday, 19 April 2013

ANALISIS JARINGAN SARAF



Pendahuluan
Pembahasan mengenai jaringan mencakup pembahasan mengenai model-model jaringan Bayesian dan jaringan saraf. Pembahasan mengenai model-model jaringan Bayesian mencakup pembahasan mengenai simpul jaringan Bayesisan dan model jaringan Nuggets dari Bayesian. Pembahasan mengenai jaringan saraf mencakup pembahasan mengenai jaringan saraf,  model jaringan saraf, tujuan dari jaringan saraf, dasar-dasar jaringan saraf, peraturan penghentian jaringan saraf, penentuan perilaku yang terjadi bila data dibutuhkan dalam tujuan adalah sangat besar, jaringan saraf tingkat lanjutan, ringkasan model, prioritas kepentingan prediktor, prediksi dengan observasi, klasifikasi, dan sebagainya.

Kehidupan manusia adalah sangat rumit sekali, adalah sangat kompleks sekali, karena tiap orang melakukan berbagai ragam interaksi, ikatan, hubungan, atau koneksi dengan orang-orang lain. Orang-orang, sebagai para aktor, melakukan berbagai interaksi, melakukan berbagai hubungan, melakukan berbagai ikatan, atau melakukan berbagai koneksi.

Fenomena kehidupan manusia sering digambarkan sebagai hubungan-hubungan antara para aktor, pada suatu tempat tertentu, dalam suatu waktu tertentu, dalam hubungan-hubungan atau peristiwa-peristiwa atau kejadian-kejadian (events) tertentu. Hubungan-hubungan itu sering disajikan sebagai kejadian-kejadian. Hal ini berarti bahwa kehidupan manusia mengandung empat komponen utama yaitu para aktor, waktu, tempat, dan kejadian atau hubungan.

Analisis atas kehidupan manusia dapat dikelompokkan ke dalam analisis pada tingkat mikro, analisis pada tingkat meso, dan analisis pada tingkat makro. Pendekatan yang dipakai dalam analisis pada tingkat mikro, meso, dan tingkat makro mencakup pendekatan holistik non-reduksionistik atau pendekatan parsial reduksionistik.

Analisis untuk mengungkap kompleksitas kehidupan manusia antara lain adalah analisis jaringan yaitu analisis jaringan sosial dan analisis jaringan saraf. Pembahasan ini terarah pada analisis jaringan saraf karena pembahasan mengenai kritik statistik  telah mengandung kritik bahwa jaringan saraf belum menjamah pembahasan dalam buku-buku statistik dan buku-buku SPSS yang telah diterbitkan dalam bahasa Indonesia. Buku-buku SPSS tersebut juga belum menjamah cara pemrograman dan hanya mencakup cara point and click saja.

Pembahasan mengenai jaringan saraf dapat mencakup Multilayer Perceptron dan Radial Basis Function yang terkandung dalam IBM SPSS Statistics Version 20. Contoh yang disajikan di sini adalah contoh yang telah memakai data yang terkandung dalam paket program SPSS dan data tersebut tidak disajikan di sini karena sangat panjang. Data yang dipakai di sini adalah bankloan.sav.  

Pemakaian prosedur IBM SPSS Neural Networks dapat mengembangkan model-model prediktif yang lebih akurat dan efektif. Penghayatan lebih dalam dan pengambilan keputusan akan lebih baik. Jaringan saraf adalah serangkaian perangkat pemodelan data non-linear yang terdiri dari lapisan input dan lapisan output ditambang satu atau dua lapisan tersembunyi. Hubungan-hubungan antara saraf-saraf dalam tiap lapisan itu berasosiasi dengan bobot-bobot, yang secara iteratif disesuaikan melalui algoritma training untuk meminimumkan kesalahan dan menyediakan prediksi-prediksi yang akurat. Jaringan saraf merupakan pelengkap dari teknik-teknik statistik tradisional. Jaringan saraf dapat dipakai dalam kombinasi dengan prosedur-prosedus statistik lain untuk memperoleh penghayatan yang lebih jelas dalam bidang-bidang penelitian pasar, basis data pemasaran, analisis keuangan, analisis operasional, perawatan kesehatan, dan sebagainya. Prosedur yang tersedia untuk melakukan jaringan saraf adalah Multilayer Perceptron dan Radial Basis Function. Pengawasan proses dapat dilakukan sejak langkah awal hingga langkah akhir.

Amjad Harb dan Rashid Jayousi dari Faculty of Computer Sciencem Al-Quds University  Jerusalem, Palestina, dalam studi mereka yang berjudul Comparing Neural Network Algorithm Performance Using SPSS and Neurosolutions, menyatakan bahwa “ This study exploits the Neural Network data mining algorithm to predict the value of the dependent variable under certain conditions in order to investigate the effect of the dependent variable values distribution on the prediction  accuracy performance. The prediction models were designed using two modelling tools, viz., SPSS and NeuroSolutions where the prediction performance of the two tools was compared. The dependent variable values distribution in the training dataset was found to have an impact on the prediction performance of the Neural Network using the two tools. The two tools were found to have a different prediction accuracy percentages under the same conditions except when the dependent variable values distribution ratio was 1:1 the two tools achieved approximately the same results”



Bennie Waller dan Milam Aikenn dari University of Mississippi telah menulis hasil penelitian mereka dengan berjudul Predicting Prepayment of Residential Mortgages: A Neural Network Approach yang dimuat dalam Information and Management Sciences Volume 9, Number 4, pp.37-44, 1998. Mereka menyatakan bahwa “Prepayment of mortgages is one of the most important problems facing mortgage lending institutions as well as investors who purchase mortgages or mortgage-backed securities in secondary markets. While most researchers rely up on conventional statistical techniques to predict mortgage prepayments and mortgage lending institutions use arbitrary prepayment rules, neural networks may achieve greater prediction accuracies. Here, we examine the predictive validity of a neural network and compare it to a logit model. Using loan characteristic data, the neural network was able to predict prepayments of rst residential mortgages”.





Kritik yang dilancarkan oleh penulis atas buku-buku statistik dan buku-buku SPSS biasanya didukung oleh hasil-hasil penelitian dan bukan berdasar atas pertimbangan naïve. Pembahasan ini mungkin sangat sulit dipahami karena termasuk pembahasan yang belum pernah dilakukan di Indonesia sepanjang pengetahuan penulis.


Jaringan Saraf

Suatu jaringan saraf dapat mencakup rentang yang sangat luas dari model-model prediktif dengan kebutuhan minimal atas struktur model dan asumsi. Bentuk hubungan-hubungan ditentukan selama proses pembelajaran (learning process). Hasil-hasil dari jaringan saraf akan serupa dengan model garis lurus tradisional jika suatu hubungan garis lurus terdapat antara target dan prediktor-prediktor, antara variabel-variabel dependen dan variabel-variabel independen. Jaringan saraf akan melakukan koreksi secara otomatis atas struktur model jika hubungan itu adalah hubungan nonlinear.

Pertukaran untuk keluwesan ini adalah bahwa jaringan saraf adalah sulit dapat diinterpretasikan. Seseorang, jika berusaha untuk menjelaskan suatu proses yang melandasi jaringan saraf yang menghasilkan hubungan-hubungan antara target dan prediktor-prediktor, akan lebih baik memakai model statistik tradisional, namun jika model itu tidak penting untuk dapat diinterpretasikan maka orang itu akan memperoleh prediksi-prediksi yang lebih baik jika suatu jaringan saraf itu dipakai. Jaringan saraf dapat dilakukan dengan memanfaatkan Multilayer Perceptron atau memanfaatkan Radial Basis Function.


Multilayer Perceptron

Contoh mengenai jaringan saraf dengan memanfaatkan Multilayer Perceptron mencakup contoh analisis atas risiko dari  pemberian kredit oleh suatu bank dan estimasi biaya rawat-inap para penderita penyakit jantung. Contoh ini hanya mencakup teknik menghasilkan informasi berdasar atas Multilayer Perceptron dan hasil-hasil tersebut belum diinterpretasikan.


Risiko Kredit

Contoh pembahasan mengenai risiko pemberian kredit oleh suatu Bank ini memakai data yang terkandung dalam paket program IBM SPSS Statistics Version 20. Data itu adalah bankloan.sav data ini terdiri dari 850 nasabah sehingga isi data ini tidak disajikan di sini. Data ini dapat ditemukan dalam paket program IMB SPSS Statistics Version 20. Pembahasan yang baik seyogyanya menyajikan data yang dipakai dalam analisis bukan hanya menyajikan hasil pengolahan data saja. Hal seperti ini biasanya terdapat dalam jurnal ilmiah dengan pembahasan hasil penelitian tanpa didukung dengan data yang dipakai sehingga orang-orang lain tidak dapat membuktikan apakah perhitungan itu benar atau salah. Penyajian data yang dipakai dapat saja dalam lampiran.

Jurnal ilmiah menjadi jurnal tidak ilmiah jika data asli yang dipakai dalam pengolahan data itu tidak disajikan.

IBM SPSS Statistics diaktifkan dan data bankloan.sav dicari dan dimuat. Penentuan random seed dilakukan dengan cara memakai Transform>Random Number Generation. Pemakaian perintah ini akan menyajikan kotak dialog Random Number Generator sebagai berikut :




 Kotak kecil di depan Set Starting Point diaktifkan dan lingkaran kecil di depan Fixe Value diaktifkan. Kolom di belakang Value diisi dengan 9191972 dan tombol OK ditekan.

Penciptaan partition dilakukan dengan cara memakai perintah Transform>Compute Variable sehingga kotak dialog Compute Variable disajikan sebagai berikut :




Kotak di bawah Target Variabel diisi dengan cara mengetik partition dan kotak di bawah Numeric Expression diketik 2*rv.bernoulli (0.7)-1 dan tombol OK ditekan.

Perintah Analyze>Neural Networks>Multilayer Perceptron dipakai dan langkah ini akan menyajikan kotak dialog Multilayer Perceptron sebagai berikut :




Variabel Previously defaulted(default) dialihkan ke dalam kotak di bawah Dependent Variables. Variabel Level of Education(ed) dimasukkan ke dalam kotak di bawah Factor. Variabel-variabel Age, employ, address, income, debtinc, creddebt, dan othdebt dialihkan ke dalam kotak di bawah Covariates sehingga kotak dialog Multilayer Perceptron adalah sebagai berikut :




Tombol Partition ditekan sehingga kotak dialog Partition disajikan sebagai berikut :




Lingkaran kecil di depan Use partitioning variabel to assign cases diaktifkan dan partition dialihkan ke dalam kotak di bawah Partitioning Variable. Kotak dialog tersebut adalah sebagai berikut :




Tombol OK ditekan. Tombol Output ditekan dan semua kotak kecil diaktifkan sehingga kotak dialog tersebut adalah sebagai berikut :




Tombol OK ditekan sehingga informasi dihasilkan

Langkah-langkah di atas dikenal dengan cara point and click. Cara pemrograman sesuai dengan langkah-langkah di atas akan menhasilkan program aplikasi sebagai berikut :



GET

  FILE='D:\SPSS\bankloan.sav'.

DATASET NAME $DataSet WINDOW=FRONT.

SET MTINDEX=9191972.

COMPUTE partition=2*rv.bernoulli (0.7)-1.

EXECUTE.

*Multilayer Perceptron Network.

MLP default (MLEVEL=N) BY ed WITH age employ address income debtinc creddebt othdebt

 /RESCALE COVARIATE=STANDARDIZED

  /PARTITION  VARIABLE=partition

  /ARCHITECTURE   AUTOMATIC=YES (MINUNITS=1 MAXUNITS=50)

  /CRITERIA TRAINING=BATCH OPTIMIZATION=SCALEDCONJUGATE LAMBDAINITIAL=0.0000005 SIGMAINITIAL=0.00005 INTERVALCENTER=0 INTERVALOFFSET=0.5 MEMSIZE=1000

  /PRINT CPS NETWORKINFO SUMMARY CLASSIFICATION SOLUTION IMPORTANCE

  /PLOT NETWORK ROC GAIN LIFT PREDICTED

  /STOPPINGRULES ERRORSTEPS= 1 (DATA=AUTO) TRAININGTIMER=ON (MAXTIME=15) MAXEPOCHS=AUTO ERRORCHANGE=1.0E-4 ERRORRATIO=0.0010

 /MISSING USERMISSING=EXCLUDE .



Cara point and click dan cara pemrograman sebagaimana dijelaskan dan disajikan di atas akan mengnaislkan informasi yang sama. Informasi yang dihasilkan di bawah ini.



Tabel Case Processing Summary di bawah ini menunjukkan bahwa 477 kasus ditugaskan pada training sample dan 223 ditugaskan pada holdout sample, dan 150 kasus dikeluarkan dari analisis merupakan para calon nasabah prospektif.





Tabel Network Information di bawah ini mengandung penyajian informasi tentang jaringan saraf dan bermanfaat untuk menjamin bahwa spesifikasi-spesifikasi adalah benar. Informasi tersebut mengungkap bahwa  jumlah unit dalam lapisan masukan (input layer) adalah jumlah kovarians ditambah jumlah dari tingkat-tingat faktor; suatu unit terpisah dicipta untuk tiap karegori dari tingkat pendidikan dan tidak terdapat unit-unit redundensi kategori sebagaimana  biasa terdapat dalam banyak prosedur pemodelan. Suatu unit hasil terpisah dicipta untuktiap kategori dari variabel Previous defaulted, untuk jumlah dua unit dalam lapisan hasil (output layer). Pemilihan arsitektur otomatis telah dilakukan dan memilih enam uit dalam lapisan tersembunyi (hidden layer). Semua informasi jaringan lain adalah default untuk prosedur tersebut. Satu unit merupakai bias.














Gambar di atas mencerminkan lapisan masukan, lapisan tersembunyi, dan lapisan hasil. Gambar di atas juga mencerminkan garis-garis tebal dan garis-garis tipis. Garis tebal berarti bahwa bobot sinaptik (synaptic weight) adalah lebih kecil daripada 0 dan garis tipis berarti bahwa bobot sinaptik adalah lebih besar daripada 0. Gambar di atas mencerminkan hubungan antara variabel-variabel bebas dan variabel-variabel terikat dengan kondisi yang sangat kompleks. Hal ini sangat berbeda dengan gambaran yang terkandung dalam skripsi, tesis, disertasi atau hasil-hasil penelitian yang menggambarkan hubungan-hubungan adalah sangat sederhana. Jaringan saraf mencerminkan hakikat untuk menyimpan pengetahuan dari pengalaman dan penyimpanan tersebut tersedia  untuk pemakaian. Hal ini berarti bahwa pengetahuan itu dikuasai oleh jaringan saraf melalui suatu proses pembelajaran dan kekuatan-kekuatan koneksi antarsaraf dikenal sebagai bobot sinaptik (synaptic weight) dipakai untuk menyimpan pengetahuan.










Tabel Model Summary di atas menyajikan informasi tentang hasil-hasil dari training dan penerapan jaringan akhir pada holdout sample. Cross entropy error disajikan karena lapisan hasil memakai fungsi pengaktivan softmax. Hal ini merupakan fungsi kesalahan.yang telah diusahakan oleh jaringan untuk diminimumkan selama training. Persentase prediksi yang tidak benar diambil dari tabel klasifikaasi. Algoritma estimasi berhenti karena jumlah maksimum dari epoch telah tercapai. Training, secara ideal, akan berhenti karena kesalahan telah dikonvergenkan. Hal ini menimbulkan pertanyaan-pertanyaan apakah sesuatu telah berjalan salah selama training dan apakah sesuatu tetap disimpan dalam pikiran tatkala inspeksi lebih lanjut atas hasil itu dilakukan.








Classification Table di atas menunjukkan hasil-hasil praktis dari pemakaian jaringan. Tanggapan yang diprediksi adalah Ya untuk tiak kasus jika kasus itu dipredisi menurut pseudo-probability adalah lebih besar daripada 0.5. Sel-sel diagolan dari cross-claassification dari kasus-kasus itu mengoreksi prediksi-perdiksi. Sel-sel di luar diagonal dari cross-classification dari kasus-kasus itu merupakan prediksi yang tidak benar. Kasus-kasus yang dipakai untuk mencipta model, 65 dari 111 orang yang semula defaulted diklasifikasikan secara benar. 341 dari 366 non-defaulters dikelompokkan secara benar. Keseluruhan, 85.1% dari kasus-kasus training diklasifikasikan secara benar sejalan dengan 14.9% tidak benar sebagaimana disajikan dalam model summary. Suatu model yang lebih baik harus dapat mengidentifikasi secara benar suatu persentase yang lebih tinggi dari kasus-kasus itu. Klasifikasi berdasar atas kasus-kasus yang dipakai untuk mencipta model cenderung terlalu optimistik dalam pengertian bahwa tingkat klasifikasi itu dinaikkan. Holdout sample membantu validasi model di sini adalah 75.8% dari kasus-kasus ini diklasifikasikan secara benar oleh model itu. Hal ini berarti bahwa  model itu dalam kenyataannya benar tentang  tiga dari empat kali.





Parameter estimasi mencakup lapisan masukan, lapisan tersembunyi, dan lapisan hasil disajikan secara rinci.







Bagan, untuk variabel dependen kategori, diprediksi melalui observasi menampilkan boxplot berkelompok dari pseudo-probabilitas yang diprediksi untuk menggabungkan training sample dan holdout sample. Sumbu x sesuai dengan kategori-kategori tanggapan yang  yang diamati, dan legenda sesuai dengan kategori-kategori yang diprediksi. Boxplot paling kiri   menunjukkan, untuk kasus-kasus kategori yang telah mengamati memberikan jawaban tidak, pseudo-probabilitas dari kategori itu diprediksi tidak. Porsi boxplot di atas 0,5 memberikan tanda pada sumbu y mewakili prediksi yang benar sebagaimana ditunjukkan pada tabel klasifikasi. Prosi di bawah 0,5 mewakili prediksi yang salah. Tabel klasifikasi yang mennjukkan bahwa
jaringan adalah sangat baik pada prediksi kasus  dengan hasil tidak atas kategori dengan memakai 0,5 cutoff, sehingga hanya porsi dari ujung yang lebih rendah dan beberapa kasus yang mengandung kesalahan klasifikasi. Boxplot selanjutnya ke kanan menunjukkan, untuk kasus-kasus yang  mempunyai kategori dengan jawaban tidak,  pseudo-probabilitas dari kategori yang diprediksi mempunyai ya, karena hanya terdapat dua kategori dalam variabel sasaran,  kedua boxplot yang simetris terhadap garis horizontal pada 0,5.



Boxplot ketiga menunjukkan, untuk kasus-kasus yang mempunyai kategori diamati itu memberikan jawaban ya, pseudo-probabilitas diprediksi dari kategori itu memberikan jawaban tidak. Ini dan boxplot terakhir adalah simetris tentang garis horizontal pada 0,5. Boxplot terakhir menunjukkan, untuk kasus-kasus yang mempunyai kategori diamati itu memberikan jawaban ya, pseudo-probabilitas kategori itu diprediksi mempunyai jawaban ya. Porsi dari boxplot di atas 0,5 merupakan tanda pada sumbu y mewakili prediksi yang tidak benar sebagaimana tercermin dalam tabel klasifikasi bahwa jaringan memprediksi lebih daripada setengah dari kasus dalam kategori dengan jawaban ya memakai cutoff 0.5, sehingga bagian yang baik dari boxplot itu adalah salah diklasifikasikan.  Pengamatan atas boxplot jelaslah bahwa dengan cara merendahkan cutoff untuk mengklasifikasikan suatu kasus sebagai jawaban ya dari 0.5 untuk kira-kira 0.3 sebagai nilai kasar di mana bagian atas dari boxplot kedua dan bagian bawah dari boxplot keempat dapat meningktkan peluang dari perekaman secara tepat atas prospektif defaulters tanpa kehilangan banyak nasabah potensial yang baik. Hal ini berarti bahwa gerakan dari 0.5 menjadi 0.3 sepanjang boxplot kedua melakukan reklasifikasi secara tidak benar sedangkan sepanjang boxplot keempat gerakan ini secara tepat melakukan reklasifikasi banyak nasabah default di dalam kotak sebagaimana defaulters itu diprediksi.







Grafik keuntungan kumulatif menunjukkan persentase dari jumlah keseluruhan kasus  dalam kategori tertentu "diuntungkan" dengan menargetkan persentase dari jumlah kasus. Titik pertama pada kurva untuk jawaban kategori ya, misalkan, adalah pada (10%, 30%), hal ini berarti bahwa jika memberikan skor atas rangkaian data dengan jaringan dan melakukan sortasi atas semua kasus dengan pseudo-probabilitas diprediksi itu memberikan jawaban Ya, maka pejabat bank akan mengharapkan atas 10% mengandung sekitar 30% dari semua kasus yang benar-benar mengambil kategori Ya (default). Hal ini berlaku juga  atas 20% akan berisi sekitar 50% dari yang default, atas 30% kasus akan berisi 70% default, dan sebagainya. Pejabat bank itu jika memilih 100% dari skor rangkaian data, maka pejabat bank itu mendapatkan semua yang default dalam rangkaian data. Garis diagonal adalah "dasar" kurva, jika memilih 10% kasus dari rangkaian data itu maka skor secara acak  secara acak, maka  diharapkan untuk "mendapatkan" sekitar 10% dari semua kasus yang benar-benar mengambil kategori Ya. Titik itu jika makin jauh di atas garis dasar kurva itu terletak, maka keuntungan adalah makin besar. Pejabat bank tersebut dapat memakai grafik keuntungan kumulatif untuk membantu dalam  memilih cutoff klasifikasi dengan memilih persentase yang sesuai dengan keuntungan yang diinginkan, dan kemudian memetakan persentase itu dengan nilai cutoff yang sesuai. Apa yang merupakan "keuntungan yang diinginkan" tergantung pada biaya kesalahan Tipe I dan Tipe II, yaitu apakah biaya klasifikasi suatu default sebagai suatu non-default (Tipe I)? Apakah biaya dari klasifikasi non-default sebagai default (Tipe II)? Hutang yang buruk jika merupakan perhatian utama, maka pejabat bank itu ingin menekan ke bawah kesalahan Tipe I, pada grafik keuntungan kumulatif, hal ini mungkin berhubungan dengan penolakan pinjaman pada permohonan-permohonan di atas 40% dari pseudo-probabilitas yang diprediksi dari jawaban Ya, yang merekam hampir 90% dari kemungkinan default (kesulitan dalam pembayaran pinjaman) akan tetapi akan menghapus sekitar 50% dari kumpulan permohonan pinjaman. Basis nasabah itu jika mengalami pertumbuhan merupakan prioritas maka pejabat bank tesebut ingin menekan kesalahan tipe II. Hal ini, dalam grafik di atas, mungkin berhubunan dengan penolakan sekitar 10% yang akan mencakup 30% dari default dan meningalkan sebagian besar permohonan tersebut. Kedua hal tersebut biasanya merupakan perhatian utama dari pejabat bank sehingga pejabat bank itu harus memilih suat aturan keputusan untuk mengklasifikasikan para nasabah yang akan memberikan bauran yang terbaik dari kepekaan dan spesifikasi.






Area di bawah kurva adalah ringkasan secara numerik dari kurva ROC, dan nilai-nilai dalam tabel itu  mewakili, untuk setiap kategori,  probabilitas dari pseudo-probabilitas yang diprediksi dalam kategori itu  adalah lebih tinggi untuk kasus yang dipilih secara acak dalam kategori itu. Default yang dipilih secara acak dan non-default yang dipilih secara acak, terdapat probabilitas sebesar 0.906. Hal ini berarti bahwa model pseudo-probability yang diprediksikan itu akan lebih tinggi untuk default daripada untuk non-default (pembayaran pinjaman secara teratur). Area di bawah kurva merupakan suatu ringkasan statistik yang bermanfaat dari akurasi atas jaringan, pejabat bank itu harus mampu memilih suatu kriterium spesifik dengan mana para nasabah akan diklasifikasikan. Grafik predicted-by-observed menyediakan suatu awal secara visual atas proses ini.






Grafik di atas berasal dari grafik keuntungan kumulasi keuntungan, nilai-nilai pada sumbu y sesuai dengan rasio keuntungan kumulatif untuk setiap kurva garsi dasar.   Lift sebesar 10% untuk kategori ya adalah 30% / 10% = 3,0. Hal ini menyediakan cara lain untuk melihat informasi dalam grafik keuntungan kumulatif.






Grafik tingkat kepentingan hanyalah sebuah grafik histogram atas nilai-nilai dalam tabel tingkat kepentingan, yang telah diurutkan dalam tingkat kepentingan dari nilai paling tinggi ke nilai menurun. Variabel yang berhubungan dengan stabilitas nasabah (emplo, address)  dan (creddebt, debtinc) mempunyai pengaruh terbesar pada bagaimana jaringan mengklasifikasikan para nasabah, apa yang tidak dapat dijelaskan itu adalah "arah" dari hubungan antara variabel-variabel ini dan probabilitas prediksi default. Pejabat bank itu akan menebak bahwa jumlah yang lebih besar dari utang menunjukkan kemungkinan lebih besar default, tetapi untuk memastikan hal ini, pejabat bank itu akan perlu memakai model dengan parameter yang lebih mudah ditafsirkan.





Tingkat kepentingan dari suatu variabel independen adalah suatu ukuran dari berapa banyak nilai  perubahan dari model jaringan yang diprediksi yang berbeda dari variabel independen. Normalisasi tingkat kepentingan hanyalah nilai-nilai kepentingan dibagi dengan nilai-nilai kepentingan terbesar dan dinyatakan sebagai persentase.



Contoh sintaksis lain dapat diberikan juga sebagaimana disajikan di bawah ini :

 

*************************************

*     Abdullah M. Jaubah

*     Neural Networks – Radial Basis Function

*************************************



GET

  FILE='D:\SPSS\telco.sav'.



SET SEED=9191972.

COMPUTE partition=2*rv.bernoulli(0.7)-1..

EXECUTE.

*Radial Basis Function Network.

RBF custcat (MLEVEL=N) BY marital ed retire gender WITH age address income employ reside

 /RESCALE COVARIATE=STANDARDIZED

  /PARTITION  TRAINING=6  TESTING=2  HOLDOUT=1

  /ARCHITECTURE MINUNITS=AUTO MAXUNITS=AUTO HIDDENFUNCTION=NRBF

  /CRITERIA OVERLAP=AUTO

  /PRINT CPS NETWORKINFO SUMMARY CLASSIFICATION SOLUTION IMPORTANCE

  /PLOT NETWORK ROC GAIN LIFT PREDICTED

 /MISSING USERMISSING=EXCLUDE .



Data yang dipakai adalah telco.sav. Data ini terdapat pula dalam paket program IBM SPSS Statistics Version 20. Pelaksanaan sintaksis Radial Basis Function akan menghasilkan informasi dan informasi ini tidak dijelaskan. Informasi ini adalah sebagai berikut :






















Rangkuman

Pelaksanaan jaringan saraf melalui pemanfaatan Multilayer Perceptron adalah mudah akan tetapi interpretasi atas hasil-hasil pelaksanaan adalah sulit. Interpretasi dilakukan dengan mengacu pada dokumentasi IBM SPSS. Pemakaian prosedur Multilayer Perceptron akan dapat membangun jaringan untuk memprediksi probabilitas bahwa para nasabah bank akan diberikan default (tidak dapat membayar pinjaman). Hasil model sebanding dengan yang diperoleh dengan memakai analisis Regresi Logistik atau analisis discriminan, sehingga pejabat bank tersebut dapat cukup yakin bahwa data mengandung hubungan yang dapat ditangkap oleh model-model; sehingga pejabat bank tersebut dapat memakainya untuk lebih mengeksplorasi sifat hubungan antara variabel dependen dan variabel independen.Beberapa pembahasan akan sangat sulit dipahami terutama bagi mereka yang belum pernah mempelajari jaringan saraf. Arsip data telco.sav dipakai untuk mengklasifikasikan telekomunikasi dalam mana penyedia telekomunikasi mempunyai para pelanggan yang tersegmentasi oleh pola-pola pemakaian pelayanan dan para pelanggan dikategorikan ke dalam empat kategori. Hasil dari Radial Basis Function ini tidak dijelaskan.



Dua cara telah dipakai dalam analisis jaringan saraf yaitu cara point and click dan cara pemrograma. Cara pemrograman adalah lebih efektif dan efisien jika dibanding dengan cara point and click. Kedua cara ini dapat dipakai karena saling mendukung. Pembahasan di atas mengungkap ketangguhan-ketangguhan dari jaringan saraf dan cara pemrograman melalui perintah-perintah sintaksis IBM SPSS Statistics version 20.

Daftar Pustaka

Amjad Harb dan Rashid Jayousi, Comparing Neural Network Algoriithm Performance Using SPSSand Neurosolutions, http://www.acit2k.org/ACIT/2012Proceedings/7016.pdf

Bennie Waller dan Milam Aikenn, Predicting Prepayment of Residential Mortgages: A Neural Network Approach yang dimuat dalam Information and Management Sciences Volume 9, Number 4, pp.37-44, 1998.  http://ijims.ms.tku.edu.tw/PDF/M9N44.pdf


Oleh : Abdullah M. Jaubah


4 comments:

  1. bagaimana cara menentukan model terbaik yg trbentuk dari parameter hasil RBF?? dan bagaimana cara membuat ketepatan klasifikasi 10x percobaan pda data testing dan training?? apakah harus diulang running 10x lgi? dan output manakah dr hasil klasifikasi yg tepat itu?

    mohon jawaban dan bantuannya, trims..

    ReplyDelete
  2. Saudari Fitri Vhe terima kasih atas pertanyaan anda. Pertanyaan anda adalah tidak jelas karena tidak didukung dengan hasil Radial Basis Function. Model merupakan abstraksi dari kenyataan. Kenyataan biasa diwakili oleh data. Data dapat dikelompokkan ke dalam data berjenis kualitatif dan data berjenis kuantitatif. Model yang cocok untuk data berjenis kualitatif adalah statistik nonparametrik dan model yang tepat untuk data berjenis kuantitatif adalah statistik parametrik jika tiga syarat terpenuhi yaitu jumlah kasus minimum adalah 30 kasus, memenuhi persyaratan normalitas distribusi data, dan memenuhi persyaratan homogenitas varians. Statistik nonparametrik dipakai jika salah satu dari ketiga persyaratan itu tidak terpenuhi. Penentuan model terbaik biasa dilakukan dengan cara pengujian kecocokan model dalam pengertian kecocokan antara model yang dipilih dan data yang dipakai.
    Saudari Fitri Vhe, saya menulis Jaringan Saraf : Radial Basis Function, berdasar atas pertanyaan-pertanyaan saudari. Variabel yang dipakai adalah 10 variabel yang terdiri dari variabel nominal, ordinal, dan variabel scale adalah kasus berjumlah 250. Contoh yang disajikan memakai dua cara yaitu cara bahasa perintah atau cara pemrograman dan cara point and click berdasar atas menu SPSS. Contoh ini, mungkin akan memperjelas atau menjawab pertanyaan-pertanyaan anda secara tidak langsung.

    ReplyDelete
  3. pAK aBDULLAH YTH:
    sgt tertarik dengan urian analisis jaringan syaraf menggunakan spss. belum paham tetapi akan sy pelajari dengan baik. sy juga mau nanya apa Pk Abdullah dapat menulis manual program Pajek edisi indonesia??? Atau melakukan pelatihan online...? sy siap ikut dan dikenakan charge.... Makasih Pak (basirpaly@gmail.com.

    ReplyDelete
  4. Ijin nanya. Kalau di Logistic Regression (LR) atau Multiple Discriminant Analysis (MDA), khan ada koefisien nya, sehingga dapat dibuat suatu persamaan. Nah, kalau di Neural Network (NN) bagaimana caranya ya Pak. Terima kasih. (Adipati, Mahasiswa S2 di Indonesian Banking School-Jakarta-Jalan Kemang Raya)

    ReplyDelete