Pendahuluan
Pembahasan mengenai jaringan
mencakup pembahasan mengenai model-model jaringan Bayesian dan jaringan saraf.
Pembahasan mengenai model-model jaringan Bayesian mencakup pembahasan mengenai
simpul jaringan Bayesisan dan model jaringan Nuggets dari Bayesian. Pembahasan
mengenai jaringan saraf mencakup pembahasan mengenai jaringan saraf, model jaringan saraf, tujuan dari jaringan
saraf, dasar-dasar jaringan saraf, peraturan penghentian jaringan saraf,
penentuan perilaku yang terjadi bila data dibutuhkan dalam tujuan adalah sangat
besar, jaringan saraf tingkat lanjutan, ringkasan model, prioritas kepentingan
prediktor, prediksi dengan observasi, klasifikasi, dan sebagainya.
Kehidupan manusia adalah sangat
rumit sekali, adalah sangat kompleks sekali, karena tiap orang melakukan
berbagai ragam interaksi, ikatan, hubungan, atau koneksi dengan orang-orang
lain. Orang-orang, sebagai para aktor, melakukan berbagai interaksi, melakukan
berbagai hubungan, melakukan berbagai ikatan, atau melakukan berbagai koneksi.
Fenomena kehidupan manusia sering
digambarkan sebagai hubungan-hubungan antara para aktor, pada suatu tempat
tertentu, dalam suatu waktu tertentu, dalam hubungan-hubungan atau
peristiwa-peristiwa atau kejadian-kejadian (events) tertentu. Hubungan-hubungan
itu sering disajikan sebagai kejadian-kejadian. Hal ini berarti bahwa kehidupan
manusia mengandung empat komponen utama yaitu para aktor, waktu, tempat, dan
kejadian atau hubungan.
Analisis atas kehidupan manusia
dapat dikelompokkan ke dalam analisis pada tingkat mikro, analisis pada tingkat
meso, dan analisis pada tingkat makro. Pendekatan yang dipakai dalam analisis
pada tingkat mikro, meso, dan tingkat makro mencakup pendekatan holistik
non-reduksionistik atau pendekatan parsial reduksionistik.
Analisis untuk mengungkap
kompleksitas kehidupan manusia antara lain adalah analisis jaringan yaitu
analisis jaringan sosial dan analisis jaringan saraf. Pembahasan ini terarah
pada analisis jaringan saraf karena pembahasan mengenai kritik statistik telah mengandung kritik bahwa jaringan saraf
belum menjamah pembahasan dalam buku-buku statistik dan buku-buku SPSS yang
telah diterbitkan dalam bahasa Indonesia. Buku-buku SPSS tersebut juga belum
menjamah cara pemrograman dan hanya mencakup cara point and click saja.
Pembahasan mengenai jaringan
saraf dapat mencakup Multilayer Perceptron dan Radial Basis Function yang
terkandung dalam IBM SPSS Statistics Version 20. Contoh yang disajikan di sini
adalah contoh yang telah memakai data yang terkandung dalam paket program SPSS
dan data tersebut tidak disajikan di sini karena sangat panjang. Data yang dipakai
di sini adalah bankloan.sav.
Pemakaian prosedur IBM SPSS
Neural Networks dapat mengembangkan model-model prediktif yang lebih akurat dan
efektif. Penghayatan lebih dalam dan pengambilan keputusan akan lebih baik.
Jaringan saraf adalah serangkaian perangkat pemodelan data non-linear yang
terdiri dari lapisan input dan lapisan output ditambang satu atau dua lapisan tersembunyi.
Hubungan-hubungan antara saraf-saraf dalam tiap lapisan itu berasosiasi dengan
bobot-bobot, yang secara iteratif disesuaikan melalui algoritma training untuk
meminimumkan kesalahan dan menyediakan prediksi-prediksi yang akurat. Jaringan
saraf merupakan pelengkap dari teknik-teknik statistik tradisional. Jaringan
saraf dapat dipakai dalam kombinasi dengan prosedur-prosedus statistik lain
untuk memperoleh penghayatan yang lebih jelas dalam bidang-bidang penelitian
pasar, basis data pemasaran, analisis keuangan, analisis operasional, perawatan
kesehatan, dan sebagainya. Prosedur yang tersedia untuk melakukan jaringan
saraf adalah Multilayer Perceptron dan Radial Basis Function. Pengawasan proses
dapat dilakukan sejak langkah awal hingga langkah akhir.
Amjad Harb dan Rashid Jayousi
dari Faculty of Computer Sciencem Al-Quds University Jerusalem, Palestina, dalam studi mereka yang
berjudul Comparing Neural Network Algorithm Performance Using SPSS and
Neurosolutions, menyatakan bahwa “ This study exploits the Neural Network data
mining algorithm to predict the value of the dependent variable under certain
conditions in order to investigate the effect of the dependent variable values
distribution on the prediction accuracy
performance. The prediction models were designed using two modelling tools,
viz., SPSS and NeuroSolutions where the prediction performance of the two tools
was compared. The dependent variable values distribution in the training
dataset was found to have an impact on the prediction performance of the Neural
Network using the two tools. The two tools were found to have a different
prediction accuracy percentages under the same conditions except when the
dependent variable values distribution ratio was 1:1 the two tools achieved
approximately the same results”
Bennie Waller dan Milam Aikenn
dari University of Mississippi telah menulis hasil penelitian mereka dengan
berjudul Predicting Prepayment of Residential Mortgages: A Neural Network
Approach yang dimuat dalam Information and Management Sciences Volume 9, Number
4, pp.37-44, 1998. Mereka menyatakan bahwa “Prepayment of mortgages is one of
the most important problems facing mortgage lending institutions as well as
investors who purchase mortgages or mortgage-backed securities in secondary
markets. While most researchers rely up on conventional statistical techniques
to predict mortgage prepayments and mortgage lending institutions use arbitrary
prepayment rules, neural networks may achieve greater prediction accuracies.
Here, we examine the predictive validity of a neural network and compare it to
a logit model. Using loan characteristic data, the neural network was able to
predict prepayments of rst residential mortgages”.
Kritik yang dilancarkan oleh
penulis atas buku-buku statistik dan buku-buku SPSS biasanya didukung oleh
hasil-hasil penelitian dan bukan berdasar atas pertimbangan naïve. Pembahasan
ini mungkin sangat sulit dipahami karena termasuk pembahasan yang belum pernah
dilakukan di Indonesia sepanjang pengetahuan penulis.
Jaringan Saraf
Suatu jaringan saraf dapat
mencakup rentang yang sangat luas dari model-model prediktif dengan kebutuhan
minimal atas struktur model dan asumsi. Bentuk hubungan-hubungan ditentukan
selama proses pembelajaran (learning process). Hasil-hasil dari jaringan saraf
akan serupa dengan model garis lurus tradisional jika suatu hubungan garis
lurus terdapat antara target dan prediktor-prediktor, antara variabel-variabel
dependen dan variabel-variabel independen. Jaringan saraf akan melakukan
koreksi secara otomatis atas struktur model jika hubungan itu adalah hubungan
nonlinear.
Pertukaran untuk keluwesan ini
adalah bahwa jaringan saraf adalah sulit dapat diinterpretasikan. Seseorang,
jika berusaha untuk menjelaskan suatu proses yang melandasi jaringan saraf yang
menghasilkan hubungan-hubungan antara target dan prediktor-prediktor, akan
lebih baik memakai model statistik tradisional, namun jika model itu tidak
penting untuk dapat diinterpretasikan maka orang itu akan memperoleh
prediksi-prediksi yang lebih baik jika suatu jaringan saraf itu dipakai.
Jaringan saraf dapat dilakukan dengan memanfaatkan Multilayer Perceptron atau
memanfaatkan Radial Basis Function.
Multilayer Perceptron
Contoh mengenai jaringan saraf
dengan memanfaatkan Multilayer Perceptron mencakup contoh analisis atas risiko
dari pemberian kredit oleh suatu bank
dan estimasi biaya rawat-inap para penderita penyakit jantung. Contoh ini hanya
mencakup teknik menghasilkan informasi berdasar atas Multilayer Perceptron dan
hasil-hasil tersebut belum diinterpretasikan.
Risiko Kredit
Contoh pembahasan mengenai risiko
pemberian kredit oleh suatu Bank ini memakai data yang terkandung dalam paket
program IBM SPSS Statistics Version 20. Data itu adalah bankloan.sav data ini
terdiri dari 850 nasabah sehingga isi data ini tidak disajikan di sini. Data
ini dapat ditemukan dalam paket program IMB SPSS Statistics Version 20.
Pembahasan yang baik seyogyanya menyajikan data yang dipakai dalam analisis
bukan hanya menyajikan hasil pengolahan data saja. Hal seperti ini biasanya
terdapat dalam jurnal ilmiah dengan pembahasan hasil penelitian tanpa didukung
dengan data yang dipakai sehingga orang-orang lain tidak dapat membuktikan
apakah perhitungan itu benar atau salah. Penyajian data yang dipakai dapat saja
dalam lampiran.
Jurnal ilmiah menjadi jurnal
tidak ilmiah jika data asli yang dipakai dalam pengolahan data itu tidak
disajikan.
IBM SPSS Statistics diaktifkan
dan data bankloan.sav dicari dan dimuat. Penentuan random seed dilakukan dengan
cara memakai Transform>Random Number Generation. Pemakaian perintah ini akan
menyajikan kotak dialog Random Number Generator sebagai berikut :
Kotak kecil di depan Set Starting
Point diaktifkan dan lingkaran kecil di depan Fixe Value diaktifkan. Kolom di
belakang Value diisi dengan 9191972 dan tombol OK ditekan.
Penciptaan partition dilakukan
dengan cara memakai perintah Transform>Compute Variable sehingga kotak
dialog Compute Variable disajikan sebagai berikut :
Kotak di bawah Target Variabel
diisi dengan cara mengetik partition dan kotak di bawah Numeric Expression
diketik 2*rv.bernoulli (0.7)-1 dan tombol OK ditekan.
Perintah Analyze>Neural
Networks>Multilayer Perceptron dipakai dan langkah ini akan menyajikan kotak
dialog Multilayer Perceptron sebagai berikut :
Variabel Previously
defaulted(default) dialihkan ke dalam kotak di bawah Dependent Variables.
Variabel Level of Education(ed) dimasukkan ke dalam kotak di bawah Factor.
Variabel-variabel Age, employ, address, income, debtinc, creddebt, dan othdebt
dialihkan ke dalam kotak di bawah Covariates sehingga kotak dialog Multilayer
Perceptron adalah sebagai berikut :
Tombol Partition ditekan sehingga
kotak dialog Partition disajikan sebagai berikut :
Lingkaran kecil di depan Use
partitioning variabel to assign cases diaktifkan dan partition dialihkan ke
dalam kotak di bawah Partitioning Variable. Kotak dialog tersebut adalah
sebagai berikut :
Tombol OK ditekan. Tombol Output
ditekan dan semua kotak kecil diaktifkan sehingga kotak dialog tersebut adalah
sebagai berikut :
Tombol OK ditekan sehingga
informasi dihasilkan
Langkah-langkah di atas dikenal
dengan cara point and click. Cara pemrograman sesuai dengan langkah-langkah di
atas akan menhasilkan program aplikasi sebagai berikut :
GET
FILE='D:\SPSS\bankloan.sav'.
DATASET NAME $DataSet WINDOW=FRONT.
SET MTINDEX=9191972.
COMPUTE partition=2*rv.bernoulli (0.7)-1.
EXECUTE.
*Multilayer Perceptron Network.
MLP default (MLEVEL=N) BY ed WITH age employ address
income debtinc creddebt othdebt
/RESCALE
COVARIATE=STANDARDIZED
/PARTITION VARIABLE=partition
/ARCHITECTURE AUTOMATIC=YES
(MINUNITS=1 MAXUNITS=50)
/CRITERIA
TRAINING=BATCH OPTIMIZATION=SCALEDCONJUGATE LAMBDAINITIAL=0.0000005
SIGMAINITIAL=0.00005 INTERVALCENTER=0 INTERVALOFFSET=0.5 MEMSIZE=1000
/PRINT CPS NETWORKINFO
SUMMARY CLASSIFICATION SOLUTION IMPORTANCE
/PLOT NETWORK ROC
GAIN LIFT PREDICTED
/STOPPINGRULES
ERRORSTEPS= 1 (DATA=AUTO) TRAININGTIMER=ON (MAXTIME=15) MAXEPOCHS=AUTO
ERRORCHANGE=1.0E-4 ERRORRATIO=0.0010
/MISSING
USERMISSING=EXCLUDE .
Cara point and click dan cara
pemrograman sebagaimana dijelaskan dan disajikan di atas akan mengnaislkan
informasi yang sama. Informasi yang dihasilkan di bawah ini.
Tabel Case Processing Summary di
bawah ini menunjukkan bahwa 477 kasus ditugaskan pada training sample dan 223
ditugaskan pada holdout sample, dan 150 kasus dikeluarkan dari analisis
merupakan para calon nasabah prospektif.
Tabel Network Information di
bawah ini mengandung penyajian informasi tentang jaringan saraf dan bermanfaat
untuk menjamin bahwa spesifikasi-spesifikasi adalah benar. Informasi tersebut
mengungkap bahwa jumlah unit dalam
lapisan masukan (input layer) adalah jumlah kovarians ditambah jumlah dari
tingkat-tingat faktor; suatu unit terpisah dicipta untuk tiap karegori dari
tingkat pendidikan dan tidak terdapat unit-unit redundensi kategori
sebagaimana biasa terdapat dalam banyak
prosedur pemodelan. Suatu unit hasil terpisah dicipta untuktiap kategori dari
variabel Previous defaulted, untuk jumlah dua unit dalam lapisan hasil (output
layer). Pemilihan arsitektur otomatis telah dilakukan dan memilih enam uit
dalam lapisan tersembunyi (hidden layer). Semua informasi jaringan lain adalah
default untuk prosedur tersebut. Satu unit merupakai bias.
Gambar di atas mencerminkan
lapisan masukan, lapisan tersembunyi, dan lapisan hasil. Gambar di atas juga
mencerminkan garis-garis tebal dan garis-garis tipis. Garis tebal berarti bahwa
bobot sinaptik (synaptic weight) adalah lebih kecil daripada 0 dan garis tipis
berarti bahwa bobot sinaptik adalah lebih besar daripada 0. Gambar di atas
mencerminkan hubungan antara variabel-variabel bebas dan variabel-variabel
terikat dengan kondisi yang sangat kompleks. Hal ini sangat berbeda dengan
gambaran yang terkandung dalam skripsi, tesis, disertasi atau hasil-hasil
penelitian yang menggambarkan hubungan-hubungan adalah sangat sederhana.
Jaringan saraf mencerminkan hakikat untuk menyimpan pengetahuan dari pengalaman
dan penyimpanan tersebut tersedia untuk
pemakaian. Hal ini berarti bahwa pengetahuan itu dikuasai oleh jaringan saraf melalui
suatu proses pembelajaran dan kekuatan-kekuatan koneksi antarsaraf dikenal
sebagai bobot sinaptik (synaptic weight) dipakai untuk menyimpan pengetahuan.
Tabel Model Summary di atas
menyajikan informasi tentang hasil-hasil dari training dan penerapan jaringan
akhir pada holdout sample. Cross entropy error disajikan karena lapisan hasil
memakai fungsi pengaktivan softmax. Hal ini merupakan fungsi kesalahan.yang
telah diusahakan oleh jaringan untuk diminimumkan selama training. Persentase
prediksi yang tidak benar diambil dari tabel klasifikaasi. Algoritma estimasi
berhenti karena jumlah maksimum dari epoch telah tercapai. Training, secara
ideal, akan berhenti karena kesalahan telah dikonvergenkan. Hal ini menimbulkan
pertanyaan-pertanyaan apakah sesuatu telah berjalan salah selama training dan
apakah sesuatu tetap disimpan dalam pikiran tatkala inspeksi lebih lanjut atas
hasil itu dilakukan.
Classification Table di atas
menunjukkan hasil-hasil praktis dari pemakaian jaringan. Tanggapan yang
diprediksi adalah Ya untuk tiak kasus jika kasus itu dipredisi menurut
pseudo-probability adalah lebih besar daripada 0.5. Sel-sel diagolan dari
cross-claassification dari kasus-kasus itu mengoreksi prediksi-perdiksi.
Sel-sel di luar diagonal dari cross-classification dari kasus-kasus itu
merupakan prediksi yang tidak benar. Kasus-kasus yang dipakai untuk mencipta
model, 65 dari 111 orang yang semula defaulted diklasifikasikan secara benar.
341 dari 366 non-defaulters dikelompokkan secara benar. Keseluruhan, 85.1% dari
kasus-kasus training diklasifikasikan secara benar sejalan dengan 14.9% tidak
benar sebagaimana disajikan dalam model summary. Suatu model yang lebih baik
harus dapat mengidentifikasi secara benar suatu persentase yang lebih tinggi
dari kasus-kasus itu. Klasifikasi berdasar atas kasus-kasus yang dipakai untuk
mencipta model cenderung terlalu optimistik dalam pengertian bahwa tingkat
klasifikasi itu dinaikkan. Holdout sample membantu validasi model di sini
adalah 75.8% dari kasus-kasus ini diklasifikasikan secara benar oleh model itu.
Hal ini berarti bahwa model itu dalam
kenyataannya benar tentang tiga dari
empat kali.
Parameter estimasi mencakup
lapisan masukan, lapisan tersembunyi, dan lapisan hasil disajikan secara rinci.
Bagan, untuk variabel dependen
kategori, diprediksi melalui observasi menampilkan boxplot berkelompok dari
pseudo-probabilitas yang diprediksi untuk menggabungkan training sample dan
holdout sample. Sumbu x sesuai dengan kategori-kategori tanggapan yang yang diamati, dan legenda sesuai dengan
kategori-kategori yang diprediksi. Boxplot paling kiri menunjukkan, untuk kasus-kasus kategori yang
telah mengamati memberikan jawaban tidak, pseudo-probabilitas dari kategori itu
diprediksi tidak. Porsi boxplot di atas 0,5 memberikan tanda pada sumbu y
mewakili prediksi yang benar sebagaimana ditunjukkan pada tabel klasifikasi. Prosi
di bawah 0,5 mewakili prediksi yang salah. Tabel klasifikasi yang mennjukkan
bahwa
jaringan adalah sangat baik pada prediksi kasus dengan hasil tidak atas kategori dengan memakai 0,5 cutoff, sehingga hanya porsi dari ujung yang lebih rendah dan beberapa kasus yang mengandung kesalahan klasifikasi. Boxplot selanjutnya ke kanan menunjukkan, untuk kasus-kasus yang mempunyai kategori dengan jawaban tidak, pseudo-probabilitas dari kategori yang diprediksi mempunyai ya, karena hanya terdapat dua kategori dalam variabel sasaran, kedua boxplot yang simetris terhadap garis horizontal pada 0,5.
jaringan adalah sangat baik pada prediksi kasus dengan hasil tidak atas kategori dengan memakai 0,5 cutoff, sehingga hanya porsi dari ujung yang lebih rendah dan beberapa kasus yang mengandung kesalahan klasifikasi. Boxplot selanjutnya ke kanan menunjukkan, untuk kasus-kasus yang mempunyai kategori dengan jawaban tidak, pseudo-probabilitas dari kategori yang diprediksi mempunyai ya, karena hanya terdapat dua kategori dalam variabel sasaran, kedua boxplot yang simetris terhadap garis horizontal pada 0,5.
Boxplot ketiga menunjukkan, untuk
kasus-kasus yang mempunyai kategori diamati itu memberikan jawaban ya,
pseudo-probabilitas diprediksi dari kategori itu memberikan jawaban tidak. Ini
dan boxplot terakhir adalah simetris tentang garis horizontal pada 0,5. Boxplot
terakhir menunjukkan, untuk kasus-kasus yang mempunyai kategori diamati itu
memberikan jawaban ya, pseudo-probabilitas kategori itu diprediksi mempunyai jawaban
ya. Porsi dari boxplot di atas 0,5 merupakan tanda pada sumbu y mewakili
prediksi yang tidak benar sebagaimana tercermin dalam tabel klasifikasi bahwa
jaringan memprediksi lebih daripada setengah dari kasus dalam kategori dengan
jawaban ya memakai cutoff 0.5, sehingga bagian yang baik dari boxplot itu
adalah salah diklasifikasikan. Pengamatan atas boxplot jelaslah bahwa dengan
cara merendahkan cutoff untuk mengklasifikasikan suatu kasus sebagai jawaban ya
dari 0.5 untuk kira-kira 0.3 sebagai nilai kasar di mana bagian atas dari
boxplot kedua dan bagian bawah dari boxplot keempat dapat meningktkan peluang
dari perekaman secara tepat atas prospektif defaulters tanpa kehilangan banyak
nasabah potensial yang baik. Hal ini berarti bahwa gerakan dari 0.5 menjadi 0.3
sepanjang boxplot kedua melakukan reklasifikasi secara tidak benar sedangkan
sepanjang boxplot keempat gerakan ini secara tepat melakukan reklasifikasi
banyak nasabah default di dalam kotak sebagaimana defaulters itu diprediksi.
Grafik keuntungan kumulatif
menunjukkan persentase dari jumlah keseluruhan kasus dalam kategori tertentu "diuntungkan"
dengan menargetkan persentase dari jumlah kasus. Titik pertama pada kurva untuk
jawaban kategori ya, misalkan, adalah pada (10%, 30%), hal ini berarti bahwa jika
memberikan skor atas rangkaian data dengan jaringan dan melakukan sortasi atas
semua kasus dengan pseudo-probabilitas diprediksi itu memberikan jawaban Ya, maka
pejabat bank akan mengharapkan atas 10% mengandung sekitar 30% dari semua kasus
yang benar-benar mengambil kategori Ya (default). Hal ini berlaku juga atas 20% akan berisi sekitar 50% dari yang default,
atas 30% kasus akan berisi 70% default, dan sebagainya. Pejabat bank itu jika
memilih 100% dari skor rangkaian data, maka pejabat bank itu mendapatkan semua
yang default dalam rangkaian data. Garis diagonal adalah "dasar"
kurva, jika memilih 10% kasus dari rangkaian data itu maka skor secara acak secara acak, maka diharapkan untuk "mendapatkan" sekitar
10% dari semua kasus yang benar-benar mengambil kategori Ya. Titik itu jika makin
jauh di atas garis dasar kurva itu terletak, maka keuntungan adalah makin
besar. Pejabat bank tersebut dapat memakai grafik keuntungan kumulatif untuk
membantu dalam memilih cutoff klasifikasi
dengan memilih persentase yang sesuai dengan keuntungan yang diinginkan, dan
kemudian memetakan persentase itu dengan nilai cutoff yang sesuai. Apa yang
merupakan "keuntungan yang diinginkan" tergantung pada biaya kesalahan
Tipe I dan Tipe II, yaitu apakah biaya klasifikasi suatu default sebagai suatu
non-default (Tipe I)? Apakah biaya dari klasifikasi non-default sebagai default
(Tipe II)? Hutang yang buruk jika merupakan perhatian utama, maka pejabat bank
itu ingin menekan ke bawah kesalahan Tipe I, pada grafik keuntungan kumulatif,
hal ini mungkin berhubungan dengan penolakan pinjaman pada
permohonan-permohonan di atas 40% dari pseudo-probabilitas yang diprediksi dari
jawaban Ya, yang merekam hampir 90% dari kemungkinan default (kesulitan dalam
pembayaran pinjaman) akan tetapi akan menghapus sekitar 50% dari kumpulan
permohonan pinjaman. Basis nasabah itu jika mengalami pertumbuhan merupakan
prioritas maka pejabat bank tesebut ingin menekan kesalahan tipe II. Hal ini,
dalam grafik di atas, mungkin berhubunan dengan penolakan sekitar 10% yang akan
mencakup 30% dari default dan meningalkan sebagian besar permohonan tersebut.
Kedua hal tersebut biasanya merupakan perhatian utama dari pejabat bank
sehingga pejabat bank itu harus memilih suat aturan keputusan untuk mengklasifikasikan
para nasabah yang akan memberikan bauran yang terbaik dari kepekaan dan
spesifikasi.
Area di bawah kurva adalah
ringkasan secara numerik dari kurva ROC, dan nilai-nilai dalam tabel itu mewakili, untuk setiap kategori, probabilitas dari pseudo-probabilitas yang
diprediksi dalam kategori itu adalah
lebih tinggi untuk kasus yang dipilih secara acak dalam kategori itu. Default
yang dipilih secara acak dan non-default yang dipilih secara acak, terdapat
probabilitas sebesar 0.906. Hal ini berarti bahwa model pseudo-probability yang
diprediksikan itu akan lebih tinggi untuk default daripada untuk non-default
(pembayaran pinjaman secara teratur). Area di bawah kurva merupakan suatu
ringkasan statistik yang bermanfaat dari akurasi atas jaringan, pejabat bank
itu harus mampu memilih suatu kriterium spesifik dengan mana para nasabah akan
diklasifikasikan. Grafik predicted-by-observed menyediakan suatu awal secara
visual atas proses ini.
Grafik di atas berasal dari grafik
keuntungan kumulasi keuntungan, nilai-nilai pada sumbu y sesuai dengan rasio
keuntungan kumulatif untuk setiap kurva garsi dasar. Lift sebesar 10% untuk kategori ya adalah 30%
/ 10% = 3,0. Hal ini menyediakan cara lain untuk melihat informasi dalam grafik
keuntungan kumulatif.
Grafik tingkat kepentingan
hanyalah sebuah grafik histogram atas nilai-nilai dalam tabel tingkat kepentingan,
yang telah diurutkan dalam tingkat kepentingan dari nilai paling tinggi ke nilai
menurun. Variabel yang berhubungan dengan stabilitas nasabah (emplo, address) dan (creddebt, debtinc) mempunyai pengaruh
terbesar pada bagaimana jaringan mengklasifikasikan para nasabah, apa yang
tidak dapat dijelaskan itu adalah "arah" dari hubungan antara
variabel-variabel ini dan probabilitas prediksi default. Pejabat bank itu akan
menebak bahwa jumlah yang lebih besar dari utang menunjukkan kemungkinan lebih
besar default, tetapi untuk memastikan hal ini, pejabat bank itu akan perlu memakai
model dengan parameter yang lebih mudah ditafsirkan.
Tingkat kepentingan dari suatu
variabel independen adalah suatu ukuran dari berapa banyak nilai perubahan dari model jaringan yang diprediksi
yang berbeda dari variabel independen. Normalisasi tingkat kepentingan hanyalah
nilai-nilai kepentingan dibagi dengan nilai-nilai kepentingan terbesar dan dinyatakan
sebagai persentase.
Contoh sintaksis lain dapat
diberikan juga sebagaimana disajikan di bawah ini :
*************************************
* Abdullah M.
Jaubah
* Neural
Networks – Radial Basis Function
*************************************
GET
FILE='D:\SPSS\telco.sav'.
SET SEED=9191972.
COMPUTE partition=2*rv.bernoulli(0.7)-1..
EXECUTE.
*Radial Basis Function Network.
RBF custcat (MLEVEL=N) BY marital ed retire gender WITH
age address income employ reside
/RESCALE
COVARIATE=STANDARDIZED
/PARTITION TRAINING=6
TESTING=2 HOLDOUT=1
/ARCHITECTURE
MINUNITS=AUTO MAXUNITS=AUTO HIDDENFUNCTION=NRBF
/CRITERIA
OVERLAP=AUTO
/PRINT CPS
NETWORKINFO SUMMARY CLASSIFICATION SOLUTION IMPORTANCE
/PLOT NETWORK ROC
GAIN LIFT PREDICTED
/MISSING
USERMISSING=EXCLUDE .
Data yang dipakai adalah
telco.sav. Data ini terdapat pula dalam paket program IBM SPSS Statistics
Version 20. Pelaksanaan sintaksis Radial Basis Function akan menghasilkan
informasi dan informasi ini tidak dijelaskan. Informasi ini adalah sebagai
berikut :
Rangkuman
Pelaksanaan jaringan saraf
melalui pemanfaatan Multilayer Perceptron adalah mudah akan tetapi interpretasi
atas hasil-hasil pelaksanaan adalah sulit. Interpretasi dilakukan dengan
mengacu pada dokumentasi IBM SPSS. Pemakaian prosedur Multilayer Perceptron
akan dapat membangun jaringan untuk memprediksi probabilitas bahwa para nasabah
bank akan diberikan default (tidak dapat membayar pinjaman). Hasil model sebanding
dengan yang diperoleh dengan memakai analisis Regresi Logistik atau analisis discriminan,
sehingga pejabat bank tersebut dapat cukup yakin bahwa data mengandung hubungan
yang dapat ditangkap oleh model-model; sehingga pejabat bank tersebut dapat memakainya
untuk lebih mengeksplorasi sifat hubungan antara variabel dependen dan variabel
independen.Beberapa pembahasan akan sangat sulit dipahami terutama bagi mereka
yang belum pernah mempelajari jaringan saraf. Arsip data telco.sav dipakai
untuk mengklasifikasikan telekomunikasi dalam mana penyedia telekomunikasi
mempunyai para pelanggan yang tersegmentasi oleh pola-pola pemakaian pelayanan
dan para pelanggan dikategorikan ke dalam empat kategori. Hasil dari Radial
Basis Function ini tidak dijelaskan.
Dua cara telah dipakai dalam
analisis jaringan saraf yaitu cara point and click dan cara pemrograma. Cara
pemrograman adalah lebih efektif dan efisien jika dibanding dengan cara point
and click. Kedua cara ini dapat dipakai karena saling mendukung. Pembahasan di
atas mengungkap ketangguhan-ketangguhan dari jaringan saraf dan cara
pemrograman melalui perintah-perintah sintaksis IBM SPSS Statistics version 20.
Daftar Pustaka
Amjad Harb dan Rashid Jayousi,
Comparing Neural Network Algoriithm Performance Using SPSSand Neurosolutions, http://www.acit2k.org/ACIT/2012Proceedings/7016.pdf
Bennie Waller dan Milam Aikenn,
Predicting Prepayment of Residential Mortgages: A Neural Network Approach yang
dimuat dalam Information and Management Sciences Volume 9, Number 4, pp.37-44,
1998. http://ijims.ms.tku.edu.tw/PDF/M9N44.pdf
Oleh : Abdullah M. Jaubah
bagaimana cara menentukan model terbaik yg trbentuk dari parameter hasil RBF?? dan bagaimana cara membuat ketepatan klasifikasi 10x percobaan pda data testing dan training?? apakah harus diulang running 10x lgi? dan output manakah dr hasil klasifikasi yg tepat itu?
ReplyDeletemohon jawaban dan bantuannya, trims..
Saudari Fitri Vhe terima kasih atas pertanyaan anda. Pertanyaan anda adalah tidak jelas karena tidak didukung dengan hasil Radial Basis Function. Model merupakan abstraksi dari kenyataan. Kenyataan biasa diwakili oleh data. Data dapat dikelompokkan ke dalam data berjenis kualitatif dan data berjenis kuantitatif. Model yang cocok untuk data berjenis kualitatif adalah statistik nonparametrik dan model yang tepat untuk data berjenis kuantitatif adalah statistik parametrik jika tiga syarat terpenuhi yaitu jumlah kasus minimum adalah 30 kasus, memenuhi persyaratan normalitas distribusi data, dan memenuhi persyaratan homogenitas varians. Statistik nonparametrik dipakai jika salah satu dari ketiga persyaratan itu tidak terpenuhi. Penentuan model terbaik biasa dilakukan dengan cara pengujian kecocokan model dalam pengertian kecocokan antara model yang dipilih dan data yang dipakai.
ReplyDeleteSaudari Fitri Vhe, saya menulis Jaringan Saraf : Radial Basis Function, berdasar atas pertanyaan-pertanyaan saudari. Variabel yang dipakai adalah 10 variabel yang terdiri dari variabel nominal, ordinal, dan variabel scale adalah kasus berjumlah 250. Contoh yang disajikan memakai dua cara yaitu cara bahasa perintah atau cara pemrograman dan cara point and click berdasar atas menu SPSS. Contoh ini, mungkin akan memperjelas atau menjawab pertanyaan-pertanyaan anda secara tidak langsung.
pAK aBDULLAH YTH:
ReplyDeletesgt tertarik dengan urian analisis jaringan syaraf menggunakan spss. belum paham tetapi akan sy pelajari dengan baik. sy juga mau nanya apa Pk Abdullah dapat menulis manual program Pajek edisi indonesia??? Atau melakukan pelatihan online...? sy siap ikut dan dikenakan charge.... Makasih Pak (basirpaly@gmail.com.
Ijin nanya. Kalau di Logistic Regression (LR) atau Multiple Discriminant Analysis (MDA), khan ada koefisien nya, sehingga dapat dibuat suatu persamaan. Nah, kalau di Neural Network (NN) bagaimana caranya ya Pak. Terima kasih. (Adipati, Mahasiswa S2 di Indonesian Banking School-Jakarta-Jalan Kemang Raya)
ReplyDelete