Sabtu, 07 April 2018

Konsep Data Mining

Penerapan Data Mining Dalam Pengumpulan Data di Rumah Sakit



Tahapan - tahapan Knowledge Discovery in Database (KDD)


  • KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data. 
  • Knowledge discovery in databases (KDD) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti.

Tahapan Proses KDD


1. Data Selection
  • Menciptakan himpunan data target , pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan. 
  • Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing/ Cleaning 
  • Pemprosesan pendahuluan dan pembersihan data merupakan operasi dasar seperti penghapusan noise dilakukan. 
  • Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. 
  • Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). 
  • Dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

3. Transformation
  • Pencarian fitur-fitur yang berguna untuk mempresentasikan data bergantung kepada goal yang ingin dicapai.
  • Merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses ini merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data

4. Data mining
  • Pemilihan tugas data mining; pemilihan goal dari proses KDD misalnya klasifikasi, regresi, clustering, dll. 
  • Pemilihan algoritma data mining untuk pencarian (searching) 
  • Proses Data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation/ Evaluation
  • Penerjemahan pola-pola yang dihasilkan dari data mining. 
  • Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah mimengerti oleh pihak yang berkepentingan. 
  • Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
Macam - Macam Algoritma Classification


Algoritma Decision Tree

Decision Tree (Pohon Keputusan) merupakan teknik paling mudah untuk dipahami dalam mengklasifikasi data.
Decision Tree memiliki:
1.             Akar dan setiap node internalnya memiliki pertanyaan.
2.             Cabang merepresentasikan setiap kemungkinan jawaban untuk dikaitkan dengan pertanyaan
3.             Setiap leaf node merepresentasikan prediksi jawaban dari masalah
Leaf node menunjukkan kelas untuk tuple yang sesuai. Tuple merupakan sekumpulan urutan elemen yang nilainya bukan integer negatif.
Decision Tree memiliki tiga bagian:

1.             Decision Tree
2.             Algoritma untuk membuat Decision Tree
3.             Algoritma yang menerapkan tree menjadi data

 Algoritma Pohon Keputusan :
Input:
 T = Decision Tree
 D = Input Database
Output:
 M = Prediksi Model
Proses:
 t = prediksi
arc = cabang
For each t element D do
  n = root node of T;
  while n not leaf node do
    Dapatkan jawaban dari pertanyaan n lalu taruh pada t;
    If arc from t berisi jawaban benar
      n = node berakhir pada cabang ini;
    Buat prediksi ulang untuk t selanjutnya berdasarkan label terakhir;

Algoritma Naive Bayes

1. Konsep Naive Bayes

Simple naive Bayesian classifiermerupakan salah satu metode pengklasifikasi berpeluang sederhana yang berdasarkan pada penerapan Teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen).Algoritma ini memanfaatkan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman di masa sebelumnya. Dua kelompok peneliti, satu oleh Pantel dan Lin, dan yang lain oleh Microsoft Research memperkenalkan metode statistik Bayesian ini pada teknologi anti spam filter. Tetapi yang membuat algoritma Bayesian filtering ini popular adalah pendekatan yang dilakukan oleh Paul Graham. Dasar dari teorema naive digunakan dalam pemrograman adalah rumus Bayes berikut ini:

P (A|B) = (P(B|A) * P(A))/P(B)

Artinya Peluang kejadian A sebagai B ditentukan dari peluang B saat A, peluang A, dan peluang B.


2. Penggunaan Naive Bayes

Contoh penggunaan Algoritma Naive Bayes antara lain:

Untuk klasifikasi Dokumen

Untuk deteksi SPAM atau fitering SPAM Dan masalah klasifikasi lainnya

3.     Algoritma Naive Bayes

Teorema Bayes:

P(C|X) = P(X|C)·P(C) / P(X)

Dimana :

P(X) bernilai konstan utk semua klas

P(C) merupakan frek relatif sample klas C

Dicari P(C|X) bernilai maksimum, sama halnya dengan P(X|C)·P(C) juga bernilai maksimum

Masalah à menghitung P(X|C) tidak mungkin

ü  Apabila diberikan k atribut yang saling bebas (independence), nilai probabilitas dapat diberikan sebagai berikut.
P(x1,…,xk|C) = P(x1|C) x … x P(xk|C)

ü  Jika atribut ke-i bersifat diskret, maka P(xi|C) diestimasi sebagai frekwensi relatif dari sampel yang memiliki nilai xi sebagai atribut ke i dalam kelas C.
ü  Namun jika atribut ke-i bersifat kontinu, maka P(xi|C) diestimasi dengan fungsi densitas Gauss.

1
x
2
(x)
e
2  2
 2

dengan  = mean, dan  = deviasi standar.


Algoritma Logistic Regression

Regresi logistic merupakan salah satu analisi multivariate, yang berguna untuk memprediksi dependent variabel berdasarkan variabel independen.
Data
Pada logistic regresi, dependen variabel adalah variabel dikotomi (kategori). Ketika kategori variabel dependennya berjumlah dua kategori maka digunakan binary logistic, dan ketika dependen variabelnya lebih dari dua kategori maka digunakan multinominal logistic regression. Lalu ketika dependen variabelnya berbentuk ranking, maka disebut dengan ordinal logistic regression.
Konsep Regresi Logistik
Regresi logistik merupakan alternative uji jika asumsi multivariate normal distribution pada variabel bebasnya tidak bisa terpenuhi ketika akan dilakukan analisis diskriminan. Tidak terpenuhinya asumsi ini dikarenakan variabel bebas merupakan campuran antara variabel kontinyu (metric) dan kategorial (non metric). Misalnya, probabilitas bahwa orang yang menderita serangan jantung pada waktu tertentu dapat diprediksi dari informasi usia, kebiasaan merokok, jenis kelamin, dan lainnya.
Asumsi Regresi Logistik
· Regresi logistik tidak membutuhkan hubungan linier antara variabel bebas dengan
   variabel terikat.
· Regresi logistik dapat menyeleksi hubungan karena menggunakan pendekatan non
  linier log transformasi untuk memprediksi odds ratio. Odd dalam regresi logistik sering
  dinyatakan sebagai probabilitas. Misal Odd sebuah perusahaan dapat bangkrut atau
  berhasil atau odd seorang anak dapat lulus atau tidak pada Ujian Nasional.
·  Variabel bebas tidak memerlukan asumsi multivariate normality
·  Asumsi homokedastis tidak diperlukan
·  Variabel bebas tidak perlu dirubah ke bentuk metric (interval atau skala ratio)

 Algoritma Support Vector Machine


Support Vector Machine (SVM) adalah salah satu metode PR yang akhir-akhir ini banyak mendapat perhatian. Support Vector Machine (SVM) dikembangkan oleh Boser, Guyon, Vapnik, dan pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on Computational Learning Theory. Konsep dasar SVM sebenarnya merupakan kombinasi harmonis dari teori teor ikomputasi yang telah ada puluhan tahun sebelumnya, seperti margin hyperplane (Duda & Hart tahun 1973, Cover tahun 1965, Vapnik 1964, dsb.), kernel diperkenalkan oleh Aronszajn tahun 1950, dan demikian juga dengan konsep-konsep pendukung yang lain. Akan tetapi hingga tahun 1992, belum pernah ada upaya merangkaikan komponen – komponen tersebut. Prinsip dasar SVM adalah linear classifier, dan selanjutnya dikembangkan agar dapat bekerja pada problem non-linear. dengan memasukkan konsep kernel trick pada ruang kerja berdimensi tinggi.

(SVM ) juga dikenal sebagai teknik pembelajaranmesin (machine learning) paling mutakhir setelah pembelajaran mesin sebelumnya yang dikenal sebagai  Neural  Network ( NN). Baik SVM maupun NN tersebut telah berhasil digunakan dalam pengenalan pola. Pembelajaran dilakukan dengan menggunakan pasangan data input dan data output berupa sasaran yang diinginkan. Pembelajaran dengan cara ini disebut dengan pembelajaran terarah (supervised learning). Dengan pembelajaran terarah ini akan diperoleh fungsi yang menggambarkan bentuk ketergantungan input dan outputnya.  Selanjutnya, diharapkan fungsi yang diperoleh mempunyai kemampuan generalisasi yang baik, dalam arti bahwa fungsi tersebut dapat digunakan untuk data input di luar data pembelajaran. 

Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada input space. Gambar 1a memperlihatkan beberapa pattern yang merupakan anggota dari dua buah class : positif (dinotasikan dengan +1) dan negatif (dinotasikan dengan –1). Pattern yang tergabung pada class negatif disimbolkan dengan kotak, sedangkan pattern pada class positif, disimbolkan dengan lingkaran. Proses pembelajaran dalam problem klasifikasi diterjemahkan sebagai upaya menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut. 


Berbagai alternatif garis pemisah (discrimination boundaries) ditunjukkan pada Gambar 1a. Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukur margin hyperplane tsb. dan mencari titik maksimalnya. Margin adalah jarak antara hyperplane tersebut dengan data terdekat dari masing-masing class. Subset data training set yang paling dekat ini disebut sebagai support vector Garis solid pada Gambar 1b menunjukkan hyperplane yang terbaik, yaitu yang terletak tepat pada tengah-tengah kedua class, sedangkan titik kotak dan lingkaran yang berada dalam lingkaran hitam adalah support vector. Upaya mencari lokasi hyperplane optimal ini merupakan inti dari proses pembelajaran pada SVMD data yang tersedia dinotasikan sebagai sedangkan label masing-masing dinotasikan untuk i= 1,2,…,l, yang mana l adalah banyaknya data. Diasumsikan kedua class – 1 dan +1 dapat terpisah secara sempurna oleh hyperplane berdimensi d, yang didefinisikan: Sebuah pattern yang termasuk class –1 (sampel negatif) dapat dirumuskan sebagai pattern yang memenuhi pertidaksamaan: sedangkan pattern yang termasuk class +1 (sampel positif):

CONTOH KASUS


Sebuah rumah sakit ingin ingin menekan  biaya perawatan pasien tanpa mengurangi kualitas pelayanan. Salahsatu potensi yang dapat dimanfaatkan pada penerapan data mining di rumah sakit adalah mengidentifikasi atribut-atribut penentu biaya pasien rawat inap. Dengan mengetahui atribut penentu biaya rawat, diharapkan pihak manajemen rumah sakit dapat melakukan kontrol terhadap biaya, sehingga ongkos perawatan pasien dapat ditekan tanpa mengurangi kualitas pelayanan.
Untuk mengidentifikasi atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 daridatabase SIMRS sebanyak 2022 kunjungan (jumlah sebelum dilakukan data cleaning 8383). Dengan teknik analisa Atttibute Importance (AI) didapatkan atribut-atribut penentu biaya dengan urutan sebagai berikut: prosedur medis 1 (AI=0,16), prosedur medis 4 (AI=0,15), prosedur medis 3 (AI=0,14), LOS (AI=0,13), prosedur medis 2 (AI=0,13), organisasi (AI=0.10), diagnosa utama (AI=0,08), jenis kelamin (AI=0.02) dan status kawin (AI=0.01). Hasil klasifikasi dengan teknik Algoritma Naive Bayes menunjukkan model yang dibuat memiliki predictive confidence sebesar 50,41%.

Data
Untuk mengidentifikasi atribut-atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 yang diambil dari database SIMRS sebanyak 8383 kunjungan pasien. Setelah dilakukan data cleaning, didapatkan 2022 kunjungan pasien yang layak untuk dianalisa.

Perangkat Lunak
Untuk analisa data mining digunakan perangkat lunak Oracle Data Miner dan database Oracle 11g.

Metode & Teknik
Atribute Importance (AI)
Attribute Importance (AI) memberi peringkat atribut dengan menghilangkan atribut yang berulang, tidak relevan, atau tidak informatif dan mengidentifikasi atribut yang mungkin memiliki pengaruh yang paling tinggi dalam membuat prediksi.




AI menggunakan algoritma Minimum Description Length (MDL). Algoritma MDL mempertimbangkan setiap atribut sebagai model prediktif sederhana dari kelas target. Teknik AI digunakan untuk mengoptimalkan analisa model classification dengan mengurangi atribut yang digunakan dan akan meningkatkan kecepatan dan akurasi saat membangun model.

Data Scoring

Setelah model dibuat dengan aplikasi data mining, model tersebut bisa digunakan untuk membuat prediksi dari data baru yang dalam hal ini diterapkan untuk memprediksi pola biaya data kunjungan pasien. Model biasanya dibuat dengan menggunakan data historis dari kunjungan pasien sebelumnya.
Prosesnya dapat digambarkan sebagai berikut:


Teknik Data Mining
4.1  Persiapan Data
Sebelum dilakukan teknik data mining dilakukan eksplorasi data untuk mengetahui distribusi data pasien berdasarkan atribut tertentu (misal: distribusi pasien berdasar umur) dan juga untuk mengidentifikasi data yang tidak normal (outliers). Data divisualisasikan dalam bentuk histogram. Beberapa histogram profil kunjungan pasien ditampilkan sebagai berikut :


                                           Distribusi berdasarkan Gender


                                           Distribusi berdasarkan Umur


                                  Distribusi berdasarkan Unit Kunjungan

Keterangan Gambar  :
178 = A - Penyakit Dalam      105 = A - Onkologi Obgin
108 = A – Bedah                    121 = Kebidanan (IGD)
173 = A - Bedah LT 4             113 = A - Obgin
176 = A - Mata                       175 = A - THT
109 = A – Neurologi               101 = PJT - Intermediate Ward Lt. 4


                                 Distribusi berdasarkan Status Kematian


                                     Distribusi berdasartkan Length of Stay


Dalam studi ini data kunjungan pasien di RSCM akan diamati atribut-atribut yang akan mempengaruhi pola biaya pasien yang dirawat di RSCM. Untuk biaya di buat skala RENDAH, SEDANG dan TINGGI. Dengan aturan sebagai berikut :

Jika Biaya Tagihan < 10 juta Maka Pola biaya RENDAH.
Jika Biaya Tagihan >10 juta dan < 50 juta maka biaya SEDANG.
Sedangkan jika Biaya tagihan > 10 juta maka pola biaya TINGGI.

Permasalahan pada data yang memiliki banyak atribut seperti data rekam medis pasien adalah tidak semua data akan berkontribusi jika diterapkan model prediktif, bahkan beberapa atribut cenderung mengaburkan hasil (noise). Teknik Attribute Importance (AI) digunakan untuk mengidentifikasi indikator yang paling berpengaruh terhadap pasien dengan pola biaya tinggi atau rendah. Setelah dianalisa menggunakan teknik Attribute Importance (AI), data akan dianalisa menggunakan teknik klasifikasi menggunakan Algoritma Naïve Bayes yang kemudian akan digunakan untuk melakukan scoring terhadap kasus kunjungan pasien.


Sumber : http://www.sigitprabowo.id/2013/04/data-mining-tahap-tahapan-knowladge.html
               http://fazri-indop.blogspot.co.id/2012/03/contoh-kasus-data-mining.html

Tidak ada komentar:

Posting Komentar