Arsip Tag: Data mining

After Seminar Nasional Ilmu Komputer UNNES 2016 – Data Mining

Big Data tren 2016

by Romi Satria Wahono, M.Eng., Ph.D

Big Data : Big Data adalah merupakan istilah yang digunakan untuk penggunaan data yang sudah mulai meningkat. Dalam big data sendiri, dibagi atas 5 kondisi yang sebaiknya diperhatikan dalam Big Data. Yaitu :

  1. Culture (Budaya)
  2. Mining (Mengambil)
  3. Methods (Metode)
  4. Use Cases (Studi Kasus)
  5. Research (Penelitian)

Culture (Budaya)

                Tren penggunaan data semakin membuktikan bahwa data semakin penting dalam bidang apapun. Bisa kita lihat sendiri bahwa penggunaan data sudah menggunakan data seperti kedokteran, astronomi, Olahraga, ekonomi dan bisnis, dan beberapa bidang lainnya. Contohnya, sebuah survey bidang astronomi yang dilakukan oleh Sloan Digital Sky di New Mexico pada tahun 2000 menunjukkan bahwa penggunaan data pertahunnya adalah 140 TB. Berbeda dengan hasil survey di Chile, yang dilakukan oleh Large Sypnotics Survey Telescope pada 2016. Yang menunjukkan penggunaan data yang sama, namun hanya dalam waktu 5 hari.

                Data survey tersebut juga didukung oleh survey yang dilakukan oleh Excelacom pada 2016 yang menunjukkan penggunaan data setiap 60 detik di berbagai media social seperti berikut :

aghh

Akibat dari banyaknya data yang digunakan, maka muncullah suatu keadaan yang disebut dengan ‘Tsunami Data’. Dimana kita dibanjiri oleh data yang sangat banyak. Sayangnya, Data itu sendiri ternyata tidak memiliki arti sama sekali kecuali diolah. Menurut Cilve Himby, data merupakan minyak mentah baru yang perlu diolah agar menjadi berguna. John Naibett juga menuturkan bahwa saat ini dunia sedang kebanjiran data, namun miskin pengetahuan.

Mining, Metode, dan Teknologi

                Data yang tidak memiliki nilai berarti tersebut harus diolah agar menjadi pengetahuan yang menjadi manfaat bagi orang banyak. Dengan pengetahuan yang ada, maka akan dapat dilakukan beberapa hal seperti prediksi, pengambilan keputusan, pembagian kelompok, dan masih banyak lagi. Untuk menjadikannya suatu pengetahuan, himpunan data yang diperoleh diolah menggunakan metode tertentu sehingga menghasilkan pengetahuan baru.

                Dalam data mining, terdapat 5 metode yang dihasilkan yaitu estimasi, prediksi, klarifikasi, klastering, dan asosiasi. Estimasi merupakan metode untuk mencari prediksi waktu optimal dalam suatu proses. Prediksi berguna untuk mengetahui apa yang akan yang terjadi di masa mendatang. Klarifikasi sendiri pembagian jenis, namun datanya terdiri atas nominal dan numerik. Berbeda dengan Klastering adalah pembagian jenis, namun data yang digunakan numerik. Sedang asosiasi adalah metode guna menentukan jenis sesuatu

Research

Penelitian merupakan hal utama dalam kontribusi dalam ilmu pengetahuan. Hakikatnya, suatu penelitian harus dibukukan menjadi paper dan segera diindekskan supaya tidak ada plagiarism. Khusus di Indonesia sendiri, jumlah seluruh ‘paper’ yang terindeks menurut scimagoJR.com masih kalah disbanding Malaysia, Singapura, dan Vietnam. Bahkan, di peringkat dunia berada di nomor 61. Mengapa hal ini bisa terjadi?

ahhh

 

  1. Big Data Culture

Semakin majunya perkembangan teknologi didunia berpengaruh terhadap produksi manusia akan beragam data yang jumlah dan ukurannya sangat besar. Berbagai macam contohnya dari klimatologi, kedokteran, farmasi, politik, ekonomi, sejarah, astronomi, keuangan, bisnis, kondisi alam, dsb…….

 

  • Pertumbuhan data : data yang telah didapatkan dikumpulkan sebagai data utama dipenyimpanan data kemudian diolah untuk memenuhi kebutuhan – kebutuhan akan

 

Astronomi  menurut survei Sloan Digital Sky Survey, New Mexico, 2000 sebanyak 140TB  lebih dari 10 tahun dan Large Synoptic Survey Telescope, Chile, 2016 yang akan memperoleh 140TB setiap 5 hari.

 

  • Perubahan Kultur dan Perilaku

 

Perubahan tersebut seperti banyaknya data yang masuk melalui media sosial. Media sosial menjadi sumber informasi dan data yang sangat dibutuhkan. Tidak hanya media sosial beragam aplikasi juga menjadi sangat vital dalam pertumbuhan data yang merubah kultur dan perilaku manusia didunia.

 

  • Datangnya Tsunami Data
  1. Image result for kapasitas memori
  2. Google memproses 100 PB per hari, 3 juta server
  3. Facebook memiliki 300 PB dari data pengguna per hari
  4. Youtube punya 1000PB penyimpanan video

Makna dan Nilai Data

Data adalah entitas yang tidak memiliki arti, meskipun kemungkinan memiliki nilai. Menurut pak Romi data seperti minyak mentah yang sangat berharga namun jika tidak diolah sama sekali tidak ada manfaat dan fungsinya. Kita kaya akan data namun kita malah miskin pengetahuan.

 

  1. Big Data Mining

Data harus diolah sedemikian rupa agar menjadi sumber pengetahuan dan juga tercapai tujuan untuk kemanfaatan data bagi manusia.

Data memiliki nilai terendah jika belum bisa menjadi informasi dan sumber pengetahuan. Namun data akan bernilai sangat tinggi jika sudah bisa memberi informasi dan sumber pengetahuan.

Dengan pengetahuan tersebut, maka manusia dapat :

 

  • Melakukan estimasi dan prediksi
    apa yang terjadi di depan
  • Melakukan analisis tentang
    asosiasi, korelasi dan
    pengelompokan antar data dan atribut
  • Membantu pengambilan keputusan dan
    pembuatan kebijakan

 

 

Mining dari Data ke Pengetahuan, Kumpulan data diolah dengan metode data mining dan setelah diolah menjadi sumber informasi dan pengetahuan.

 

Contoh dari proses mining dari data ke pengetahuan adalah :

  • Prediksi Kelulusan Mahasiswa

 

  • Prediksi Calon Legislatif DKI Jakarta

 

  • Para Pebisnis Pengetahuan :

 

Google – perusahaan media / advertising terbesar didunia, tidak menciptakan konten

Gojek – perusahaan angkutan umum, tanpa memiliki kendaraan,

Grab – perusahan angkutan umum yang juga tidak punya armada

 

Evolution of Sciences

  • Before 1600: ilmu empiris
  • 1600-1950s: ilmu teoris

Setiap disiplin telah berkembang komponen teoritis

model teoritis memotivasi percobaan dan generalisasi pemahaman

  • 1950-1990: ilmu Komputasi

Sebagian besar disiplin telah tumbuh sepertiga, cabang komputasi (mis empiris, teoritis, dan ekologi komputasi, atau fisika, atau linguistik.)

ilmu komputasi tradisional berarti simulasi. Ini tumbuh dari ketidakmampuan kita untuk menemukan solusi bentuk tertutup untuk model matematika yang kompleks

  • Ilmu Data: 1990-sekarang

Banjir data dari instrumen ilmiah baru dan simulasi

Kemampuan untuk ekonomi menyimpan dan mengelola petabyte data online

Internet membuat semua arsip tersebut diakses secara universal

Data mining adalah tantangan baru yang besar

 

  1. Big Data Methods and Technologies

 

Data Mining Methods

 

  1. Estimasi : Estimasi (perkiraan) adalah sebuah proses pengulangan
  2. Prediksi : hasil dari kegiatan memprediksi atau meramal atau memperkirakan.
  3. Klasifikasi : penyusunan bersistem dalam kelompok atau golongan menurut kaidah atau standar yang ditetapkan;
  4. Klastering : Metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke ‘wilayah’ yang lain.
  5. Asosiasi : Asosiasi atau perkumpulan adalah suatu kehidupan bersama antar individu dalam suatu ikatan

Dataset (Himpunan Data)

  1. Estimasi Waktu Pengiriman Pizza
  2. Prediksi Harga Saham
  3. Klasifikasi Kelulusan Mahasiswa
  • Pengetahuan Berupa Pohon Keputusan
  • Klasifikasi Sentimen Analisis
  1. Klastering Bunga Iris
  • Pengetahuan Berupa Klaster
  • Klastering Jenis Pelanggan
  1. Aturan Asosiasi Pembelian Barang
  • Pengetahuan Berupa Aturan Asosiasi
  • Aturan Asosiasi di Amazon.com

 

  1. Big Data Use Cases
  2. Private and Commercial Sector :
  3. Pemasaran: rekomendasi produk, analisis keranjang pasar, penargetan produk, retensi pelanggan
  4. Keuangan: dukungan investasi, manajemen portofolio, peramalan harga
  5. Keamanan: deteksi penipuan, kontrol akses, deteksi intrusi, deteksi virus
  6. Web dan Internet: mesin pencari cerdas, pemasaran web

 

Contoh Big Data Use Cases pada Sektor Kerahasiaan dan Komersial:

 

  1.  Use Case: Product Recommendation
  2. Use Case: Penentuan Kelayakan Kredit
  3. Use Case: Software Fault Prediction

 

  1. Public and Government Sector :
  • Keuangan: tingkat peramalan tukar, analisis sentimen
  • Perpajakan: pemantauan adaptif, deteksi penipuan
  • Kedokteran dan Healt Care: hipotesis penemuan, prediksi penyakit dan klasifikasi, diagnosis medis
  • Pendidikan: Alokasi mahasiswa, peramalan sumber daya
  • Analisis kompensasi pekerja: Asuransi
  • Keamanan: bom, deteksi gunung es
  • Transportasi: simulasi dan analisis, estimasi beban
  • Hukum: analisis paten hukum, hukum dan aturan analisis
  • Politik: prediksi pemilu

Contoh Big Data Use Cases Pada Sektor Pemerintah dan Publik :

 

Use Case: Deteksi Pencucian Uang

Use Case: Prediksi Kebakaran Hutan

Use Case: Prediksi Koruptor

 

 

  1. Big Data Research

Mengapa Melakukan Publikasi Ilmiah?

Statistik Jumlah Publikasi menurut (ScimagoJR.Com) Indonesia masih berada jauh dibawah Singapura bahkan Malaysia dari tahun ketahun.

 

Rangking Publikasi Ilmiah menurut (ScimagoJR.Com) Indonesia berada pada urutan ke 61 dunia. Dengan total papers 20.166 dokumen.

 

Mengapa Indonesia Sedikit Publikasi?

  • Budaya Indonesia adalah lisan dan bukan tulisan
  • Budaya akademik di Indonesia baru mulai untuk mengajar, dan bukan untuk meneliti
  • Rendahnya minat penelitian dan mempublikasikan hasil penelitian
  • Kurangnya penghargaan dan insentif dari universitas
  • Kurang mengerti bagaimana cara menulis paper untuk jurnal dan prosedur pengirimannya
  • Tidak memahami metodologi penelitian dengan baik

 

Apa Yang Dikejar di Penelitian?

Research is a considered activity, which aims to make an original contribution to knowledge (Dawson, 2009)

  • Original Contribution: Kontribusi Orisinil
  • To Knowlegde: Untuk Pengetahuan

 

 

Penelitian Yang Memiliki Kontribusi?

  • Penerapan algoritma genetika untuk penjadwalan mata kuliah (salah)
    • Penerapan algoritma genetika berbasis guided local search strategies untuk penjadwalan mata kuliah
      (Yang, 2011) ( benar )

 

  • Penerapan algoritma C4.5 untuk penentuan kelulusan mahasiswa tepat waktu: Studi Kasus STMIK XYZ (salah)
  • Penerapan algoritma C4.5 dengan penghitungan entropi berbasis metode ABC untuk penentuan kelulusan mahasiswa tepat waktu ( benar )

 

Hanya penelitian dengan kontribusi ke pengetahuan yang bisa menembus jurnal-jurnal internasional terindeks

 

 

Level Indexing untuk Publikasi Penelitian

  1. [HIGH] Thomson Reuters Web of Science
  • Since 1963, formerly produced by ISI, 12032 journals are indexed
  • Pengindeks journal yang memiliki level paling baik
  • https://wokinfo.com
  1. [MEDIUM] Scopus
  • Launched by Elsevier in 2004, 20000 journals, conference papers and other are indexed
  • Pengindeks journal level standard, biasa untuk syarat menyelesaikan PhD
  • https://scopus.com
  1. [LOW] Google Scholar
  • Launched in 2004, mengindeks semua publikasi ilmiah yang online

 

* Organisasi pengindeks journal selain di atas (EBSCO, DBLP, ProQuest, dsb), boleh dikatakan selevel dengan Google Scholar

Tentang Romi Satria Wahono, M.Eng., Ph.D

Lahir di Madiun 1974

  • SMA Taruna Nusantara Magelang (1993)
  • Eng, M.Eng and Ph.D in Software Engineering
    Saitama University Japan (1994-2004)
    Universiti Teknikal Malaysia Melaka (2014)
  • Research Interests in Software Engineering and
    Machine Learning
  • LIPI Researcher (2004-2007)
  • Professional Member of IEEE, ACM and PMI
  • IT Award Winners from WSIS (United Nations), LIPI, Kemdikbud, Pustekkom, etc
  • Industrial IT Certs and Partners (TOGAF, ITIL, CCNA, ISACA, RapidMiner, Bizagi, etc)
  • Founder and CEO:
    • PT IlmuKomputerCom Braindevs Sistema
    • PT Brainmatics Cipta Informatika