APA SIH PENGERTIAN METODOLOGI DATA SCIENCE?

Pada blogger kali ini kita akan membahas tentang Metodologi Data Science. Penasaran? Yuk disimak!

Dalam menyelesaikan masalah pekerjaaan, tentu kita memerlukan tahapan-tahapan atau alur dalam mengerjakan suatu projek. Hal itu tentunya memerlukan step serta alur bagaimana cara kita bisa menyelesaikan suatu projek dengan baik. Sama halnya dalam mengerjakan metodologi data science, ada beberapa step yang kita perlukan dalam mengerjakan metodologi data science dari awal hingga akhir.

Terlepas dari itu semua, yang paling utama adalah memahami pengertian terlebih dahulu. Berikut pengertian serta uraian tentang Metodologi Data Science :

A. Pengertian Metodologi Data Science

Metodologi data science adalah langkah-langkah yang digunakan dalam proyek mengerjakan data science agar dapat menghasilkan hasil yang relevan dan dapat menjawab pertanyaan dari suatu masalah yang ingin diselesaikan. 

B. Tujuan Metodologi Data Science

Tujuan Metodologi data science adalah untuk memastikan bahwa data yang akan digunakan dalam membantu memecahkan suatu masalah adalah relevan, yang berarti data tersebut harus jelas asal sumbernya.

C. Membangun Metodologi Data Science

Untuk membangun metodologi data science, dapat mengajukan beberapa pertanyaan seperti berikut :

Dari masalah ke pendekatan:

Bekerja dengan data:

Mencari jawabannya:


D. Alur Kerja Data Scientists 

  1. Business Understanding

Seorang ilmuwan data mulai menghabiskan waktu mencari penjelasan untuk mencapai apa yang disebut wawasan bisnis. Karena ketika kita mendapatkan kejelasan tentang masalah yang akan dipecahkan, kita dapat menentukan data apa yang akan digunakan untuk menjawab pertanyaan awal.

Sebagai praktisi data, kita perlu memahami apakah tujuannya adalah untuk membuat operasi menjadi lebih efisien? Atau menambahkan aktivitas tertentu? Setelah tujuan ditetapkan, langkah selanjutnya adalah mencari tahu apa yang dapat mendukung tujuan tersebut. 

    2. Analytic Understanding

Berdasarkan pemahaman bisnis sebelumnya, kita harus memutuskan pendekatan analitis mana yang harus diikuti, yaitu:


Jika pertanyaan adalah untuk menentukan probabilitas :
  • Gunakan model prediktif
Jika pertanyaan adalah menunjukan hubungan :
  • Gunakan model deskriptif
Jika pertanyaan membutuhkan jawaban ya atau tidak :
  • Gunakan model klarifikasi
Analisis statistik berlaku untuk masalah yang membutuhkan hitungan. Jika pertanyaan membutuhkan jawaban ya/tidak, maka pendekatan klasifikasi untuk memprediksi respons akan sesuai.


Model prediktif :
  • Untuk memprediksi selamat atau mati

Decision tree classification :
  • Hasil kategoris
  • Eksplisit "decision path" menunjukkan kondisi yang mengarah ke resiko tinggi.
  • Kemungkinan hasil yang di klasifikasikan
  • Mudah dipahami dan diterapkan
    3. Data Requirements
Metode analisis yang dipilih sebelumnya menentukan konten, bentuk, dan sumber data yang akan dikumpulkan. Selama proses permintaan informasi kita harus menemukan jawaban atas pertanyaan seperti apa, dimana, kapan, mengapa, bagaimana, siapa. Misalkan Vice President ingin menganalisis apotek potensial untuk membeli produk kita dan membayar tagihan tepat waktu. Ini mengamankan arus kas perusahaan selama pandemi. Sebagai ilmuwan data, kita perlu mengidentifikasi :  
  • Data mana yang diperlukan?
  • Bagaimana cara mengumpulkan data?
  • Bagaimana memahami alur kerja transaksi?
  • Bagaimana mempersiapkan data untuk memenuhi hasil yang diinginkan?
Ketersediaan sumber data :
  • Nama dan lokasi apotek
  • Transaksi obat
  • Memesan barang
  • Kategorisasi pembayaran
    4. Data Collection

Data yang dikumpulkan dapat diperoleh dalam format acak. Jadi, sesuai dengan pendekatan yang dipilih dan output yang akan diperoleh, data yang dikumpulkan harus divalidasi. Dengan demikian, jika diperlukan, seseorang dapat mengumpulkan lebih banyak data atau membuang data yang tidak relevan.

Pada tahap ini, Data Scientist dapat mengumpulkan data dari database di back office atau dari platform seperti Google Analytics. Dari kasus pembayaran pada Data Requirements, Data Scientist harus melaporkan ke Vice President dimana sebagian big data bisa dikumpulkan?  ”Back office”. Terkadang data dikumpulkan dari satu tabel ke tabel lain, biasanya disebut Marging Data.

Berikut beberapa tools Data Collection :

    5. Data Understanding

Pada dasarnya, pada tahap ini data scientist akan menjawab pertanyaan “Apakah data yang kami kumpulkan mewakili masalah yang akan dipecahkan?”. Statistik perlu digunakan untuk memastikan apakah ada nilai yang hilang atau tidak. Terkadang nilai yang hilang bisa berarti “0” atau “tidak” atau bahkan “tidak diketahui”.

Ada outlier dalam data ini.
Apa yang harus dilakukan oleh peneliti data?

    6. Data Preparation
Data preparation mirip dengan mencuci sayuran segar sejauh elemen yang tidak diinginkan. Tahap ini memakan waktu paling lama, yaitu sekitar 70–80% dari keseluruhan proses dalam sebuah proyek data science.
    7. Modelling

Pada tahap ini Data Scientist menentukan apakah data yang disiapkan sudah sesuai atau membutuhkan lebih banyak finishing dan bumbu. Ilmuwan data memiliki kesempatan untuk mengambil sampel data dan fokus pada pengembangan model deskriptif atau prediktif. Berikut adalah alur kerja analisis deskriptif dan prediktif:


    8. Evaluation

Evaluasi model dilakukan selama proses pengembangan model. Di sini Data Scientist memeriksa kualitas model apakah memenuhi persyaratan yang diberikan oleh stakeholder atau tidak. Tahap ini akan menjalani dua tahap pengukuran, yaitu :


    
    9. Deployment

Setelah Peneliti Data mendapatkan model terbaik untuk pemecahan masalah bisnis, akan bermanfaat jika stakeholder dapat menggunakannya. Oleh karena itu, tahap setelah evaluasi adalah implementasi dan pengujian akhir. Pada tahap ini, Data Scientist akan bekerja sama dengan para backend dan frontend engineer untuk mengimplementasikan model yang telah dibuat agar mudah digunakan oleh para stakeholder.

    10. Feedback

Setelah proses implementasi model, para pemangku kepentingan menerima umpan balik tentang fungsionalitas model. Dengan menganalisis umpan balik, ilmuwan data dapat menyempurnakan model dan meningkatkan akurasi dan kegunaannya.  










    Komentar

    Postingan Populer