DATA CLEANSING, DATA MANIPULATION, DATA WRANGLING
DATA CLEANSING
Apa yang dimaksud dengan data cleansing dan kenapa harus dilakukan ?
Data Cleansing adalah proses mendeteksi , mengoreksi, dan mengidentifikasi data yang tidak lengkap, tidak benar, tidak akurat atau tidak relevan, untuk kemudian dimodifikasi, diganti atau dihapus sesuai dengan kebutuhan.
Faktanya adalah data cleansing adalah salah satu proses yang harus dikuasai oleh seorang analis. selain itu, step ini memakan banyak waktu, sekitar 80% dari keseluruhan proses analisis data.
Penyebab DIRTY DATA
Saat Data Collection :
- Kesalahan dari pengguna
- Pengambilan/Penautan data dari beberapa link
Jadi Apa yang dimaksud dengan DIRTY DATA ?
1. Missing Value : Terdapat informasi yang kosong dalam data
2. Duplicated Data : Terdapat informasi yang sama terinput lebih dari satu kali
3. Incorrect Data : Kesalahan dalam proses pengimputan, data yang bergeser, kolom dan isi tidak sesuai
4. Inconsistent Data : Perbedaan pola penulisan untuk informasi yang sama
5. Kesalahan Format Data : Mengacu pada tipe data dan informasi di dalamnya
6. Kesalahan Ejaan : Penulisan yang tidak sesuai
Kenapa Data Cleansing Sangat Penting ?
HUMAN ERROR - ACCESS DATA - EXPLORE AND PROCESS DATA - EXTRACT INSIGHT - REPORT INSIGHT
INSIGHT SALAH Sama dengan Pengambilan Keputusan Tidak Sesuai
Permasalah Umum yang memerlukan Data Cleansing
1. Missing Value
2. Data yang tidak standard dan normal
3. Duplicate Data
4. Import dan Export Data
Cara menghadapi Missing Value :
A. Menghilangkan atau Menghapus data yang hilang
B. Melakukan inputting value dengan data yang menyerupai, seperti minimum value, maximum value, mean, atau modus
C. Melakukan manual inputting valaue dengan data yang sebenarnya (cara ini membutuhkan high effort untuk mencari data yang hilang tersebut)
D. Menentukan custom value berdasarkan asumsi bisnis yang terjadi
DUPLIKASI DATA terjadi ketika terdapat nilai atau ID yang berulang pada suatu data. Permasalahan duplikasi dapat diselesaikan dengan menghapus row yang sama, sehingga hanya tersisa unique value yang akan di analisa.
APA ITU DATA MANIPULATION ?
Data Manipulation adalah suatu proses manipulasi atau mengubah data agar mudah diorganisasi dan mudah untuk dibaca/dipahami.
PENERAPAN DATA MANIPULATION :
1. Checking and changing Data Types : Mengubah tipe data sesuai dengan kebutuhan. Tipe data: string, float, integer, datetime.
2. Renaming : Mengubah penamaan paling banyak diterapkan dalam pengubahan nama kolom.
3. Replacing : Paling banyak diterapkan untuk mapping data berdasarkan kondisi tertentu atau mengubah format penulisan pada item.
4. Removing Data : Menghilangkan kolom atau baris yang tidak diperlukan.
5. Filtering Data : Memfilter data sesuai dengan kondisi yang dibutuhkan, misalnya berdasarkan kolom atau kondisi/syarat tertentu.
APA ITU DATA WRANGLING ?
Data wrangling adalah kesatuan proses pengolahan suatu data, mulai dari mengumpulkan data, memilih data, kemudian mengubah data untuk menghasilkan analisis yang dapat menjawab permasalahan.
PENERAPAN DATA WRANGLING :
1. Merging : Penggabungan dua atau lebih tabel menjadi satu tabel untuk memudahkan dalam pengolahan data.
2. Grouping : Digunakan untuk agregasi dan mengelompokkan berdasarkan kolom tertentu.
3. Transformation : Proses mengubah format, struktur, atau nilai dari suatu data. Banyak digunakan setting skala data.
4. Data Correlation : Untuk mengetahui seberapa besar hubungan antara dua variabel, apakah dua variabel tersebut memiliki hubungan yang saling berkaitan atau tidak.
Komentar
Posting Komentar