DATA CLEANSING, DATA MANIPULATION, DATA WRANGLING


DATA CLEANSING 

Apa yang dimaksud dengan data cleansing dan kenapa harus dilakukan ?

Data Cleansing adalah proses mendeteksi , mengoreksi, dan mengidentifikasi data yang tidak lengkap, tidak benar, tidak akurat atau tidak relevan, untuk kemudian dimodifikasi, diganti atau dihapus sesuai dengan kebutuhan.

Faktanya adalah data cleansing adalah salah satu proses yang harus dikuasai oleh seorang analis. selain itu, step ini memakan banyak waktu, sekitar 80% dari keseluruhan proses analisis data.


Penyebab DIRTY DATA 

Saat Data Collection : 

- Kesalahan dari pengguna 

- Pengambilan/Penautan data dari beberapa link 


Jadi Apa yang dimaksud dengan DIRTY DATA ?

1. Missing Value  : Terdapat informasi yang kosong dalam data

2. Duplicated Data   : Terdapat informasi yang sama terinput lebih dari satu kali

3. Incorrect Data  : Kesalahan dalam proses pengimputan, data yang bergeser, kolom dan isi tidak sesuai

4. Inconsistent Data  : Perbedaan pola penulisan untuk informasi yang sama 

5. Kesalahan Format Data : Mengacu pada tipe data dan informasi di dalamnya 

6. Kesalahan Ejaan : Penulisan yang tidak sesuai 


Kenapa Data Cleansing Sangat Penting ?

HUMAN ERROR - ACCESS DATA - EXPLORE AND PROCESS DATA - EXTRACT INSIGHT - REPORT INSIGHT 

INSIGHT SALAH   Sama dengan Pengambilan Keputusan Tidak Sesuai 


Permasalah Umum yang memerlukan Data Cleansing 

1. Missing Value 

2. Data yang tidak standard dan normal 

3. Duplicate Data 

4. Import dan Export Data 


Cara menghadapi Missing Value : 

A. Menghilangkan atau Menghapus data yang hilang

B. Melakukan inputting value dengan data yang menyerupai, seperti minimum value, maximum value,        mean, atau modus

C. Melakukan manual inputting  valaue dengan data yang sebenarnya (cara ini membutuhkan high              effort untuk mencari data yang hilang tersebut)

D. Menentukan custom value berdasarkan asumsi bisnis yang terjadi 


DUPLIKASI DATA terjadi ketika terdapat nilai atau ID yang berulang pada suatu data. Permasalahan duplikasi dapat diselesaikan dengan menghapus row yang sama, sehingga hanya tersisa unique value yang akan di analisa.


APA ITU DATA MANIPULATION ?

Data Manipulation adalah suatu proses manipulasi atau mengubah data agar mudah diorganisasi dan mudah untuk dibaca/dipahami.


PENERAPAN DATA MANIPULATION :

1. Checking and changing Data Types : Mengubah tipe data sesuai dengan kebutuhan. Tipe data: string, float, integer, datetime.

2. Renaming    Mengubah penamaan paling banyak diterapkan dalam  pengubahan nama kolom.

3. Replacing   Paling banyak diterapkan untuk mapping data berdasarkan                                                                         kondisi tertentu atau mengubah format penulisan pada item.

4. Removing Data   Menghilangkan kolom atau baris yang tidak diperlukan.

5. Filtering Data    Memfilter data sesuai dengan kondisi yang dibutuhkan,  misalnya berdasarkan kolom atau kondisi/syarat tertentu.


APA ITU DATA WRANGLING ?

Data wrangling adalah kesatuan proses pengolahan suatu data, mulai dari mengumpulkan data, memilih data, kemudian mengubah data untuk menghasilkan analisis yang dapat menjawab permasalahan.


PENERAPAN DATA WRANGLING : 

1. Merging  : Penggabungan dua atau lebih tabel menjadi satu tabel untuk memudahkan dalam pengolahan data.

2. Grouping  : Digunakan untuk agregasi dan mengelompokkan berdasarkan kolom tertentu.

3. Transformation  Proses mengubah format, struktur, atau nilai dari suatu data. Banyak digunakan   setting skala data.

4. Data Correlation  : Untuk mengetahui seberapa besar hubungan antara dua variabel, apakah   dua variabel tersebut memiliki hubungan yang saling berkaitan atau tidak.




Komentar

Postingan populer dari blog ini

HOW TO HANDLING OUTLIER