Analisis data (data analysis) mencakup semua teknik dan proses yang digunakan dalam mengekstraksi informasi dari data mentah. Karena data mentah biasanya bentuknya tidak terstruktur, dan hampir tidak informatif, sehingga kebutuhan untuk mengatur data tersebut menjadi lebih penting.
Meskipun ada banyak tool lain yang dapat digunakan untuk menangani analisis data yaitu Microsoft Excel, bahasa R, SQL, dll., Sebagian besar ilmuwan data lebih suka menggunakan Python karena library Python atau toolbox dan dukungan paket untuk analisis data yang begitu luas tersedia.
Library Python untuk Analisis Data
Library paling populer yang digunakan untuk data analysis adalah NumPy dan Pandas [1].
NumPy (Numerical Python)
NumPy adalah paket toolbox Python yang mendukung operasi vektor dan matriks. Ini adalah library Python yang sangat populer untuk pemrograman ilmiah, matematika, dan teknik; terutama untuk permasalahan aljabar linier. Untuk sebagian besar, data numerik dapat disederhanakan menjadi array (vektor atau matriks, bergantung pada dimensinya), dan inilah mengapa NumPy sama-sama berguna dalam manipulasi dan organisasi data.
Pandas (Python Data Analysis)
Pandas adalah library Python yang diturunkan dari kemampuan NumPy. Pandas mendukung pembersihan dan persiapan data (data preprocessing), dengan kemampuan analisis cepat. Panda lebih seperti sebagai spreadsheet atau Microsoft excel tetapi dengan Python. Tidak seperti NumPy, ia memiliki fitur visualisasi bawaannya sendiri dan dapat bekerja dengan data dari berbagai sumber. Ini adalah salah satu paket paling serbaguna untuk data science dengan Python.
Library Python untuk Visualisasi Data
Visualisasi data (data visualization) dapat digambarkan sebagai serangkaian cara yang digunakan untuk menganalisis data, yaitu menampilkan informasi. Kadang-kadang, data yang dianalisis dengan baik pun sekilas tidak cukup informatif. Dengan visualisasi data, yang mencakup grafik garis, diagram batang, piktogram, dll. hasil / analisis yang disajikan menjadi kurang abstrak bagi pengguna akhir.
Library yang digunakan untuk menampilkan hasil analisis dapat memakai framework Matplotlib, Seaborn dan Pandas.
Matplotlib
Matplotlib adalah library python untuk menghasilkan plot 2D berkualitas tinggi. Bagi mereka yang memiliki pengalaman MATLAB, teknik plotting dan visualisasi di sini akan terasa familiar. Matplotlib menawarkan banyak fleksibilitas dengan plot grafik, dalam hal kontrol atas hal-hal seperti sumbu aksis, font, gaya dan ukuran garis, dll.
Namun, semua ini memerlukan penulisan baris kode tambahan. Jadi, jika Anda tidak keberatan bekerja ekstra (dengan mengetik kode) untuk menentukan plot Anda sepenuhnya, maka matplotlib adalah pilihan tepat. Untuk informasi tambahan tentang paket library ini, kunjungi halaman resmi di https://www.matplotlib.org
Seaborn
Seaborn adalah library visualisasi data lain yang memperluas jangkauan grafis pustaka matplotlib. Banyak metode dari matplotlib yang dapat diterapkan di sini, untuk menyesuaikan plot. Namun, ini menghasilkan plot dinamis berkualitas tinggi dengan lebih sedikit baris kode.
Seaborn lebih dioptimalkan untuk merencanakan tren dalam kumpulan data karena Seaborn telah dimuat sebelumnya dengan beberapa kumpulan data (dapat memanggil dan memuat kumpulan data tertentu dari repositori online-nya).
Pandas
Nah, kita ketemu Pandas lagi. Library ini juga memiliki beberapa kemampuan visualisasi yang sangat fungsional. Cukup intuitif pada saat menggunakan opsi visualisasi bawaan ini saat bekerja dengan Pandas, kecuali jika diperlukan kustomisasi yang lebih khusus.
Contoh Data Analysis, Data Visualization dalam Python
Data Analysis dengan Python
Masuk saja ke Google Colabs, lalu tuliskan kode berikut ini dan lihat outputnya di bawah. Ini adalah contoh analisis data menggunakan library NumPy Python:
import numpy as np arr = np.array( [[ 1, 2, 3],[ 4, 2, 5]] ) print("Array is of type: ", type(arr)) # Printing type of arr object print("No. of dimensions: ", arr.ndim) # Printing array dimensions (axes) print("Shape of array: ", arr.shape) # Printing shape of array print("Size of array: ", arr.size) # Printing size (total number of elements) of array print("Array stores elements of type: ", arr.dtype) # Printing type of elements in array
Output:
Data Visualization dengan Python
from matplotlib import pyplot as plt x = [5, 2, 9, 4, 7] y = [10, 5, 8, 4, 2] plt.bar(x,y) plt.show()
Output:
Referensi
- Williams, Ethan. Python for Data Science: The Ultimate Beginners’ Guide to Learning Python Data Science Step by Step, 2019.