Pengantar Machine Learning (Pembelajaran Mesin)

Diposting pada

Pembelajaran mesin dalam banyak hal merupakan perpaduan dari dua disiplin ilmu – ilmu data dan rekayasa perangkat lunak. Tujuan dari machine learning adalah menggunakan data untuk membuat model prediktif yang dapat dimasukkan ke dalam aplikasi atau layanan perangkat lunak. Untuk mencapai tujuan ini, diperlukan kolaborasi antara ilmuwan data yang mengeksplorasi dan menyiapkan data sebelum menggunakannya untuk melatih model machine learning, dan pengembang perangkat lunak yang mengintegrasikan model ke dalam aplikasi yang digunakan untuk memprediksi nilai data baru (proses yang dikenal sebagai inferensi).

Dalam website VPSLabs.NET, Anda akan menjelajahi beberapa konsep inti yang menjadi dasar pembelajaran mesin, mempelajari cara mengidentifikasi berbagai jenis model pembelajaran mesin, dan memeriksa cara-cara di mana model pembelajaran mesin dilatih dan dievaluasi. Terakhir, Anda akan dijelaskan cara menggunakan Microsoft Azure Machine Learning untuk melatih dan menerapkan model pembelajaran mesin tingkat lanjut.

Pembelajaran mesin didasarkan pada teknik matematika dan statistika, namun jangan khawatir jika Anda bukan ahli matematika! Tujuan dari website ini adalah untuk membantu Anda mendapatkan intuisi tentang cara kerja machine learning – kami akan menjaga matematika seminimal mungkin untuk memahami konsep-konsep inti.

Apa Itu Machine Learning?

Machine learning atau pembelajaran mesin berawal dari statistika dan pemodelan matematis data. Ide dasar dari pembelajaran mesin adalah menggunakan data dari pengamatan masa lalu untuk memprediksi hasil atau nilai yang tidak diketahui. Sebagai contoh:

  • Pemilik toko es krim dapat menggunakan aplikasi yang menggabungkan catatan penjualan historis dan catatan cuaca untuk memprediksi berapa banyak es krim yang akan mereka jual pada hari tertentu, berdasarkan ramalan cuaca.
  • Seorang dokter dapat menggunakan data klinis dari pasien sebelumnya untuk menjalankan tes otomatis yang memprediksi apakah pasien baru berisiko terkena diabetes berdasarkan faktor-faktor seperti berat badan, kadar glukosa darah, dan pengukuran lainnya.
  • Seorang peneliti di Antartika dapat menggunakan pengamatan di masa lalu untuk mengotomatiskan identifikasi spesies penguin yang berbeda (seperti Adelie, Gentoo, atau Chinstrap) berdasarkan pengukuran sirip, paruh, dan atribut fisik lainnya.

Pembelajaran mesin sebagai sebuah fungsi

Karena pembelajaran mesin didasarkan pada matematika dan statistika, maka sudah menjadi hal yang umum untuk memikirkan model pembelajaran mesin dalam istilah matematika. Pada dasarnya, model pembelajaran mesin adalah aplikasi perangkat lunak yang merangkum fungsi untuk menghitung nilai output berdasarkan satu atau lebih nilai input. Proses pendefinisian fungsi tersebut dikenal sebagai pelatihan. Setelah fungsi didefinisikan, Anda dapat menggunakannya untuk memprediksi nilai baru dalam proses yang disebut inferensi.

Mari kita jelajahi langkah-langkah yang terlibat dalam pelatihan dan inferensi melalui gambar berikut ini.

Keterangan gambar :

  1. Data pelatihan terdiri dari pengamatan di masa lalu. Dalam kebanyakan kasus, pengamatan mencakup atribut atau fitur yang diamati dari hal yang sedang diamati, dan nilai yang diketahui dari hal yang ingin Anda latih untuk memprediksi model (dikenal sebagai label). Dalam istilah matematika, Anda akan sering melihat fitur yang dirujuk menggunakan nama variabel singkatan x, dan label disebut sebagai y. Biasanya, pengamatan terdiri dari beberapa nilai fitur, sehingga x sebenarnya adalah vektor (larik dengan beberapa nilai), seperti ini: [x1,x2,x3,…] Untuk memperjelas hal ini, mari kita lihat contoh-contoh yang telah dijelaskan sebelumnya:
    • Dalam skenario penjualan es krim, tujuan kita adalah untuk melatih model yang dapat memprediksi jumlah penjualan es krim berdasarkan cuaca. Pengukuran cuaca pada hari itu (suhu, curah hujan, kecepatan angin, dan sebagainya) akan menjadi fitur (x), dan jumlah es krim yang terjual pada setiap hari akan menjadi label (y).
    • Dalam skenario medis, tujuannya adalah untuk memprediksi apakah seorang pasien berisiko terkena diabetes atau tidak berdasarkan pengukuran klinis mereka. Pengukuran pasien (berat badan, kadar glukosa darah, dan sebagainya) adalah fitur (x), dan kemungkinan diabetes (misalnya, 1 untuk berisiko, 0 untuk tidak berisiko) adalah label (y).
    • Dalam skenario penelitian Antartika, kami ingin memprediksi spesies penguin berdasarkan atribut fisiknya. Ukuran utama penguin (panjang sirip, lebar paruh, dan sebagainya) adalah fitur (x), dan spesiesnya (misalnya, 0 untuk Adelie, 1 untuk Gentoo, atau 2 untuk Chinstrap) adalah label (y).
  2. Sebuah algoritma diterapkan pada data untuk mencoba menentukan hubungan antara fitur dan label, dan menggeneralisasi hubungan tersebut sebagai perhitungan yang dapat dilakukan pada x untuk menghitung y. Algoritma spesifik yang digunakan tergantung pada jenis masalah prediktif yang ingin Anda selesaikan (lebih lanjut mengenai hal ini dibahas dalam artikel lain), tetapi prinsip dasarnya adalah mencoba menyesuaikan data dengan sebuah fungsi di mana nilai fitur dapat digunakan untuk menghitung label.
  3. Hasil dari algoritma ini adalah sebuah model yang merangkum perhitungan yang diturunkan oleh algoritme sebagai sebuah fungsi – sebut saja f. Dalam notasi matematika:y = f(x)
  4. Setelah tahap pelatihan selesai, model yang telah dilatih dapat digunakan untuk membuat kesimpulan. Model pada dasarnya adalah program perangkat lunak yang merangkum fungsi yang dihasilkan oleh proses pelatihan. Anda dapat memasukkan satu set nilai fitur, dan menerima sebagai output prediksi label yang sesuai. Karena output dari model adalah prediksi yang dihitung oleh fungsi, dan bukan nilai yang diamati, Anda akan sering melihat output dari fungsi yang ditampilkan sebagai ŷ (yang lebih mudah diucapkan sebagai “topi-y”).