Reinforcement Learning adalah sub area machine learning yang menitikberatkan kepada cara sebuah agent mengambil aksi di lingkungannya. Di sini agent melakukan maksimalisasi pemikiran tentang reward untuk jangka panjang. Reinforcement Learning diinspirasi dari fenomena biologi dan mengelola pengetahuan melalui eksplorasi aktif terhadap lingkungannya. Pada setiap langkah, Reinforcement Learning memilih beberapa aksi yang mungkin dilakukan dan menerima reward dari lingkungan atas aksi spesifik yang dilakukannya. Aksi terbaik yang harus dilakukan di beberapa state tidak pernah diketahui sehingga agent harus mencoba beberapa aksi-aksi dan urutan-urutan aksi yang berbeda serta belajar dari pengalamannnya.
Reinforcement Learning biasanya dideskripsikan sebagai Markov Decission Process (MDP) yang terdiri dati sebuah agent, set state yang mungkin S, set aksi-aksi yang mungkin A(S) untuk semua state S, dan sebuah fungsi reward R(s,a) yang menentukan reward yang diberi lingkungan atas aksi yang dilakukan agent. Fungsi policy pi mendeskripsikan bagaimana agent belajar pada beberapa time-step t. Policy optimal didefinisikan sebahai pi*. Fungsi value V(s,a) mendefinisikan reward total yang diharapkan ketika melakukan aksi a pada state s jika untuk mencapai state berikutnya diikuti policy optimal pi*. Inilah fungsi di mana agent harus belajar untuk memperoleh policy ini. Ilustrasi Reinforcement Learning ditunjukkan pada Gambar 1 berikut ini.
Reinforcement Learning sangat cocok untuk masalah-masalah terdistribusi. Reinforcement Learning membutuhkan memori dan komputasi yang medium pada setiap node-nya. Reinforcement Learning melakukan mekanisme pemeliharaan beberapa kemungkinan aksi-aksi yang berbeda beserta nilainya. Reinforcement Learning memerlukan waktu untuk mencapai konvergen. Reinforcement Learning mudah diimplementasikan, fleksibel terhadap perubahan topologi, dan mencapai aksi optimum. Contoh implementasi algoritma Reinforcement Learning adalah Q-Learning, Dual RL, TPOT Reinforcement Learning, dan Collaborative Reinforcement Learning.
0 komentar:
Posting Komentar