Понимание Q-learning, проблема «Прогулка по скале»

Все публикации в потоке Гиктаймс.
Это перевод статьи Understanding Q-Learning, the Cliff Walking problem
Lucas Vazquez

В последнем посте мы представили проблему «Прогулка по скале» и остановились на страшном алгоритме, который не имел смысла. На этот раз мы раскроем секреты этого серого ящика и увидим, что это совсем не так страшно.

Резюме

Мы пришли к выводу, что, максимизируя сумму будущих наград, мы также находим самый быстрый путь к цели, поэтому наша цель сейчас — найти способ сделать это!

Читать дальше →

Добавить комментарий