Алгоритмы обучения с подкреплением на Python
Обучение с подкреплением (ОП) — популярный и многообещающий раздел искусственного интеллекта, в котором изучается построение более «умных» моделей и агентов, способных автоматически находить оптимальное поведение в условиях изменяющихся требований. Эта книга на примерах самообучающихся агентов поможет овладеть алгоритмами ОП и понять, как они реализуются.
В начале книги описываются необходимые инструменты и библиотеки, после чего автор переходит к методам на основе ценности, в частности алгоритмам Q-обучения и SARSA. Вы узнаете, как сочетание Q-обучения с нейронными сетями позволяет решать сложные задачи. Затем рассматриваются методы градиента стратегии TRPO и РРО, более устойчивые и качественные, и далее детерминированные алгоритмы DDPG и TD3. Уделено также внимание методам подражательного обучения, в том числе применению алгоритма DAgger для обучения вождению автомобиля. Вы узнаете, как эволюционные стратегии и оптимизация методом черного ящика способны улучшить алгоритмы ОП. И наконец, будут рассмотрены подходы к исследованию пространства состояний и действий, в частности алгоритмы UCB и UCB1, после чего будет разработан метаалгоритм ESBAS.
В книге описываются:
- разработка агента для игры в CartPole с помощью интерфейса OpenAI Gym;
- парадигма обучения с подкреплением на основе модели;
- применение динамического программирования к игре FrozenLake;
- применение Q-обучения и SARSA к игре Taxi;
- применение глубоких Q-сетей (алгоритма DQN) к играм Atari;
- алгоритмы градиента стратегии, в том числе исполнитель-критик и REINFORCE;
- применение алгоритмов TRPO и РРО в непрерывной окружающей среде для обучения робота двигательной активности;
- применение эволюционных стратегий к задаче о посадке космичес¬кого корабля на Луну.