Ваш город
Москва
Ваш город Москва?
+7 928 117-10-37
Отдел продаж
Режим работы:
Пн-Сб 10:00—18:00;
Вс выходной
КАТАЛОГ ТОВАРОВ
0КорзинаПусто0 руб.
Товары в корзине
корзина пуста
КАТАЛОГ ТОВАРОВ
Корзина пуста0 руб.0
Товары в корзине
корзина пуста
Корзина пуста0 руб.0
Товары в корзине
корзина пуста

Алгоритмы обучения с подкреплением на Python

Алгоритмы обучения с подкреплением на Python
Обучение с подкреплением (ОП) — популярный и многообещающий раздел искусственного интеллекта, в котором изучается построение более «умных» моделей и агентов, способных автоматически находить оптимальное поведение в условиях изменяющихся требований. Эта книга на примерах самообучающихся агентов поможет овладеть алгоритмами ОП и понять, как они реализуются...
Характеристики
Автор(ы):
Андреа Лонца
Издательство:
ДМК Пресс
Год издания:
2020
Кол-во страниц:
286
Переплёт:
Твердый
Смотреть все
Получение информации о методах доставки
Код: 18655
Нет в наличии
1 372
Количество:
Избранное
Сравнение
Описание

Обучение с подкреплением (ОП) — популярный и многообещающий раздел искусственного интеллекта, в котором изучается построение более «умных» моделей и агентов, способных автоматически находить оптимальное поведение в условиях изменяющихся требований. Эта книга на примерах самообучающихся агентов поможет овладеть алгоритмами ОП и понять, как они реализуются.
В начале книги описываются необходимые инструменты и библиотеки, после чего автор переходит к методам на основе ценности, в частности алгоритмам Q-обучения и SARSA. Вы узнаете, как сочетание Q-обучения с нейронными сетями позволяет решать сложные задачи. Затем рассматриваются методы градиента стратегии TRPO и РРО, более устойчивые и качественные, и далее детерминированные алгоритмы DDPG и TD3. Уделено также внимание методам подражательного обучения, в том числе применению алгоритма DAgger для обучения вождению автомобиля. Вы узнаете, как эволюционные стратегии и оптимизация методом черного ящика способны улучшить алгоритмы ОП. И наконец, будут рассмотрены подходы к исследованию пространства состояний и действий, в частности алгоритмы UCB и UCB1, после чего будет разработан метаалгоритм ESBAS.
В книге описываются:

  • разработка агента для игры в CartPole с помощью интерфейса OpenAI Gym;
  • парадигма обучения с подкреплением на основе модели;
  • применение динамического программирования к игре FrozenLake;
  • применение Q-обучения и SARSA к игре Taxi;
  • применение глубоких Q-сетей (алгоритма DQN) к играм Atari;
  • алгоритмы градиента стратегии, в том числе исполнитель-критик и REINFORCE;
  • применение алгоритмов TRPO и РРО в непрерывной окружающей среде для обучения робота двигательной активности;
  • применение эволюционных стратегий к задаче о посадке космичес¬кого корабля на Луну.
Характеристики
Автор(ы)
Андреа Лонца
Переводчик
А. А. Слинкин
Издательство
ДМК Пресс
Год издания
2020
ISBN
978-5-97060-855-5
Кол-во страниц
286
Формат страниц
70x100/16 (170x240 мм)
Размеры товара
242 × 172 × 20 мм
Язык
Русский
Переплёт
Твердый
Доп. сведения
Офсетная бумага
Иллюстрации
цветные
Тираж
200 экз.
Вес
575 г
Отзывы

Loading...
Помощь
+7 928 117-10-37
Отдел продаж
Если у вас возникли вопросы при оформлении заказа, обратитесь по указанным контактам.
Мы используем файлы cookie, чтобы сайт был лучше для вас.