Глубокое обучение с подкреплением на Python. OpenAI Gym и TensorFlow для профи

Скидка!

Глубокое обучение с подкреплением (Reinforcement Learning) — самое популярное и перспективное направление искусственного интеллекта. Практическое изучение RL на Python поможет освоить не только базовые, но и передовые алгоритмы глубокого обучения с подкреплением...

0 Отзывов

Характеристики

Автор(ы):

Судхарсан Равичандиран

Издательство:

Питер

Год издания:

2020

Кол-во страниц:

320

Переплёт:

Мягкий

Смотреть все

Категории

Искусственный интеллект. Общие вопросы, Python

Тэги

Питер Python Библиотека программиста TensorFlow Глубокое обучение OpenAI Gym

Получение информации о методах доставки

Избранное

Сравнение

Описание

Глубокое обучение с подкреплением (Reinforcement Learning) — самое популярное и перспективное направление искусственного интеллекта.

Практическое изучение RL на Python поможет освоить не только базовые, но и передовые алгоритмы глубокого обучения с подкреплением.
Вы начнете с основных принципов обучения с подкреплением, OpenAI Gym и TensorFlow, познакомьтесь с марковскими цепями, методом Монте-Карло и динамическим программированием, так что «страшные» аббревиатуры DQN, DRQN, A3C, PPO и TRPO вскоре перестанут вас пугать. Вы узнаете об агентах, которые учатся на человеческих предпочтениях, DQfD, HER и многих других последних достижениях RL.
Прочитав книгу, вы приобретете знания и опыт, необходимые для реализации обучения с подкреплением и глубокого обучения с подкреплением в реальных проектах, и войдете в мир искусственного интеллекта.
В этой книге вы:

Познакомитесь с основами методов, алгоритмов и элементов RL
Обучите агента с помощью OpenAI Gym и Tensorflow
Освоите марковские процессы принятия решений, оптимальность Беллмана и обучение TD
Научитесь решать проблемы многоруких бандитов
Овладеете алгоритмами глубокого обучения, такими как RNN, LSTM и CNN
Создадите интеллектуальных агентов с помощью алгоритма DRQN, которые смогут играть в Doom
С помощью DDPG научите агентов играть в Lunar Lander
Отправите агента на автогонки, используя метод DQN

Характеристики

Автор(ы)	Судхарсан Равичандиран
Переводчик	Е. Матвеев
Издательство	Питер
Серия	Библиотека программиста
Год издания	2020
ISBN	978-5-4461-1251-7
Возрастное ограничение	16+
Кол-во страниц	320
Формат страниц	70x100/16 (170x240 мм)
Язык	Русский
Переплёт	Мягкий
Доп. сведения	Офсетная бумага
Иллюстрации	черно-белые
Тираж	1200 экз.
Вес	425 г

Отзывы

Оглавление

Об авторе...............................................................................................................14

О научных редакторах............................................................................................14
Предисловие........................................................................................................16
Для кого написана эта книга..................................................................................16
Что в книге.............................................................................................................16
Необходимое программное обеспечение................................................................18
Загрузка файлов с примерами кода........................................................................19
От издательства.....................................................................................................19
Глава 1. Введение в обучение с подкреплением.........................................................20
Что такое RL?.........................................................................................................20
Алгоритм RL...........................................................................................................22
Чем RL отличается от других парадигм машинного обучения.................................23
Элементы RL..........................................................................................................24
Агент.................................................................................................................24
Функция политики.............................................................................................24
Функция ценности.............................................................................................24
Модель..............................................................................................................25
Интерфейс агента со средой...................................................................................25
Типы сред RL..........................................................................................................27
Детерминированная среда................................................................................27
Стохастическая среда........................................................................................27
Среда с полной информацией...........................................................................27
Среда с неполной информацией........................................................................27
Дискретная среда..............................................................................................28
Непрерывная среда...........................................................................................28
Эпизодические и неэпизодические среды..........................................................28
Одноагентные и многоагентные среды..............................................................28
Платформы RL........................................................................................................28
OpenAI Gym и Universe......................................................................................29
DeepMind Lab....................................................................................................29
RL-Glue..............................................................................................................29
Проект Malmo....................................................................................................29
ViZDoom............................................................................................................30
Практическое применение RL.................................................................................30
Образование.....................................................................................................30
Медицина и здравоохранение...........................................................................30
Производство....................................................................................................31
Управление ресурсами......................................................................................31
Финансы...........................................................................................................31
Обработка естественного языка и машинное распознавание образов................31
Итоги......................................................................................................................32
Вопросы.................................................................................................................32
Дополнительные источники....................................................................................32
Глава 2. Знакомство с OpenAI и TensorFlow................................................................33
Подготовка системы...............................................................................................34
Установка Anaconda..........................................................................................34
Установка Docker..............................................................................................35
Установка OpenAI Gym и Universe......................................................................36
OpenAI Gym............................................................................................................39
Базовое моделирование....................................................................................39
Робот учится ходить..........................................................................................41
OpenAI Universe......................................................................................................44
Построение бота для видеоигры.......................................................................44
TensorFlow..............................................................................................................48
Переменные, константы и заместители.............................................................49
Граф вычислений..............................................................................................50
Сеансы..............................................................................................................51
TensorBoard.......................................................................................................52
Итоги......................................................................................................................55
Вопросы.................................................................................................................56
Дополнительные источники....................................................................................56
Глава 3. Марковский процесс принятия решений и динамическое
программирование......................................................................................................57
Марковские цепи и марковские процессы...............................................................57
Марковский процесс принятия решений.................................................................59
Награды и возврат............................................................................................60
Эпизодические и непрерывные задачи..............................................................61
Поправочный коэффициент...............................................................................61
Функция политики.............................................................................................62
Функция ценности состояния............................................................................62
Функция ценности состояния/действия (Q-функция).........................................63
Уравнение Беллмана и оптимальность....................................................................64
Вывод уравнения Беллмана для функции ценности и Q-функции......................65
Решение уравнения Беллмана................................................................................68
Динамическое программирование.....................................................................68
Решение задачи о замерзшем озере.......................................................................76
Итерация по ценности.......................................................................................78
Итерация по политикам.....................................................................................84
Итоги......................................................................................................................87
Вопросы.................................................................................................................88
Дополнительные источники....................................................................................88
Глава 4. Методы Монте-Карло в играх........................................................................89
Метод Монте-Карло................................................................................................89
Оценка значения π методом Монте-Карло.........................................................90
Прогнозирование методом Монте-Карло.................................................................94
Метод Монте-Карло с первым посещением........................................................96
Метод Монте-Карло с каждым посещением.......................................................96
Игра в блек-джек по стратегии Монте-Карло.....................................................96
Управление методом Монте-Карло.......................................................................105
MC-ES..............................................................................................................106
Метод Монте-Карло с привязкой к политике...................................................108
Метод Монте-Карло без привязки к политике..................................................111
Итоги....................................................................................................................112
Вопросы...............................................................................................................113
Дополнительные источники..................................................................................113
Глава 5. Обучение на основе временных различий..................................................114
Обучение на основе временных различий............................................................114
Прогнозирование на основе временных различий................................................115
TD-управление.....................................................................................................118
Q-обучение.....................................................................................................119
SARSA.............................................................................................................127
Решение задачи о такси методом SARSA.........................................................131
Различия между Q-обучением и SARSA.................................................................133
Итоги....................................................................................................................135
Вопросы...............................................................................................................135
Дополнительные источники..................................................................................135
Глава 6. Задача о многоруком бандите.....................................................................136
Задача MAB..........................................................................................................137
Эпсилон-жадная стратегия..............................................................................139
Алгоритм softmax-исследования......................................................................140
Алгоритм верхней границы доверительного интервала...................................141
Алгоритм выборки Томпсона...........................................................................145
Практические применения MAB............................................................................147
Выбор подходящего рекламного баннера с использованием MAB.........................148
Контекстные бандиты...........................................................................................151
Итоги....................................................................................................................151
Вопросы...............................................................................................................152
Дополнительные источники..................................................................................152
Глава 7. Основы глубокого обучения........................................................................153
Искусственные нейроны.......................................................................................154
ANN......................................................................................................................155
Входной слой..................................................................................................156
Скрытый слой..................................................................................................157
Выходной слой................................................................................................157
Функции активации.........................................................................................157
Подробнее об ANN................................................................................................159
Градиентный спуск..........................................................................................162
Нейросети в TensorFlow........................................................................................168
RNN......................................................................................................................171
Обратное распространение во времени...........................................................174
RNN с долгой краткосрочной памятью..................................................................176
Генерирование текстов песен посредством LSTM RNN.....................................178
Сверточные нейросети.........................................................................................182
Сверточный слой.............................................................................................182
Слой подвыборки............................................................................................188
Полносвязный слой.........................................................................................188
Архитектура CNN.............................................................................................189
Классификация предметов одежды с использованием CNN...................................189
Итоги....................................................................................................................196
Вопросы...............................................................................................................196
Дополнительные источники..................................................................................196
Глава 8. Игры Atari с использованием Deep Q Network.............................................197
Что такое DQN?....................................................................................................197
Архитектура DQN..................................................................................................199
Сверточная сеть..............................................................................................199
Воспроизведение опыта..................................................................................200
Целевая сеть...................................................................................................201
Нормализация наград......................................................................................202
Понимание алгоритма.....................................................................................202
Построение агента для игр Atari...........................................................................203
Двойная сеть DQN................................................................................................211
Приоритетное воспроизведение опыта.................................................................212
Архитектура дуэльных сетей.................................................................................213
Итоги....................................................................................................................215
Вопросы...............................................................................................................215
Дополнительные источники..................................................................................215
Глава 9. Игра Doom в глубокой рекуррентной Q-сети...............................................216
DRQN...................................................................................................................216
Архитектура DRQN..........................................................................................218
Обучение агента для игры в Doom.......................................................................219
Базовая игра Doom.........................................................................................220
Doom c DRQN..................................................................................................222
DARQN.................................................................................................................232
Архитектура DARQN........................................................................................232
Итоги....................................................................................................................233
Вопросы...............................................................................................................234
Дополнительные источники..................................................................................234
Глава 10. Асинхронная преимущественная сеть «актор-критик»..............................235
Асинхронный преимущественный алгоритм «актор-критик».................................236
Три «А»...........................................................................................................236
Архитектура A3C.............................................................................................237
Как работает A3C............................................................................................238
Подъем на гору с использованием A3C.................................................................239
Визуализация в TensorBoard............................................................................247
Итоги....................................................................................................................250
Вопросы...............................................................................................................250
Дополнительные источники..................................................................................250
Глава 11. Градиенты политик и оптимизация...........................................................251
Градиент политики...............................................................................................252
Посадка на Луну с градиентами политик.........................................................252
Глубокий детерминированный градиент политики................................................257
Раскачивание маятника...................................................................................259
Оптимизация политики доверительной области...................................................266
Оптимизация ближайшей политики......................................................................270
Итоги....................................................................................................................272
Вопросы...............................................................................................................273
Дополнительные источники..................................................................................273
Глава 12. «Автогонки» с использованием DQN.........................................................274
Функции-обертки среды.......................................................................................274
Дуэльная сеть.......................................................................................................278
Память воспроизведения......................................................................................280
Обучение сети......................................................................................................281
«Автогонки».........................................................................................................287
Итоги....................................................................................................................290
Вопросы...............................................................................................................291
Дополнительные источники..................................................................................291
Глава 13. Последние достижения и следующие шаги...............................................292
Агенты, дополненные воображением....................................................................292
Обучение на человеческих предпочтениях...........................................................297
Глубокое Q-обучение на примере демонстраций..................................................298
Ретроспективное воспроизведение опыта.............................................................299
Иерархическое обучение с подкреплением...........................................................301
Декомпозиция функции ценности MAXQ..........................................................302
Инвертированное обучение с подкреплением.......................................................305
Итоги....................................................................................................................306
Вопросы...............................................................................................................307
Дополнительные источники..................................................................................307
Ответы................................................................................................................308