Язык R в задачах науки о данных: импорт, подготовка, обработка, визуализация и моделирование данных (полноцветное издание)
Овладейте искусством превращения необработанных первичных данных в плодотворные догадки, гипотезы и новые знания с помощью языка R. Эта книга задумана как введение в вычислительную среду R, среду разработки RStudio и библиотеку tidyverse — коллекцию пакетов, совместное использование которых обеспечивает быстроту и легкость анализа данных. Книга ориентирована на читателей, не имеющих предварительного опыта программирования, и предназначена для того, чтобы помочь им в как можно более короткие сроки начать решать задачи науки о данных.
Авторы книги познакомят вас со всеми стадиями процесса анализа данных, включая импорт, предварительную подготовку, разведочный анализ и моделирование данных, а также демонстрацию результатов. Прочитав книгу, вы получите цельное представление как о процессе анализа данных в целом, так и об основных инструментах, используемых при его проведении.
Основные темы книги:
- Предварительная обработка данных — преобразование наборов данных к виду, удобному для анализа.
- Программирование — освоение мощных инструментов R, упрощающих анализ данных и делающих его более понятным.
- Разведочный анализ — исследование данных, выдвижение и быстрая проверка гипотез.
- Моделирование — предоставление сжатых сводных данных, отражающих выявленные тенденции в наборе данных.
- Обмен информацией — изучение языка R Markdown, обеспечивающего интеграцию описательного текста, кода и результатов анализа.
Об авторах:
Хэдли Уикем — старший научный сотрудник компании RStudio и член организации R Foundation. К числу его разработок относятся пакеты для науки о данных (библиотека tidyverse: ggplot2, dplyr, tidyr, purrr, readr и др.) и инструментальные средства разработки пакетов (roxygen2, testthat, devtools).
Гарретт Гроулмунд — специалист в области статистики, преподаватель и главный инструктор компании RStudio. Он автор известного пакета lubridate, а также книги Hands-On Programming with R.
Автор(ы) | Хэдли Уикем, Гарретт Гроулмунд |
Издательство | Диалектика, Вильямс |
Год издания | 2019 |
ISBN | 978-5-9909446-8-8 |
Кол-во страниц | 592 |
Формат страниц | 70x100/16 (170x240 мм) |
Размеры товара | 242 × 172 × 36 мм |
Язык | Русский |
Переплёт | Твердый |
Доп. сведения | Офсетная бумага |
Иллюстрации | полноцветное издание |
Вес | 1075 г |
Предисловие 21
Часть I. Предварительный анализ 39
Глава 1. Визуализация данных с помощью ggplot2 41
Глава 2. Рабочий процесс: основы 83
Глава 3. Преобразование данных с помощью пакета dplyr 89
Глава 4. Организация рабочего процесса: скрипты 127
Глава 5. Предварительный анализ данных 131
Глава 6. Организация рабочего процесса: проекты 165
Часть II. Подготовка данных 173
Глава 7. Создание tibble-фреймов с помощью пакета tibble 175
Глава 8. Импорт данных с помощью пакета readr 183
Глава 9. Аккуратизация данных с помощью пакета tidyr 207
Глава 10. Работа с реляционными данными с помощью пакета dplyr 233
Глава 11. Работа со строками с помощью пакета stringr 259
Глава 12. Работа с факторами с помощью пакета forcats 291
Глава 13. Работа с датами и временем с помощью пакета lubridate 307
Часть III. Программирование 329
Глава 14. Работа с каналами с помощью пакета magrittr 333
Глава 15. Функции 343
Глава 16. Векторы 367
Глава 17. Итерирование с помощью пакета purrr 391
Часть IV. Моделирование 421
Глава 18. Базовое моделирование с помощью пакета modelr 425
Глава 19. Создание модели 459
Глава 20. Обработка множества моделей с помощью пакетов purrr и broom 487
Часть V. Коммуникация 513
Глава 21. Язык разметки R Markdown 515
Глава 22. Обмен графикой с помощью пакета ggplot2 533
Глава 23. Выходные форматы R Markdown 567
Глава 24. Организация работы с R Markdown 579
Предметный указатель 583