Эффективный Spark. Масштабирование и оптимизация
Если у вас уже есть положительный опыт использования Spark для решения небольших задач, но вы по-прежнему ломаете голову – где та самая непревзойденная производительность Spark, позволяющая перемалывать колоссальные объемы данных – то эта книга для вас. Она расскажет, как эффективно использовать Spark для укрощения больших данных и вырасти из новичка в специалиста. Идеально подходит для программистов, инженеров по работе с данными, системных администраторов, обслуживающих крупномасштабные приложения.
Автор(ы) | Холден Карау, Рейчел Уоррен |
Переводчик | И. Пальти |
Издательство | Питер |
Серия | Бестселлеры O'Reilly |
Год издания | 2018 |
ISBN | 978-5-4461-0705-6 |
Возрастное ограничение | 16+ |
Кол-во страниц | 352 |
Формат страниц | 70x100/16 (170x240 мм) |
Язык | Русский |
Переплёт | Мягкий |
Доп. сведения | Офсетная бумага |
Иллюстрации | черно-белые |
Тираж | 700 экз. |
Вес | 470 г |
Предисловие...................................................................................................14
Глава 1. Введение в эффективный Spark ..................................................... 19
Глава 2. Как работает Spark ........................................................................ 25
Глава 3. Наборы DataFrame/Dataset и Spark SQL ......................................... 46
Глава 4. Соединения (SQL и Core) ............................................................... 95
Глава 5. Эффективные преобразования .................................................... 107
Глава 6. Работа с данными типа «ключ — значение» ................................ 149
Глава 7. Выходим за рамки Scala ............................................................... 201
Глава 8. Тестирование и валидация .......................................................... 228
Глава 9. Spark MLlib и ML .......................................................................... 246
Глава 10. Компоненты и пакеты фреймворка Spark ................................... 280
Приложение. Тонкая настройка, отладка и другие аспекты,
обычно игнорируемые разработчиками........................................................301