Spark в действии
Анализ корпоративных данных начинается с чтения, фильтрации и объединения файлов и потоков из многих источников. Система Spark способна обрабатывать разнообразные объемы информации как признанный лидер в этой области, обеспечивая в 100 раз большую скорость, чем Hadoop. Благодаря поддержке SQL, интуитивно понятному интерфейсу и простому и ясному многоязыковому API вы можете использовать Spark без глубокого изучения новой сложной экосистемы. Эта книга научит вас создавать полноценные и завершенные аналитические приложения. В качестве примера используется полный конвейер обработки данных, поступающих со спутников NASA.
На сайте издательства www.dmkpress.com приведен исходный код к книге на языках Java, Python и Scala.
Для чтения этой книги не требуется какой-либо предварительный опыт работы со Spark, Scala или Hadoop.
Темы, затрагиваемые в книге:
- создание приложений Spark на языке Java;
- архитектура приложений Spark;
- потребление данных из файлов, баз данных, потоков и Elasticsearch;
- выполнение запросов к распределенным наборам данных с использованием Spark SQL.
«Эта книга открывает инструменты и секреты, которые необходимы для управления инновациями в вашей компании или сообществе».
Роб Томас, IBM
«Незаменимое, исчерпывающее и подробное руководство. Его должен иметь каждый, кто работает с большими данными и занимается обработкой потоков данных в реальном времени».
Анупам Сенгупта, GuardHat, Inc.
«Эта книга поможет зажечь искру (spark) любви к занятиям распределенной обработкой данных».
Конор Редмонду InComm Product Control
«В настоящее время это самая лучшая книга по этой теме».
Маркус Бройер, Matema IPS
Об авторе:
Жан-Жорж Перрен - опытный архитектор данных и программного обеспечения. Он первым во Франции был удостоен звания IBM Champion и сохранял это почетное звание непрерывно в течение 12 лет.