Машинное обучение с использованием библиотеки Н2О
Машинное обучение наконец-то достигло стадии зрелости. При помощи библиотеки Н20 вы можете решать задачи машинного обучения и анализа данных с использованием простого в использовании и открытого (open source) фреймворка, который поддерживает большое количество операционных систем и языков программирования, а также масштабируется для обработки больших данных. Это практическое руководство научит вас использовать алгоритмы машинного обучения, реализованные в Н20, с упором на наиболее важные для продуктивной работы аспекты.
Если вы умеете программировать на R или Python, хотя бы немного знаете статистику и имеете опыт обработки данных, эта книга Даррена Кука познакомит вас с основами использования Н20 и поможет вам поэкспериментировать с машинным обучением на наборах данных разного размера. Вы изучите несколько современных алгоритмов машинного обучения: глубокое обучение, случайный лес, обучение на неразмеченных данных и ансамбли моделей.
Прочтя эту книгу, вы:
- узнаете, как импортировать данные в Н20, преобразовывать их и экспортировать из Н20;
- изучите основные концепции машинного обучения, такие как перекрестная проверка и проверочные наборы данных;
- поработаете с тремя разными наборами данных, решая задачи регрессии, бинарной и многоклассовой классификации;
- используете Н20 для анализа каждого набора данных при помощи четырех алгоритмов машинного обучения;
- поймете, как работает кластерный анализ и другие алгоритмы обучения на неразмеченных данных.
«Понимание процесса построения моделей, тупиковых ситуаций и заканчивающихся провалом экспериментов является не менее важным, нем изучение кода.»
— Юлин Жуанг, коммерческий директор в А РАС IT, магистр прикладной аналитики (Северо-Западный университет, США)
Об авторе:
Даррен Кук (Darren Cook) имеет более 20лет опыта в разработке программного обеспечения и анализе данных;работал над разными задачами — от финансового трейдинга до обработки естественного языка, разработки средств для визуализации и веб-сайтов крупнейших мировых брендов. Знает много языков программирования, включая R, C++, РНР, JavaScript и Python. В настоящее время работает в компании QQ Trend, которая специализируется на анализе финансовых данных и разработке программных продуктов для их анализа.