Наука о данных: учебный курс
Для того чтобы понять мир, необходимо собрать и проанализировать данные о нем. Объединение последних технологических тенденций предоставляет новые возможности для применения анализа данных к более сложным задачам, чем когда-либо прежде.
Емкость компьютерных хранилищ увеличивается экспоненциально; хранение данных сейчас стало настолько дешевым, что компьютерным системам почти невозможно ничего забыть. Сенсорные устройства все шире и шире контролируют все, за чем только можно наблюдать: потоки видео, действия в социальных сетях и местоположение всего, что перемещается. Сетевая вычислительная среда позволяет использовать огромные количества машин для манипулирования этими данными. Каждый раз, когда вы осуществляете поиск в Google, задействуются сотни компьютеров, тщательно исследующие все ваши предыдущие действия, только для того, чтобы решить, какая реклама является наилучшей для демонстрации именно вам.
Результатом всего этого стало рождение науки о данных — новой области, посвященной максимизации значения обширных коллекций информации. Как дисциплина, наука о данных находится где-то на пересечении статистики, информатики и машинного обучения, но стоит она отдельно, как самостоятельный персонаж. Эта книга служит введением в науку о данных, сосредоточиваясь на навыках и принципах, необходимых для построения систем, предназначенных для анализа и интерпретации данных.
Об авторе:
Стивен С. Скиена — ученый в области компьютерных наук и заслуженный профессор информатики в университете Стони Брукс. Он также является директором Института искусственного интеллекта в Стони Брук. В сферу его научного интереса входит анализ и разработка компьютерных алгоритмов и их применение в области биологии. Скиена написал несколько популярных книг в области алгоритмов, программирования и математики.
Введение 15
Глава 1. Что такое наука о данных? 23
Глава 2. Математические основы 53
Глава 3. Манипулирование данными 89
Глава 4. Оценки и ранги 135
Глава 5. Статистический анализ 167
Глава 6. Визуализация данных 207
Глава 7. Математические модели 261
Глава 8. Линейная алгебра 307
Глава 9. Линейная и логистическая регрессии 341
Глава 10. Методы измерения расстояний и сетей 385
Глава 11. Машинное обучение 441
Глава 12. Большие данные: достижение крупного масштаба 489
Глава 13. Заключение 527
Глава 14. Список литературы 531
Предметный указатель 539