За очень короткое время после появления Apache Spark – фреймворк следующего поколения для быстрой обработки больших объемов данных – получил повсеместное распространение. Цель этого вводного руководства – помочь вам быстро настроить Spark и приступить к работе с ним . Здесь вы узнаете: как загрузить и запустить Spark на своем ноутбуке, как работать с ним в интерактивном режиме , чтобы поближе познакомиться с API . особенности доступных операций и распределенных вычислений . про высокоуровневые библиотеки, входящие в состав Spark, включая библиотеки для машинного обучения, потоковой обработки данных (stream processing) и SQL. Авторы наедятся, что с этой книгой вы быстро сможете приступить к решению задач, связанных с анализом данных, как на одной, так и на сотнях машин. Главы в этой книге следуют в порядке изучения материала . В начале каждой главы мы будем сообщать, какие ее разделы, по нашему мнению, больше подходят для исследователей, а какие – для программистов. При этом мы надеемся, что все разделы будут доступны читателям с любым уровнем подготовки . Первые две главы описывают порядок установки на ноутбук фреймворка Spark в базовой конфигурации и демонстрируют, чего можно достичь с его помощью. После установки и знакомства с некоторыми возможностями мы погрузимся в командную оболочку Spark – инструмент, очень удобный для разработки и прототипирования. В последующих главах подробно обсуждаются программный интерфейс Spark , порядок выполнения приложений в кластерах и высокоуровневые библиотеки, доступные в Spark (такие как Spark SQL и MLlib) . Данная книга адресована специалистам в области анализа данных (или исследователям) и инженерам-программистам.