BigData - Hadoop
Offtopic: Если нет необходимости научиться инсталлировать opensource hadoop кластер, имеет смысл скачать готовую виртуалку с сайта cloudera и позапускать ее. Потом, попробовать поднять кластер с использованием инструментов cloudera или ambari на нескольких виртуальных машинах. И уже только потом, разобравшись что и как, уже пробовать поднимать свой opensource вариант.
Некоторые коммерческие фирмы предлагают готовые дистрибутивы Hadoop с наборами совместимых компонентов.
- Cloudera
- Hortonworks (Поглощена Cloudera)
- MapR Technologies
Инструменты для управления окружением. Упрощают работу, добавление узлов, управления конфигами.
Экосистема Hadoop
- HDFS — распределенная файловая система, работающая на больших кластерах стандартных машин.
- Yarn
- ZooKeeper — распределенный координационный сервис высокой доступности. ZooKeeper предоставляет примитивы, которые могут использоваться для построения распределенных приложений (например, распределенные блокировки).
- MapReduce — модель распределенной обработки данных и исполнительная среда, работающая на больших кластерах типовых машин.
- Common — набор компонентов и интерфейсов для распределенных файловых систем и общего ввода/вывода (сериализация, Java RPC, структуры данных).
- Avro — система сериализации для выполнениях эффективных межъязыковых вызовов RPC и долгосрочного хранения данных.
- Pig — язык управления потоком данных и исполнительная среда для анализа очень больших наборов данных. Pig работает в HDFS и кластерах MapReduce.
- Hive — распределенное хранилище данных. Hive управляет данными, хранимыми в HDFS, и предоставляет язык запросов на базе SQL (которые преобразуются ядром времени выполнения в задания MapReduce) для работы с этим данными.
- HBase — распределенная столбцово-ориентированная база данных. HBase использует HDFS для организации хранения данных и поддерживает как пакетные вычисления с использованием MapReduce, так и точечные запросы (произвольное чтение данных).
- Sqoop — инструмент эффективной массовой пересылки данных между структурированными хранилищами (такими, как реляционные базы данных) и HDFS.
- Oozie — сервис запуска и планирования заданий Hadoop (включая задания MapReduce, Pig, Hive и Sqoop jobs).