BigData

Вроде как, есть бесплатное облачное решение на AWS для тестов spark в облаках. Т.е. самому ничего не нужно настраивать. Аналог jupyter notebook (если я все правильно понимаю). Не смог зарегиться, кнопка регистрации не реагировала на клик после заполнения полей.
https://databricks.com/try-databricks

Разумеется, пратное решение будет работать.


Jupyter notebook для scala/spark

$ docker run -p 8888:8888 jupyter/all-spark-notebook


Zeppelin в docker контейнере

Не разобрался как добавить репо. Поэтому не особо рекомендую. Но scala/spark код выполнять можно.

$ docker pull apache/zeppelin:0.8.1

$ docker run --rm -it -p 7077:7077 -p 8080:8080 apache/zeppelin:0.8.1

http://localhost:8080


JDK installation in linux (Ubuntu, Centos)

Installation SCALA in linux

Apache Spark installation in Linux


Hadoop


Обучающие материалы:

Книги по BigData

Видеокурсы по BigData