Hive, партиционирование и IMDB

Десятого числа уже было 7-е занятие, вот время то летит... Написали самостоятельную по HBase.

А затем началась практика по работе с Hive. Именно практические занятия мне нравятся больше всего.

Подробно разобрали списки объектов, таблицы, скрипты и загрузку данных. Кстати, запросы в Hive очень похожи на запросы в PostgreSQL, поэтому понять это было не так сложно.
Об основных различиях в плане функционирования этих бд здесь.

Коснулись темы партиционирования или иначе говоря секционирования, правда только в теории. Неплохие статьи о ней нашел на хабре и ibm.

если кратко, то это выглядит +- так
если кратко, то это выглядит +- так

Также, на занятии создали свои базы данных и заполнили их данными датасета IMDB о пользователях, просмотренных ими фильмах и об оценках, которые пользователи им поставили.

Из задач успели только узнать средний возраст пользователей сайта, но еще предстоит :

для пользователей старше 21 года получить статистику их количества в разрезе возраста, и только для тех групп, в которых более 10 человек
и получить название, минимальную, максимальную и среднюю оценки комедий, отсортированных по убыванию среднего рейтинга.