Курс по современной архитектуре аналитических систем — Data Lakehouse, познакомит вас с концепцией Lakehouse, которая сочетает в себе гибкость Data Lake и производительность Data Warehouse. Вы научитесь работать с разделением хранения (S3 + Iceberg) и вычислений (Trino + Kubernetes), а также освоите табличный формат Apache Iceberg.
В курсе акцент на практическом применении: вы будете использовать реальный кластер Trino на Kubernetes для выполнения запросов к данным в S3.
Вы ознакомитесь с архитектурой Data Lakehouse, обучитесь работе с данными в формате Iceberg, использованию распределённого SQL-движка Trino и созданию гибридных пайплайнов обработки данных на SQL, Python и Apache Spark. Также вы научитесь анализировать и оптимизировать запросы, масштабировать систему без изменения архитектуры.
Курс предназначен для аналитиков данных, Data Engineers и специалистов, работающих с SQL/Spark, а также команд, планирующих внедрение Lakehouse. После его завершения вы сможете спроектировать и развернуть Lakehouse-архитектуру, работать с Iceberg в production, настраивать Trino для аналитики и строить масштабируемые пайплайны обработки данных.