INTR: Основы Hadoop

Jan 31, 2022 · Moskva, Russia

Основы Hadoop и Big Data
Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake.
Архитектура Apache Hadoop
Hadoop сервисы и основные компоненты: Name node, Data Node, YARN, HDFS.
Отказоустойчивость и высокая доступность.
Batch процессинг.
Потоковая обработка
Распределенная файловая система HDFS
Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты.
Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS.
Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы.
Влияние компрессии на производительность. Кодеки компрессии.
Импорт(загрузка) данных на HDFS
MapReduce
Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.
Установка кластера Hadoop
Установка Hadoop кластера.
Выбор начальной конфигурации.
Оптимизация уровня ядра для узлов.
Оптимизация Java, JVM, Heap size, Garbage Collection
Начальная конфигурация HDFS и MapReduce.
Файлы логов и конфигураций.
Настройка подключений Hadoop клиентов.
Установка кластера Hadoop в облаке.
Особенности настройки кластера Hadoop на физическом сервере (on-premises)
Топология кластера Hadoop
Tiering — многоуровневое хранение данных (Cold, Warm,Hot, RAM disk). Storage policy — полтиики хранения. Метки конфигураций узлов. RACK awareness.
Архитектура YARN — планировщик и менеджер ресурсов
Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность.
FIFO scheduler
Capacity scheduler (Планировщик по мощности)
Fair scheduler (Гранулярное управление ресурсами)
Защита очередей и доминантное управление ресурсами DRF
Инструментарий Hadoop экосистемы
Графический интерфейс сервиса HUE/Zeppelin
Базовые операции в Apache Pig
Использование Apache Hive для доступа к данным на HDFS по SQL интерфейсу, понятие Hive таблицы, HiveQL — базовый синтаксис.
Импорт и экспорт SQL таблиц с применением Apache sqoop
Настройка агентов для управления потоковыми операциями с Apache Flume
Базовые операции в Apache Spark
Примерный список практических занятий для курса «Основы Hadoop»:

Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
Базовые операции обслуживания кластера Hadoop и файловые операции HDFS
Управление ресурсами и запуском задач с использованием YARN и MapReduce
ETL операции преобразования с использованием Apache Pig
Знакомство с SQL интерфейсом доступа Apache Hive
Выполнение базовых операций импорта/экспорта с применением Apache sqoop
Настройка агента потоковой обработки Apache Flume(опционально)
Применение веб-интерфейса HUE/Zeppelin (опционально)
Подробнее на сайте https://www.bigdataschool.ru/bigdata/hadoop-intro.html

Event organizers
  • BigDataSchool

    Наша компания «Школа Больших Данных» предлагаем уникальные практические курсы по Big Data (большие данные) а также материалы, новости, документы по следующим направлениям: Большие данные, Data Mining, Internet of Things, Industrial Internet of Things, цифровая трансформация, компоненты экосистемы Hadoop, Apache Spark,Kafka, NiFi, AirFlow,HBase, NoSQL, построение распределенных кластерных систем хранения больших данных и озер данных (Data Lakes) на платформах Cloudera Distributed Hadoop, Аренадата Hadoop, H

    Recent Events
    More

Are you organizing INTR: Основы Hadoop?

Claim the event and start manage its content.

I am the organizer
Social
Topics
Rating

based on 0 reviews