«id =» main «> Поделиться

BigData охватывает широкий спектр различных технологий, которые необходимо объединить в рабочий технологический стек. Можно использовать компоненты и то, как они работают вместе в дальнейшем . Каждый компонент поддерживает определенную группу функций, которые вместе создают дополнительное решение.

Apache Hadoop, или где хранить эти петабайты данных

Основным компонентом среды HDP (Hortonworks Data Platform) является Hadoop. Apache Hadoop — это реализация распределенной файловой системы с открытым исходным кодом, которая может хранить даже петабайтовые объемы данных. Масштабирование осуществляется путем добавления дополнительных физических машин с локальными дисками. Затем на этих машинах устанавливаются службы DataNode.

Специализированные физические машины или обширные матричные системы не требуются, что значительно снижает затраты. Повреждение отдельных машин практически незаметно для пользователя и не мешает работе Hadoop. Поврежденная машина пропускается & # 8211; данные в безопасности благодаря дублированию блоков файлов на других машинах.

Apache Yarn, или как управлять мощностью кластера во время

обработкиКомпонент Yarn — NodeManager также стандартно устанавливается на машинах с DataNode (с данными). Yarn — это веб-сайт, задачей которого является управление ресурсами машин (процессора, фреймворка) для запуска процессов, обрабатывающих данные, хранящиеся в HDFS. HDFS — это имя и префикс, используемые для доступа к файлам Hadoop.

Процессы преобразования пытаются обрабатывать блоки данных с локальных дисков, что снижает требования к пропускной способности сети. Также благодаря этому обработка делится на множество одинаковых задач, но работает с небольшим набором данных — обработка выполняется параллельно с использованием мощности многих машин.

Все процессы обработки выполняются на Yarna & # 8211; по разным технологиям. В этой версии также есть поддержка Docker. Самая старая используемая технология — это базовая технология сокращения карты, история которой началась с & nbsp; обработка данных в Hadoopa. В настоящее время наиболее часто используются Hive и Spark. Hive — это интерфейс файловой системы HDFS, который позволяет вам обращаться к файлам как к таблицам и писать запросы в SQL — псевдотабличной базе данных. Внутренний механизм изменяет содержимое запроса SQL на процессы map-reduce или DAG-i TEZ.

Apache Spark, или что обрабатывать данные

Spark — это инструмент, написанный на языке Scala и позволяющий интерактивно работать с наборами данных. Особенно ценится специалистами по науке о данных за его интерактивность и возможность повторять отдельные операции после внесения исправлений.

Apache Oozie, или как запланировать обработку

Если мы хотим запускать задачи циклически, сервис Oozie нас поддержит. Он позволяет запускать задачи на нескольких доступных машинах. В отличие от Crontab, где может произойти сбой конкретной машины. В дополнение к планированию в Ooza вы можете определить поток с использованием других служб, таких как HDFS или Hive.

Apache Zookeeper, то есть согласованная конфигурация в изменяющейся среде

В распределенной и очень изменчивой среде важно иметь актуальную конфигурацию. Конфигурация, которая зависит от запущенных процессов, сохраняется в Zookeeper. Кластер Zookeeper работает как единое целое — операция перенастройки атомарна & # 8211; будет сохранен на всех в кластере, иначе будет возвращена ошибка.

Apache Ambari, или как управлять кластером из одного места

Управление расширенным вручную кластером, содержащим сотни и, возможно, даже тысячи машин невозможны, поэтому он поддерживает нас, включая Ambari. Благодаря ему мы можем управлять всем в одном месте — машинами, службами, конфигурацией служб, а также отслеживать состояние и работу кластера.

Kerberos и LDAP, то есть безопасность впервые & # 8211; users

Безопасность также является важным вопросом для корпоративных решений. HDP обеспечивает безопасность несколькими способами. Основной способ — аутентификация и авторизация пользователей с помощью Kerberos и LDAP.

Apache Ranger, безопасность во второй раз & # 8211;

разрешенияУправлять доступом и разрешениями вручную для каждой службы сложно, если мы хотим поддерживать строгие правила доступа. Ranger облегчает эту задачу, являясь инструментом для управления доступом, разрешениями и аудитором использования разрешений. Ranger имеет систему плагинов для сервисов HDP, интегрируясь с ними, чтобы взять на себя обязанности по управлению правами.

Apache Knox, безопасность в третий раз & # 8211; одно место доступа к услугам

Хотя Ranger значительно снижает вероятность несанкционированного доступа к службам, лучше всего полностью ограничить прямой доступ пользователя к службам, дав ему одно очко для использования служб. Такой точкой может быть веб-сайт Knox, который действует как посредник и первая точка авторизации пользователя.

SSL, то есть безопасность в четвертый раз & # 8211; шифрование передачи

Дополнительная безопасность, которая может быть введена, — это шифрование передачи с использованием протоколов SSL.

Или, может быть, поток вместо пакета?

Это основные элементы, но, конечно, не все, что доступно.

Описанный кластер в этой форме чаще всего встречается при автономной пакетной обработке — процесс запускается, подсчитывает данные, результаты, а затем все заканчивается. В тандеме с таким кластером, например, может быть запущен кластер HDF (Hortonworks Data Flow), где мы входим в мир онлайн-стриминга.

Недостатки

Ну, сейчас только плюсы были немного минусами.

Как и в большинстве файловых систем Linux, удаление файла в HDFS является окончательным. Как часть файловой системы Linux, резервное копирование чаще всего спасает от потери данных. В случае HDFS невозможно создать резервную копию петабайт данных. Однако у нас есть шанс восстановить данные, если удаление произошло без ключа -skipTrash, потому что по умолчанию первое удаление заключается в переносе данных в специальный каталог .trash. Время удаления определяется параметром конфигурации и может быть увеличено за счет использования некоторого пространства HDFS.

Важнейшей задачей является создание резервной копии namenod-файла fsimage, который содержит данные, похожие на таблицу распределения FAT для дисков. Есть информация о блоках на Datanodes, именах файлов и их расположении в структуре каталогов блоков, занимаемых этими файлами.

Файловая система HDFS не имеет механизмов редактирования содержимого данных, невозможно записать что-либо внутри существующий файл. Единственно возможная операция редактирования — это добавление данных в конец файла. Редактирование файла заключается в извлечении файла за пределы, добавлении и последующей замене всего файла.

Из-за сложности среды и природы открытого исходного кода довольно часто возникают случаи ранее неизвестных ошибок или ошибок, которые трудно повторить и исключить. Администраторы таких систем должны обладать широким спектром навыков, начиная от знания оборудования, операционной системы, сетей, сетевых служб, программирования Shell, Python, Java и до знания различных протоколов, например Kerberos или LDAP.

Rate this post