Репозитории и хранилища данных
Правильное управление данными на предприятиях — сложная задача. Согласно отчету IDC «Укрощение информационного хаоса», опубликованному более десяти лет назад, 75% компаний в то время сталкивались с известным явлением как информационная перегрузка — пока что в этом отношении мало что изменилось.
Технология, которая позволяет управлять огромным объемом данных, поступающих из Интернета, устройств IoT или из систем управления производством и продажами, — это большие данные. Однако простого анализа огромных объемов данных недостаточно, если данные не собираются должным образом. Здесь пригодятся два дополнительных решения для хранения информации: хранилища данных и репозитории.
Структурированная информация, то есть хранилище данных
Как правило, концепция хранилища данных относится к централизованно управляемой, структурированной и интегрированной базе данных, в которой собираются как исторические данные, так и информация в реальном времени, относящаяся к деятельности организации. Стоит отметить, что данные, собранные в хранилище, могут поступать из разных источников.
Это системы ERP и CRM, обычно используемые на предприятии, или системы, связанные с управлением жизненным циклом продукта, то есть системы PLM. Информация, поступающая в хранилище данных, также поступает напрямую с промышленных устройств Интернета вещей, производственных линий, маркетинговых систем, интернет-магазинов и даже из социальных сетей, где можно выражать мнения о продуктах или услугах, предлагаемых данной компанией.
Однако эти данные не собираются в том виде, в каком они были собраны. Перед снабжением хранилища информацией из внешних систем необходимо очистить их, обогатить тегами и тегами, которые помогают в их последующем анализе, и привести их в структуру, согласованную для всего хранилища данных.
Очень часто данные, подготовленные для подачи в хранилище, дополнительно агрегируются, благодаря чему вы можете предотвратить рост хранилища данных до слишком большого размера.
Основная задача хранилища данных — предоставить пользователям информацию, необходимую для создания отчетов, сводок и анализов. Благодаря им менеджеры могут эффективно принимать оптимальные бизнес-решения.
Также важно, чтобы хранилища данных позволяли собирать данные из нескольких или нескольких разнесенных источников в одном месте. Это означает, что аналитики компании могут быстро ответить на вопросы, связанные с текущей деятельностью компании, например, касательно продаж, запасов, заказов и, что наиболее важно, связей между ними.
Что немаловажно, благодаря структурированию всей информации, собираемой на складе, гораздо проще находить зависимости, закономерности и закономерности, благодаря которым вы можете брать и планировать деятельность, ориентированную на клиента. Вот почему сбор и анализ информации из социальных сетей становится все более важной проблемой.
Структурированная информация или хранилище данных
Репозиторий данных, часто называемый Data Lake, — это место, где упорядоченным образом хранятся большие объемы структурированных, полуструктурированных и неструктурированных данных. Вся информация, которая отличает репозиторий от хранилища, хранится в их исходной форме и формате. Так что мы не занимаемся их очисткой и приведением к общей структуре.
Вот почему во многих исследованиях хранилище сравнивают с озером, где данные текут, как вода из разных рек, и эти данные можно соответствующим образом «собрать».
В репозитории нет беспорядка. Каждому элементу в нем назначается уникальный идентификатор и он помечен набором тегов метаданных. Благодаря этому, когда появляется запрос, вы можете легко искать в репозитории конкретную ограниченную информацию.
Таким образом разделенный и, что наиболее важно, гораздо меньший набор информации анализируется с использованием стандартных инструментов больших данных для бизнес-анализа и интеллектуального анализа данных.
Вопреки внешнему виду, репозиторий позволяет проводить исключительно быстрый и продвинутый контекстный анализ данных. Преимущество систем Data Lake заключается в том, что анализируемые данные не нужно собирать внутри Data Lake, их можно доставлять на постоянной основе в режиме реального времени.
В том числе возможен приток актуальных данных в репозиторий. благодаря внедрению в этих системах технологии, позволяющей обрабатывать информацию непосредственно в памяти — так называемые системы в памяти.
Стоит отметить, что доставка данных в репозиторий происходит постепенно, поэтапно. Сначала собираются необработанные данные с тегами, описывающими их. По мере развития репозитория и поступления данных появляется все больше и больше описывающих его тегов, на основе которых создаются метаданные.
Благодаря этому из хранилища можно «выловить» все больше и больше информации — неоднозначная или противоречивая информация превращается в данные, из которых можно прочитать все больше и больше ключевой информации для компании.
Таким образом, взаимодействие с пользователем постоянно улучшает репозиторий, что расширяет возможности анализа и не требует точной классификации данных, хранящихся в нем.
Стоит отметить, что созревание репозитория происходит на уровне уровня управления метаданными.
Связанная пара для хранения данных
Исходя из концепции, можно увидеть, что основное различие между репозиторием и хранилищем данных заключается в форме, в которой собирается информация: необработанная только с тегами или обработанная и структурированная с их атрибутами. В результате хранилища данных требуют гораздо большей емкости хранилища, чем требуется для хранения данных в хранилище.
Стоит отметить, что необработанные неструктурированные данные намного более гибкие и могут быть быстро проанализированы для любых целей. Более того, эти данные идеально подходят для машинного обучения, но для их правильной обработки требуется гораздо больше усилий.
Преимущество хранилища в том, что им требуется меньше дискового пространства на сервере, а на начальном этапе вся информация, которая никогда не будет использоваться, удаляется.
Еще одним преимуществом хранилища является то, что данные могут быть легко проанализированы гораздо большей группой получателей, что важно в деловой и аналитической деятельности. Как видите, хранилище данных и озеро данных дополняют друг друга в большой сфере деятельности.
Data Lake возникли из-за необходимости. В какой-то момент компании, наряду с развитием каналов связи с клиентами и поставщиками, а также каналов маркетинга и социальных сетей, осознали, что они имеют в своем распоряжении и используют огромные наборы данных, которые они не могут использовать — эти данные идеально дополняет информацию, собранную на традиционных складах.
Используется для
Когда дело доходит до типичной финансовой аналитики и типичных бизнес-приложений, где требуется создание, часто автоматическое, отчетов, рынок по-прежнему предпочитает хранилища данных.
Хорошо спроектированное хранилище предлагает доступ к данным всем сотрудникам организации, которые в них нуждаются. Они могут легко составлять отчеты и ведомости самостоятельно, потому что для обработки данных, собранных в оптовых продажах, не требуются специальные передовые знания. Благодаря этому доступ к данным для управленческого персонала среднего и высшего звена позволяет эффективно управлять деятельностью компании.
С другой стороны, репозитории данных идеально подходят для транспорта и логистики, где вы можете идеально визуализировать постоянно обновляемую цепочку поставок. В первую очередь речь идет о способности на основе неструктурированных гибких данных предсказывать, казалось бы, случайные ситуации, возникающие в этой отрасли. К сожалению, получение данных из озера требует специальных, часто даже научных знаний, поэтому необходимо нанимать должным образом подготовленных сотрудников.
Вторая область, в которой репозитории данных не имеют себе равных, — это отношения с клиентами. Благодаря социальным сетям компании могут установить прямую связь со своими клиентами.
Таким образом, они очень быстро получают обратную связь о том, что клиенты думают о маркетинговой деятельности, рекламных акциях или о функциональности и качестве предлагаемых товаров или услуг.
Вот как стоит оценивать удовлетворенность клиентов.
Хранилище данных также будет полезно в кризисной ситуации, например, при неудачном имидже. Информация, собранная непосредственно в реальном времени из социальных сетей, может быть проанализирована, и благодаря специалистам, работающим в Big Data, так называемом специалистам по данным удается узнать мнение клиентов и, таким образом, спрогнозировать грядущий кризис имиджа.
Зная это, вы можете попытаться предотвратить это, прежде чем это повредит имиджу вашей компании.
Медицина — это область, в которой стоит использовать как репозитории, так и хранилища данных. Здесь мы имеем дело с очень хорошо структурированными данными (финансовые данные, стоимость лечения, карты пациентов) и данными, поступающими непосредственно из медицинского оборудования или медицинских описаний, которые вообще не структурированы.
Комбинируя возможность стандартной отчетности и анализа на основе финансовых данных, затрат и результатов анализов и поиска данных о пациенте и его заболеваниях, хранящихся в репозитории, можно намного лучше управлять бюджетом и оптимизировать доступные ресурсы для лечения.