«id =» main «> Поделиться

Увеличение объема данных и их источников, на основе которых в компаниях осуществляется оперативная деятельность, не только вынуждает тесное сотрудничество групп, ответственных за анализ, техническую инфраструктуру и безопасность, но и изменение подхода к критериям успешности реализации проектов, связанных с так называемыми большими данными.

Некоторые воспоминания. Двадцать лет назад аналитик, начинающий работать в области социальных исследований, маркетинга или финансов, мечтал получить компьютер с мощным процессором и чтобы компания не упустила лицензионный сбор. Лидеры того времени в области коммерческих аналитических инструментов (SAS, SPSS, STATISTICA, Stata) предоставили интегрированные среды настольных компьютеров, оптимизированные для настольных компьютеров.

Примерно раз в год ИТ-сотрудник встречался с аналитиком, чтобы обновить его. лицензия, позволяющая проводить дальнейший анализ. Конечно, этих встреч можно было избежать. Сладкая жизнь в бункерах процветала. Критерии успеха в работе аналитика и специалиста по информатике были относительно независимыми.

Задача аналитика заключалась в построении и обновлении моделей, которые на основе алгоритмов, реализованных в используемом в настоящее время статистическом пакете, описывают данные и показывают возможные закономерности. Задачей компьютерного ученого было поддерживать рабочие столы в хорошем состоянии, то есть бороться с вирусами, обновлять программное обеспечение и лицензии.

Аналитики, имея изолированные модели данных, соревновались за первенство с точки зрения «количества необъяснимой дисперсии». «. ИТ-специалисты наблюдали за своими подопечными, то есть рабочими станциями, с естественного расстояния.

Изменилась картина, представленная в слегка кривом зеркале. Масштаб и динамика анализируемых в настоящее время данных и их мульти-источник способствуют аналитическим инструментам, которые облегчают сотрудничество, повторяемость анализов и обмен результатами. Так называемое Блокноты, основанные на технологии клиент-сервер, позволяющие объединить процесс анализа данных на доминирующих в настоящее время языках анализа (R и Python) с фрагментами, документирующими выполненные операции.

Это также отражено в ожиданиях в отношении инфраструктурных решений. В основном в популярности те, которые предоставляют возможность масштабирования, авторизацию удаленного доступа, управление распределением ресурсов и при этом учитывают предпочтения целевых пользователей с точки зрения мастерской.

Пример работы такое инфраструктурное решение, полностью основанное на бесплатном программном обеспечении, представляет собой мозаику, состоящую из трех функциональных компонентов: OpenShift Origin, Apache Guacamole и JupyterHub.

OpenShift Origin — это элемент, отвечающий за управление ресурсами (CPU, RAM, GPU), авторизацию целевых пользователей, оркестровку контейнеров и непрерывную интеграцию. Эти функции реализуются компонентами OpenShift: Kubernetes и Docker. Как нетрудно догадаться, люди, ответственные за настройку параметров этого компонента в соответствии с потребностями аналитиков, часто представляют отдел безопасности и управления инфраструктурой.

Apache Guacamole — это компонент, который в описанном решении отвечает за прямой доступ к семинару аналитика. Рабочая среда закрыта в контейнере. Свойства контейнера определяются в соответствии с предпочтениями и потребностями аналитика. Это может быть настольный компьютер с графическим интерфейсом и R-Studio или ноутбук Jupyter с выбранным аналитическим движком и доступом к графическому процессору. Доступ к контейнеру осуществляется через выбранный протокол (VNC, RDP, ssh), веб-браузер (совместимый с HTML 5) и соединения, предопределенные на уровне Гуакамоле. При условии, что у аналитика есть соответствующие разрешения, он может сам реализовать определения подключения через графический интерфейс.

JupyterHub — это элемент, отвечающий за запуск целевым пользователем контейнеров с предпочтительными аналитическими инструментами в форме экземпляров блокнотов Jupyter.

Бум аналитических библиотек R и Python продолжается непрерывно. Он сопровождается разработкой интегрированных инфраструктурных решений, использующих это преимущество. В общем, есть из чего выбирать.

Rate this post