Database Programming & Design
859c2d4a

March of the Data Marts


Peter L. Brooks, management consultant with the Advanced

Technology Group of Coopers & Lybrand Consulting

E-mail:

Организациям, которые ориентируются на корпоративные склады

данных (datawarehouse), оказывается трудно строить и использовать

их. Для реализации склада данных требуется большой штат

сотрудников, мощная компьютерная аппаратура, сложное программное

обеспечение, время и деньги. Пользователям трудно понять

содержимое склада данных и ориентироваться в нем. По этим

причинам вместо или в дополнение к складам данных организуются

рынки данных (data mart).

По мере расширения области применения рынков данных возрастает

уровень требований. Для организации рынка данных недостаточно



использовать небольшие базы данных с облегченным для конечных

пользователей доступом. Современные рынки данных должны быть в

состоянии хранить сотни гигабайт данных и обеспечивать сложные

разновидности аналитической обработки, например, из области

добычи данных (data mining). Должен быть обеспечен удаленный

доступ к рынку данных для сотен пользователей - возможность,

которую дешево обеспечивает технология Internet и Intranet.

Наконец, организация должна быть в состоянии централизовано

администрировать и управлять многими рынками данных, которые

могут содержать несогласованные и конфликтующие данные.

Хотя теперь трудно различать рынки и склады данных, исходя

только из их размеров, некоторые различия остаются важными:

  • Рынок данных ориентирован только на одну предметную область или

    только на одну группу пользователей.

  • Организация может иметь один корпоративный склад данных, но

    много рынков данных.

  • В отличие от корпоративных складов данных, рынки данных не

    содержат оперативной информации.

  • Поскольку рынки данных содержат меньше информации, чем склад

    данных, они более понятны и более просто доступны пользователям.

    Компании-производители разрабатывают концепцию виртуального рынка

    данных, удовлетворяющего потребности в доступе к нескольким

    рынкам данных без необходимости репликации данных между рынками.


    Новая технология рынков данных все еще находится в стадии

    развития, хотя и не такого интенсивного как несколько лет тому

    назад, когда OLAP-системы, основанные на реляционных базах

    данных, были новинкой и на рынок складов данных вышло

    бесчисленное количество производителей. В прошлом году компании

    Information Builders Inc. (IBI) и SAS Institute Inc. объявили

    свои новые продукты, предназначенные для поддержки рынков

    данных,- Focus Fusion и SAS MDDB соответственно.

    Рост размеров рынков данных порождает несколько проблем при

    обеспечении доступа пользователей к корпоративной информации:

  • По мере роста рынка данных ухудшается эффективность доступа.

    Пользователи ожидают более короткого времени ответа при обращении

    к рынку данных, чем в случае склада данных.

  • Пользователям требуется доступ к нескольким рынкам данных, не

    обязательно принадлежащим их отделу и управляемых разными

    серверами баз данных. Данные могут быть реплицированы между

    рынками данных, но виртуальный рынок данных представляет собой

    лучшее решение.

  • Нелегко администрировать несколько рынков данных, обеспечивая

    согласованность и целостность метаданных для всех рынков данных,

    а также безопасность данных. Требуются специализированные

    средства поддержки администрирования рынка данных.

  • Если склад данных строится в течение нескольких лет, то для

    рынка данных должен существовать короткий цикл разработки с

    умеренными расходами. Для упрощения и сокращения срока (не более

    90 дней)разработки рынка данных разрабатываются средства типа

    "рынок данных в одной упаковке", включающие все необходимые

    компоненты.

    Решения рынков данных требуют применения двух- или трехуровневой

    архитектуры. На первом уровне может находиться склад данных (если

    рынок данных извлекается из более крупного склада данных). На

    втором уровне располагается сам рынок данных. Третий уровень

    составляют рабочие станции конечных пользователей. Для

    организации виртуальных рынков данных компания Information

    Advantage Inc.


    поддерживает разнородные серверы рынков данных с

    хранением метаданных в отдельном узле независимо от базы данных

    любого рынка данных.

    Для достижения эффективности рынка данных необходимо

    сбалансировать два критических компонента - время ответа для

    конечного пользователя и эффективность загрузки данных. В

    продукте Red Brick Warehouse 5.0 компании Red Brick Systems Inc.

    достигнуто существенное увеличение производительности за счет

    усовершенствования возможностей используемого сервера баз данных.

    Средство, называемое Continually Adaptive Indexing (TARGETindex),

    обеспечивает наличие индексов, которые автоматически и постоянно

    адаптируются к текущим особенностям обработки данных. Новый

    гибридный, основанный на хэшировании алгоритм соединения более

    эффективно срабатывает в ситуациях соединения очень больших

    таблиц, а также таблиц существенно разного размера. SQL-запросы

    могут встраиваться в раздел FROM другого запроса. Начальные

    строки результата передаются для анализа конечным пользователем

    до формирования полного результата.

    Системы управления многомерными базами данных (MDDB), такие как

    Essbase компании Arbor Siftware Corp., поддерживают

    инкрементальное обновление базы данных, при котором не изменяется

    общая структура MDDB, а изменяются только соответствующие ячейки

    данных. Это новое достижение, поскольку в отличие от реляционных

    баз данных, в которых модифицируются отдельные строки, в

    традиционных кубах MDDB требовалось изменение всего куба, что

    представляет собой долговременный процесс.

    Несколько компаний предлагает пути к повышению эффективности

    рынков данных за счет уменьшения их размеров. Например, в

    продукте Pilot Decision Support Suite компании Pilot Software

    Inc. поддерживаются динамические измерения и иерархии, что

    позволяет существенно сократить размеры хранимых баз данных.

    Агрегатные значения могут вычисляться по мере необходимости, а не

    заранее. Имеется пример сокращения размера MDDB от 4 Гб до 200 Мб

    за счет использования этого подхода.



    Решение компании CrossZ Software под названием QueryObject,

    которое может равно относиться к области MDDB или области

    реляционных баз данных, за счет использования фрактальных

    алгоритмов позволяет произвести компрессию данных в отношении

    10000 к одному с сохранением 100% точности.

    Тем не менее, остается проблема времени реакции системы на

    пользовательские запросы, для решения которой необходимо

    тщательно балансировать методы предвычисления агрегатных значений

    с методами вычисления агрегатов "на лету", учитывать

    эффективность процедуры загрузки данных и объем рынка данных.

    Без централизованного управления данные разных отделов корпорации

    становятся рассогласованными, пользователи не могут пользоваться

    информацией из разных рынков данных, и рынки данных слишком

    разнородны, чтобы можно было интегрировать их в единый склад

    данных. Продукт DSS Administrator компании MicroStrategy Inc.

    разработан с целью обеспечить возможности управления несколькими

    проектами из области поддержки принятия решений, несколькими

    группами пользователей и несколькими типами отчетов. Одна из

    мощных возможностей состоит в управлении виртуальными рынками

    данных, которые позволяют пользователям получать информацию из

    разных физических рынков данных. Пользователи могут объединяться

    в группы в соответствие с соображениями безопасности.

    Администратор может проводить анализ всей системы, а также

    отслеживать время генерации отчетов и уровень использования

    ресурсов в любой момент времени. Поскольку метрические данные

    системы хранятся в каталогах базы данных, могут генерироваться

    кастомизированные отчеты о работе каждого пользователя.

    Отдельным аспектом администрирования рынка данных является

    возможность оптимальной настройки. Продукт компании IBM Site

    Analyser позволяет администратору анализировать статистики,

    исходящие от пользователя или ресурса, что позволяет установить

    оптимальную среду запросов. В частности, возможно принятие или

    непринятие конкретного запроса в зависимости от оценок



    администратора.

    Многие производители осознают потребность в более облегченном

    создании рынков данных по сравнению с подходом складов данных.

    Разработка концепции "рынка данных в одной упаковке" ("data mart

    in a box") призвана для минимизации уровня этих проблем, включая

    вопросы аппаратной организации, программного обеспечения и

    профессионального обслуживания

    Продукт компании IBM SmartMart дает возможность использования

    программного обеспечения промежуточного уровня (middleware) для

    извлечения данных из более чем 60 реляционных или

    файл-ориентированных источников в рынки данных, основанные на

    использовании Fusion MDDB компании IBM или одной из основных

    реляционных баз данных. Имеется также продукт WebFocus,

    обеспечивающий возможность работы конечных пользователей в среде

    Internet. В "упаковку" входят средства администрирования и

    хранения метаданных.

    Продукт Visual Warehouse компании IBM работает в средах OS/2 или

    Windows NT. Версия NT включает сервер Visual Warehouse, драйверы

    ODBC, связующее средство DDCS, средство поддержания репозитория

    метаданных DataGuide и средство Lotus Approach для проведения

    анализа конечными пользователями. Возможно использование всех

    версий DB2, а также распространенных реляционных и нереляционных

    источников данных.

    Пакет PowerMart 3.5 компании Informatica Corp. содержит следующие

    средства: Informica PowerMart Designer, Repository, Server

    Manager, PowerMart Server и компоненты семейства Change/Capture.

    Поддерживаются все популярные реляционные базы данных. В средстве

    Star Schema Design Wizard (ой, как хочется сказать, "кудесник

    проектирования звезднообразных схем") используется визуальный

    интерфейс для поддержки проектирования базы данных.

    Программа RightStar компании NCR Corp. разработана для того,

    чтобы обеспечить разработку рынка данных в течение 90 дней при

    том, что рынок данных сможет разрастаться до размеров склада

    данных. Продукт включает сервер WorldMark 5100S, операционную



    систему NCR Unix MP-RAS, средства управления базами данных

    (Teradata, Oracle или Informix), средства доступа к данным или их

    преобразования и профессиональные службы. Анонсировано

    партнерство с компанией Microsoft с целью повышения уровня

    интеропрерабельности между серверами баз данных Teradata и MS SQL

    Server.

    Internet/Intranet технологии обещают предоставить дешевый доступ

    к складам и рынкам данных на основе Web-браузеров. Компании

    MicroStrategy и Information Advantage обещают средства семейства

    ROLAP (Relational On-Line Analisis Processing) на основе

    Web-продуктов (то же самое относится к компаниям Arbor Software и

    Pilot Software). Основанный на Windows NT продукт Essbase Web

    Gateway поддерживает функциональные свойства OLAP для

    пользователей Essbase. Пакет Pilot Internet Publisher

    обеспечивает пользователей Pilot Decision Support доступом к

    данным через стандартные Web-браузеры. Основанный на Windows NT

    продукт DSS Web 4.1 компании Microstrategy включает базированный

    на языке Java пакет AutoPrompt, который позволяет внедрять

    встроенные запросы, поддерживать разнообразные языки,

    использовать диагностику уровня администратора. Программа

    работает на платформах Windows 3.1, Windows 95, Windows NT, OS/2,

    Macintosh, Unix.

    Основными задачами, которые предстоит решить производителям,

    остаются следующие:

  • Короткое время ответа на запросы к масштабным рынкам данных.

  • Администрирование рынков данных.

  • Возможности быстрой реализации.

    Координаты компаний:

    Arbor Software Corp.:

    Blue Isle Software Corp.:

    CrossZ Software:

    IBM:

    Informatica Corp.:

    Information Advantage Inc.:

    Information Builders Inc.:

    MicroStrategy Inc.:

    NCR Corp.:

    Pilot Software Inc.:

    Red Brick Systems Inc.:

    Sagent Technology Inc.:

    SAS Institute Inc.:


    Содержание раздела