Содержание
Тема 1. Информация в контексте современной экономики
Тема 2. Анализ информации на предприятии.
Тема 3. Информационно – аналитическая система как инструмент проведения экономического анализа.
Тема 4. Хранилища данных
Тема 5. Оперативный анализ данных
Тема 6. Интеллектуальный анализ данных
Тема 7. Инструментальные средства автоматизации аналитической работы и планирования.
Тема 8. Программные инструментальные средства информационно – аналитических систем
PolyAnalyst (Мегапьютер Интеллидженс)
Предметно-ориентированные аналитические системы
Предметно-ориентированные аналитические системы очень разнообразны. Эти системы решают узкий класс специализированных задач. Наиболее широкий подкласс таких систем, получивший распространение в области исследования финансовых рынков, носит название “технический анализ”. Он представляет собой совокупность нескольких десятков методов прогноза динамики цен и выбора оптимальной структуры инвестиционного портфеля, основанных на различных эмпирических моделях динамики рынка. Эти методы часто используют несложный статистический аппарат, но максимально учитывают сложившуюся в своей области специфику (профессиональный язык, системы различных индексов и пр.).
На рынке имеется множество программ этого класса. Как правило, они довольно дешевы (обычно $300–1000).
Хорошим примером являются программы технического анализа финансовых рынков:
Статистические пакеты
Это мощные математические системы, предназначенные для статистической обработки данных любой природы. Они включают многочисленные инструменты статистического анализа, имеют развитые графические средства. Главный недостаток систем этого класса – их невозможно эффективно применять для анализа данных, не имея глубоких знаний в области статистики. Неподготовленный пользователь должен пройти специальный курс обучения.
Примеры систем:
Нейроннoсетевые пакеты
Это широкий класс разнообразных систем, представляющих собой иерархические сетевые структуры, в узлах которых находятся так называемые нейроны. Сети тренируются на примерах, и во многих случаях дают хорошие результаты предсказаний. Основными недостатками нейронных сетей являются необходимость иметь очень большой объем обучающей выборки, а также трудности в интерпретации результатов. Тренированная нейронная сеть представляет собой “умный черный ящик”, работу которого невозможно понять и контролировать.
Примеры нейронно-сетевых пакетов:
Пакеты, реализующие алгоритмы “Decision trees”
Деревья решения являются одним из наиболее популярных подходов к решению задач Data Mining. Этот метод используется только для решения задач классификации. Это является его серьезным ограничением. Результатом работы метода является иерархическая древовидная структура классификационных правил типа “IF…THEN…”. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид “значение параметра A больше x?”. Если ответ положительный, осуществляется переход к правому узлу следующего уровня, если отрицательный — то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом. Достоинством метода является естественная способность классификации на множество классов.
Примеры систем:
Системы рассуждений на основе аналогичных случаев (case based reasoning – CBR)
Идея систем case based reasoning – CBR – крайне проста. Для того чтобы сделать прогноз на будущее или выбрать правильное решение, эти системы находят в прошлом близкие аналоги наличной ситуации и выбирают тот же ответ, который был для них правильным. Поэтому этот метод еще называется методом “ближайшего соседа” (nearest neighbour). Системы CBR показывают очень хорошие результаты в самых разнообразных задачах.
Главный их минус заключается в том, что они вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт, – в выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов CBR системы строят свои ответы. Другой минус заключается в произволе, который допускают системы CBR при выборе меры “близости”. От этой меры самым решительным образом зависит объем множества прецедентов, которые нужно хранить в памяти для достижения удовлетворительной классификации или прогноза.
Примеры систем:
Генетические алгоритмы
Строго говоря, интеллектуальный анализ данных – далеко не основная область применения генетических алгоритмов, которые, скорее, нужно рассматривать как мощное средство решения разнообразных комбинаторных задач и задач оптимизации. Тем не менее, генетические алгоритмы вошли сейчас в стандартный инструментарий методов data mining. Этот метод назван так потому, что в какой-то степени имитирует процесс естественного отбора в природе.
Первый шаг при построении генетических алгоритмов — это кодировка исходных логических закономерностей в базе данных, которые именуют хромосомами, а весь набор таких закономерностей называют популяцией хромосом. Далее для реализации концепции отбора вводится способ сопоставления различных хромосом. Популяция обрабатывается с помощью процедур репродукции, изменчивости (мутаций), генетической композиции. Эти процедуры имитируют биологические процессы.
Генетические алгоритмы имеют ряд недостатков. Критерий отбора хромосом и используемые процедуры являются эвристическими и далеко не гарантируют нахождения “лучшего” решения. Как и в реальной жизни, эволюцию может “заклинить” на какой-либо непродуктивной ветви.
Пример системы:
GeneHunter фирмы Ward Systems Group.
Эволюционное программирование
Проиллюстрируем современное состояние данного подхода на примере системы PolyAnalyst — отечественной разработке, получившей сегодня общее признание на рынке Data Mining. В данной системе гипотезы о виде зависимости целевой переменной от других переменных формулируются в виде программ на некотором внутреннем языке программирования. Процесс построения программ строится как эволюция в мире программ (этим подход немного похож на генетические алгоритмы). Когда система находит программу, более или менее удовлетворительно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных дочерних программ те, которые повышают точность. Таким образом, система “выращивает” несколько генетических линий программ, которые конкурируют между собой в точности выражения искомой зависимости. Специальный модуль системы PolyAnalyst переводит найденные зависимости с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и пр.).
Другое направление эволюционного программирования связано с поиском зависимости целевых переменных от остальных в форме функций какого-то определенного вида. Например, в одном из наиболее удачных алгоритмов этого типа — методе группового учета аргументов (МГУА) зависимость ищут в форме полиномов. В настоящее время из продающихся в России систем МГУА реализован в системе NeuroShell компании Ward Systems Group.
Оперативная аналитическая обработка и интеллектуальный анализ данных – две составные части процесса поддержки принятия решений. Но сегодня большинство систем OLAP заостряет внимание только на обеспечении доступа к многомерным данным, а большинство средств ИАД, работающих в сфере закономерностей, имеют дело с одномерными перспективами данных. Эти два вида анализа должны быть тесно объединены, то есть системы OLAP должны фокусироваться не только на доступе, но и на поиске закономерностей. Как заметил N. Raden, “многие компании создали … прекрасные хранилища данных, идеально разложив по полочкам горы неиспользуемой информации, которая сама по себе не обеспечивает ни быстрой, ни достаточно грамотной реакции на рыночные события”.
К сожалению, очень немногие производители предоставляют сегодня достаточно мощные средства интеллектуального анализа многомерных данных в рамках систем OLAP. Проблема также заключается в том, что некоторые методы ИАД (байесовские сети, метод k-ближайшего соседа) неприменимы для задач многомерного интеллектуального анализа, так как основаны на определении сходства детализированных примеров и не способны работать с агрегированными данными.
Рисунок 4. Архитектура системы многомерного интеллектуального анализа данных
Рынок систем Data Mining экспоненциально развивается. В этом развитии принимают участие практически все крупнейшие корпорации.
Системы Data Mining применяются по двум основным направлениям:
1) как массовый продукт для бизнес-приложений;
2) как инструменты для проведения уникальных исследований (генетика, химия, медицина и пр.).
Лидеры Data Mining связывают будущее этих систем с использованием их в качестве интеллектуальных приложений, встроенных в корпоративные хранилища данных.
Несмотря на обилие методов Data Mining, приоритет постепенно все более смещается в сторону логических алгоритмов поиска в данных if-then правил. С их помощью решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных “скрытых” знаний, интерпретации данных, установления ассоциаций в БД и др. Результаты таких алгоритмов эффективны и легко интерпретируются.
Вместе с тем, главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов за приемлемое время. Известные методы либо искусственно ограничивают такой перебор, либо строят деревья решений, имеющих принципиальные ограничения эффективности поиска if-then правил. Другие проблемы связаны с тем, что известные методы поиска логических правил не поддерживают функцию обобщения найденных правил и функцию поиска оптимальной композиции таких правил. Удачное решение указанных проблем может составить предмет новых конкурентоспособных разработок.
Компьютерные технологии автоматического интеллектуального анализа данных переживают бурный расцвет. На российском рынке эта технология пока делает лишь первые шаги. Отчасти это можно объяснить высокой стоимостью систем data mining, но, как показывает история развития других сегментов компьютерного рынка России, сам по себе этот фактор вряд ли является определяющим. Скорее здесь проявляется действие некоторых специфичных для России негативных факторов, резко уменьшающих эффективность применения технологии data mining.
Начнем с характеристики российской специфики. Компьютерные системы поддержки принятия решений, в принципе, могут основываться на двух подходах.
Первый, более традиционный, заключается в том, что в системе фиксируется опыт эксперта, который и используется для выработки оптимального в данной ситуации решения.
Второй, системы пытаются найти решения на основе анализа исторических данных, описывающих поведение изучаемого объекта, принятые в прошлом решения, их результаты и т.д.
С этим очевидным обстоятельством связана главная трудность продвижения технологии data mining в России: отличительная черта большинства российских предприятий – сравнительно небольшой срок их существования. Характерный “возраст” накопленных ими баз данных составляет 2-3 года, и, как показывает опыт, информации, содержащейся в этих базах данных, часто оказывается недостаточно для выработки на ее основе эффективной стратегии принятия решений с помощью систем data mining.
Другой отличительной чертой российской экономики, как на макро-уровне, так и на уровне отдельных предприятий является ее нестабильность; кроме того, она подвержена и действию многочисленных неожиданно возникающих факторов. В то время как на Западе предприятия в основном работают в рамках уже устоявшейся законодательной базы, в сложившихся структурах товарных, финансовых и информационных потоков, российские предприятия вынуждены подстраиваться под постоянно меняющиеся правила игры.
Наконец, еще одно обстоятельство влияет на применение систем добычи знаний в российских условиях. Оно связано с тем, что люди, ответственные за принятие решений в бизнесе и финансах, обычно не являются специалистами по статистике и искусственному интеллекту и поэтому не могут непосредственно использовать системы интеллектуального анализа данных, требующие сложной настройки или специальной подготовки данных. Поэтому важными факторами, определяющими коммерческий успех систем интеллектуального анализа данных в России, являются простота в использовании и высокая степень автоматизма.
http://www.seagatesoftware.com/products/crystalreports.
OLAP-сервер Hyperion Essbase представляет собой серверное OLAP-средство, основанное на многозвенной архитектуре и предназначенное для многопользовательского доступа к OLAP-данным и проведения аналитических расчетов. OLAP-сервер Hyperion Essbase поддерживает Windows NT, UNIX и AS/400 и может быть использован совместно с различными источниками данных и аналитическими приложениями. Отметим, что на базе Hyperion Essbase созданы OLAP-решения IBM.
Открытая архитектура Hyperion Essbase поддерживает доступ к OLAP-данным этого сервера с помощью самых разнообразных средств — электронных таблиц, построителей запросов, генераторов отчетов, — позволяя этим средствам выступать в роли клиентских приложений. Essbase поддерживает более 50 клиентских продуктов, в частности Seagate Software Crystal Reports и Crystal Info, средства просмотра OLAP-данных, такие как Business Objects и Cognos PowerPlay, электронные таблицы ведущих производителей. Кроме того, Hyperion Solutions поставляет собственные BI-приложения на базе Essbase.
Дополнительная информация доступна на Web-сайте фирмы по адресу: http://www.essbase.com/.
STATISTICA (StatSoft)
STATISTICA Base предлагает широкий набор методов для анализа (рис. 9):
Описательные статистики и графики. Программа вычисляет практически все используемые описательные статистики общего характера: медиану, моду, квартили, заданные пользователем процентили, среднее значение и стандартное отклонение, квартильный размах, доверительные интервалы для среднего, асимметрию и эксцесс (и их стандартные ошибки), гармоническое и геометрическое среднее, а также многие специальные описательные статистики.
Группировка. Практически все описательные статистики и графики могут быть построены для данных, категоризованных (сгруппированных) по значениям одной или нескольких группирующих переменных. Например, с помощью нескольких щелчков мыши можно сгруппировать имеющиеся данные о людях по полу и возрасту, а затем просмотреть категоризованные гистограммы, диаграммы размаха, нормальные вероятностные графики, диаграммы рассеяния и т.д.
Корелляция. В системе имеется большой набор методов для исследования корреляций между переменными. Прежде всего, могут быть вычислены все основные характеристики связи между переменными, в том числе: коэффициент корреляции Пирсона r, коэффициент ранговой корреляции Спирмена R,тау (b, c) Кендалла, Гамма, тетрахорический r, Фи, V Крамера, коэффициент сопряженности C, D Соммера, коэффициенты неопределенности, частные и получастные корреляции, автокорреляции, различные меры расхождения и т.д.
Рисунок 9. Окно STATISTICA
Диаграмма рассеивания, матричная диаграмма рассеивания, анализ по группам. Как и во всех других диалоговых окнах вывода, здесь доступны различные общие параметры графического вывода, позволяющие проводить дальнейшее изучение закономерностей и взаимосвязей между переменными; например, двух- и трехмерные диаграммы рассеяния (с метками наблюдений или без них) служат для выявления зависимостей по подмножествам наблюдений или последовательностям переменных. Корреляционные матрицы могут быть категоризованы группирующими переменными и представляться графически в виде категоризованных диаграмм рассеяния.
Вероятностный калькулятор. Из любой панели инструментов системы STATISTICA доступен удобный интерактивный Калькулятор вероятностных распределений. Он поддерживает множество типов стандартных распределений (бета, Коши, хи-квадрат, экспоненциальное,экстремальное (Гумбеля), F, гамма, Лапласа, логнормальное, логистическое, Парето, Релея, t (Стьюдента), Вейбулла и Z (нормальное)).
Модуль Непараметрическая статистика содержит полный набор непараметрических статистик, включая все стандартные тесты и некоторые специальные прикладные статистики, в частности, критерий Вальда-Вольфовица, U тест Манна-Уитни (с точными вероятностями вместо нормальных аппроксимаций для малых выборок), критерии Колмогорова-Смирнова, критерий Вилкоксона парных сравнений, ранговый дисперсионный анализ Краскела-Уоллиса, медианный тест, критерий знаков, ранговый дисперсионный анализ Фридмана, Q- критерий Кохрена, критерий МакНемара, коэффициент конкордации Кендалла, тау (b, c) Кендалла, ранговая корреляция Спирмена R, точный критерий Фишера, критерии хи-квадрат, статистики V-квадрат, Фи, Гамма, dСоммера, коэффициенты сопряженности и другие
Mathcad 11 (MathSoft)
Программа Mathcad сочетает в себе:
С помощью эффективной среды решения задач программы Mathcad можно выполнять работу и демонстрировать результаты в одном и том же документе – на рабочей странице Mathcad. Прекрасное взаимодействие с другими инженерными, графическими и бизнес приложениями делает Mathcad необходимым элементом любого многогранного решения. Мощные средства Интернет-опубликования ускоряет процесс ознакомления с документами коллег и других Mathcad пользователей.
В отличие от другого технического программного обеспечения Mathcad осуществляет математические расчеты в той же последовательности, в которой Вы их записываете. Вводятся уравнения, данные для построения графика функции и текстовые примечания в любом месте страницы, при этом математические выражения в Mathcad записываются в полиграфическом формате.
Единственная разница с обычным текстом, включающим математические формулы и графики состоит в том, что Mathcad уравнения и графики – «живые». Изменение значений переменных, данных графика или уравнений приведет к немедленному перевычислению рабочей страницы.
Набор математических функций и методов вычислений, входящих в Mathcad настолько велик, что его можно сравнить с математической энциклопедией с живыми формулами.
Например, Mathcad содержит все элементарные математические функции и большое количество специальных функций; обрабатывает данные, в том числе статистическими методами, находит подгоночные функции; строит двух- и трехмерные графики; решает численно и аналитически системы дифференциальных уравнений, как обыкновенных, так и с частными производными, а также решает множество других задач.
KXEN (Knowledge Extraction Engines) Analytic Framework – это инструмент для построения описательных и предсказательных моделей. Применение KXEN позволяет организации перейти к анализу на высшем уровне: от «портрета» ситуации – к пониманию причин происходящих процессов и прогнозированию.
Технологию KXEN называют эволюцией подхода Data Mining по следующим причинам:
3 Специализированные информационно-аналитические системы
Программные продукты Business Objects
Компания Business Objects с момента своего основания специализируется на создании аналитического программного обеспечения. Линейка продуктов компании Business Objects включает в свой состав средства бизнес-анализа (business intelligence), интеграции данных (data integration) и управления эффективностью деятельности (enterprise performance management).
В данную категорию входят средства доступа к данным, создания отчетности и анализа информации BusinessObjetcs, WebIntelligence, BusinessQuery, Crystal Analysis и средства создания информационной инфраструктуры, входящие в пакет BusinessObjects Enterprise.
К данной категории продуктов относятся средства визуализации данных и создания информационных панелей Dashboard Manager и средства построения систем управления эффективностью деятельности на основе анализа ключевых показателей Performance Manager.
В данную категорию входят пакетные аналитики для основных предметных областей деятельности BusinessObjects Analytics, средства настройки и создания собственных аналитических приложений Application Foundation и модель корпоративного хранилища данных BusinessObjects Warehouse, обеспечивающая быстрое внедрение аналитических приложений.
К данной категории относятся средства извлечения, преобразования и загрузки данных BusinessObjects Data Integrator и «готовые» витрины данных Data Marts, предназначенные для быстрого извлечения данных из корпоративных приложений SAP, PeopleSoft, Oracle, J.D. Edwards и Siebel.
Аналитическая платформа Контур (Intersoft Lab www.iso.ru)
Программные продукты АПК относятся к классу систем Business Intelligence и предоставляют технологию оперативной аналитической обработки данных (OLAP). В составе АПК для создания системы корпоративных отчетов предлагаются программы:
Программы АПК позволяют выпускать мобильные отчеты по данным любых корпоративных источников информации: учетных систем, Хранилища данных, локальных таблиц и др. С помощью мобильных отчетов можно передавать корпоративную отчетность удаленным пользователям по e-mail и через Интернет/Интранет:
ФИНАНСОВОЕ ХРАНИЛИЩЕ ДАННЫХ “КОНТУР КОРПОРАЦИЯ” (Intersoft Lab www.iso.ru)
Финансовое Хранилище данных “Контур Корпорация” предлагается холдингам, промышленным группам, организациям и банкам с многофилиальной структурой для создания единой информационной среды и обеспечения эффективного управления бизнесом.
Финансовое Хранилище данных (ФХД) позволяет консолидировать финансовую информацию из различных корпоративных систем и предоставляет быстрый доступ ко всем деловым данным организации. ФХД “Контур Корпорация” обеспечит высшее руководство, менеджеров среднего звена, аналитиков и бухгалтеров информацией для эффективного управления и контроля деятельности многофилиальной организации.
ФХД “Контур Корпорация” решает следующие задачи:
Возможны различные масштабы построения ФХД “Контур Корпорация” – от Единого Хранилища данных, функционирующего в Управляющей компании или Головной конторе, до Распределенного Хранилища, когда в организации используется несколько Хранилищ данных.
Содержание
Системы «Контур Дизайнер Кубов», «Контур Генератор Кубов», «Контур OLAPBrowser» и «Контур Стандарт» входят в состав Аналитической платформы Контур (АПК), которую разрабатывает компания Intersoft Lab. Аналитическая платформа Контур предназначена для анализа финансовой, статической и другой бизнес-информации и выпуска отчетов.
Системы Контур используют современную технологию оперативной аналитической обработки бизнес-данных OLAP (On-line Analytical Processing). На сегодняшний день OLAP –это самый мощный вид табличного генератора отчетов. Системы Контур позволяют получать произвольные экранные отчеты для интерактивного анализа и распечатывать отчеты на бумаге.
С помощью программ могут быть реализованы различные решения для подготовки отчетности организации:
Для организаций с многофилиальной сетью, подразделения которых территориально распределены, можно создать систему корпоративной отчетности в сети Интернет. По данным корпоративных источников будут создаваться мобильные отчеты для анализа различных аспектов деятельности организации и публиковаться на web-сайте компании, размещаться на ftp-сервере или рассылаться сотрудникам удаленных подразделений по e-mail. Мобильные отчеты ориентированы на передачу больших объемов данных через Интернет и позволяют значительно уменьшить трафик и время передачи отчетности.
С помощью “Контур Дизайнера кубов” по данным корпоративных систем проектируются отчеты и настраиваются сценарии их пакетного создания. “Контур Генератор кубов” позволяет создавать отчеты по настроенным сценариям с заданной периодичностью (раз в день, раз в час или иначе) так, чтобы пользователи всегда получали актуальную информацию. Чтобы получить готовые отчеты руководителям и сотрудникам филиалов достаточно зайти на web-сайт компании и кликнуть по ссылке, либо открыть “Контур OLAPBrowser” для просмотра отчетов.
Возможен и другой способ подготовки отчетов через web-сайт. Пользователи могут самостоятельно на web-сайте формировать запрос на создание отчета из корпоративного источника данных (определять его параметры), а “Контур Генератор кубов” обеспечит быстрое создание и размещение отчета на web-сайте. В результате пользователь получит готовый отчет с актуальной информацией из первоисточника.
Доставлять мобильные отчеты удаленным пользователям можно также по электронной почте или, размещая их на ftp-сервере для скачивания. Пользователи смогут просматривать полученные отчеты с помощью программ “Контур OLAPBrowser” и “Контур Стандарт”.
Система доставки отчетов удаленным пользователям представлена на рисунке 1.
Рисунок 1. Система доставки отчетов удаленным пользователям.
Технология подготовки отчетов через Интернет может использоваться не только для сотрудников организации, но и для ее акционеров, партнеров и клиентов. В виде микрокубов могут публиковаться отчеты о финансовых результатах компании для акционеров и клиентов. В интерактивных отчетах микрокуба можно предоставлять объемные прайс-листы компании, в них клиентам будет удобно просматривать и находить нужные позиции.
Программы АПК могут использоваться для создания системы подготовки отчетности компании внутри офиса. Можно организовать выпуск отчетности по данным автоматизированных систем, в которых ведется учет текущих операций финансово-хозяйственной деятельности. IT-специалисты с помощью программ проектирования и генерации мобильных отчетов смогут быстро создавать любую отчетность по данным учетных систем, необходимую руководству и менеджерам.
Использование технологии мобильных отчетов, позволит уменьшить количество нерегламентированных запросов к учетной системе, которые замедляют выполнение транзакций, снизить нагрузку на сервер и оптимизировать выпуск аналитических отчетов. Создание отчетов может выполняться автоматически по расписанию в нерабочее время, когда операционисты не вводят данные в учетную систему.
Мобильные отчеты могут быть размещены на сервере или на клиентских машинах, где пользователи смогут просматривать их программами “Контур OLAPBrowser” и “Контур Стандарт”. Отчеты будут предоставлены в виде интерактивной таблицы, пользователи смогут управлять представлением информации в ней и получать на ее основе десятки разнообразных отчетов и графиков. Таким образом, IT-специалисты будут освобождены от рутинной работы по реализации однотипных жестких форм отчетов.
Если руководству необходимо получать оперативные отчеты, то обеспечит выпуск отчетности из учетной системы или другого источника данных в режиме on-line программа “Контур Стандарт”.
Система подготовки отчетности по локальной сети представлена на рисунке 2.
Рисунок 2. Система подготовки отчетности в локальной сети.
Программы “Контур OLAPBrowser” и “Контур Стандарт” можно использовать для создания персональной системы подготовки отчетности.
С помощью “Контур OLAPBrowser” руководители, менеджеры и аналитики смогут самостоятельно создавать единичные мобильные отчеты из источника, просматривать и анализировать готовые отчеты.
“Контур Стандарт” позволит напрямую обращаться к источнику данных и выпускать интерактивные отчеты в режиме on-line.
В состав АПК входят программы:
Системы «Контур Дизайнер Кубов», «Контур Генератор Кубов» и «Контур OLAPBrowser» используются в едином промышленном цикле работы с микрокубами.
«Контур Дизайнер кубов» – система для проектирования мирокубов и сценариев их генерации. Она предоставляет визуальную среду для описания корпоративных источников данных, запросов к источникам, структуры микрокубов и сценариев генерации. Все выполненные настройки сохраняются в репозитории метаданных или приложении системы.
Репозиторий (приложение) представляет собой файл в формате XML. Из репозитория сценарии генерации микрокубов можно сохранять в виде отдельных файлов XML-формата. Сценарий используется системой «Контур Генератор кубов» для генерации микрокубов.
«Контур Генератор кубов» – программа для массовой генерации микрокубов по заданным сценариям. Читая сценарий, «Контур Генератор кубов» выполняет запрос к базе данных, создает микрокуб и наполняет его данными. На основе одного сценария может быть создан один куб или пакет кубов. Чтобы выполнять массовую генерацию кубов, в сценарии определяются мастер-поля. Например, в сценарии «Продажа товаров» можно задать мастер-поле «Наименование покупателя». Тогда «Контур Генератор» кубов создаст столько микрокубов, сколько указано покупателей в этом поле. В каждом кубе будет храниться информация по продажам товара одному покупателю.
«Контур Генератор кубов» является утилитой командной строки и может принимать внешние параметры. Они позволяют передавать сценарию дополнительные условия фильтрации для выборки данных, которая помещается в кубы. Например, передавая сценарию параметр «Дата», можно генерировать кубы с данными за разные периоды.
«Контур Генератор Кубов» может запускаться системным планировщиком по заданному расписанию или внешними системами по событию. Например, Web-сервер предоставляет пользователю страницу запросов на генерацию микрокубов. Введенные параметры сценария передаются программе, она запускается и создает кубы.
Просмотр и OLAP-анализ информации микрокубов в корпоративной сети и в сети Интернет обеспечивает программа «Контур OLAPBrowser».
«Контур OLAPBrowser» – специализированный броузер для просмотра и OLAP-анализа микрокубов в Интернет, локальной сети, на пользовательском компьютере и обычной работы в Интернет. Программа предлагается в трех редакциях, ориентированных на различных пользователей:
Технология работы с микрокубами представлена на рисунке 3.
Рисунок 3. Технология работы с микрокубами.
Стандартный алгоритм работы с системами АПК Контур
o Создание приложения.
o Описание баз данных.
o Описание взаимосвязи источников данных.
o Построение запросов к модели данных.
o Проектирование структуры микрокуба и настройка OLAP-интерфейсов для просмотра данных микрокуба.
o Создание сценария генерации микрокубов.
Микрокуб Контур – это мобильный контейнер аналитических отчетов и данных для анализа. В микрокубе хранятся данные, выгруженные из корпоративных информационных систем, алгоритмы расчета вычисляемых показателей и формы OLAP-отчетов. Данные в микрокубе подготовлены для многомерного анализа и оперативного получения показателей в различных аналитических разрезах. При помещении в микрокуб объем исходной информации сжимается в десятки раз. Компактный размер позволяет передавать микрокубы по Интернет-протоколам и пересылать по электронной почте.
Микрокубы – это эффективный способ информационно-аналитического обеспечения различных специалистов и подразделений организации. В микрокубы можно поместить информацию из бухгалтерских и ERP-систем, Хранилищ данных, специализированных баз данных подразделений, Web-сайта и других корпоративных источников. Руководители, менеджеры и аналитики, работая с подготовленными к анализу данными, смогут быстро получать интересующие цифры и показатели.
Микрокубы – это удобное средство информационного взаимодействия с удаленными подразделениями компании и внешними организациями. В виде микрокубов филиалы могут получать из Центрального офиса управленческую и аналитическую отчетность, информацию о корпоративных клиентах и пр. Размещая микрокубы на Web-сайте или корпоративном портале, можно обеспечить доступ к данным удаленным участникам бизнеса. В микрокубах можно предоставлять информацию клиентам организации, например многоуровневые электронные прайс-листы, выписки по счетам клиентов и др.
Микрокубы – это новое качество информационного сервиса. Информационные агентства и электронные биржи могут публиковать на своих сайтах микрокубы с аналитическими обзорами, проспектами биржевых индексов, котировками ценных бумаг различных эмитентов, акций, облигаций и векселей, биржевые курсы валют и др. В результате подписчики будут обеспечены информацией и современными инструментами ее анализа.
Применяя микрокубы, можно наладить эффективный информационных сервис в корпоративной сети и в Интернет.
Основные принципы организации микрокуба:
Система «Контур Стандарт» использует современную технологию оперативной аналитической обработки бизнес-данных OLAP. На сегодняшний день OLAP – это самый мощный вид табличного генератора отчетов. Система позволяют получать произвольные экранные отчеты для интерактивного анализа и распечатывать отчеты на бумаге.
Систему можно использовать для анализа в различных предметных областях: управление снабжением по данным ERP-системы, анализ продаж по данным CRM-системы, финансовый анализ по показателям обязательной отчетности и т.д.:
O руководители могут оперативно получать интересующие показатели.
O менеджеры отделов продаж и закупок – контролировать динамику продаж, текущее состояние счетов клиента и складских запасов.
O специалисты службы маркетинга – решать такие задачи как сегментирование клиентской базы, анализ спроса, оценка потребительского интереса по данным о посещаемости сайта компании (click-stream анализ).
O аналитики – реализовать индивидуальную модель оценки различных аспектов деятельности организации, и пр.
«Контур Стандарт» можно эксплуатировать практически в любой сфере, где требуется анализировать числовые данные и получать множество представлений одного набора данных в разных отчетах. Инструменты OLAP-анализа позволяют огромные массивы деловой информации показать в аналитических отчетах в виде наглядной картины состояния бизнеса.
Принципы работы системы «Контур Стандарт»
Система «Контур Стандарт» – инструмент анализа данных различных информационных систем и генерации отчетов. Обеспечивает доступ к локальным таблицам и популярным СУБД, позволяет выполнять запросы к БД и выпускать отчеты с интересующими показателями.
«Контур Стандарт» относится к классу OLAP-клиентов со встроенной OLAP-машиной. То есть система не хранит данные, а обращается с запросами к имеющимся источникам данных, выполняет промежуточные вычисления в памяти клиентского компьютера и отображает полученные результаты в OLAP-интерфейсах.
С помощью «Контур Стандарт» можно анализировать данные информационных систем, как в режиме реального времени, так и в off-line режиме. Для этого OLAP-система «Контур Стандарт» поддерживает две модели доступа к данным: ROLAP (Relational OLAP) и MOLAP (Multidimensional OLAP).
Описание источников данных, запросов и пользовательских интерфейсов сохраняются в файле OLAP-приложения.
ROLAP-архитектура используется для анализа корпоративных данных в режиме реального времени. Например, on-line анализ требуется для управления риском ликвидности, когда есть необходимость постоянно получать актуальную информацию.
MOLAP-архитектура используется для информационной поддержки удаленных пользователей, например, для обмена данными с филиалами или для размещения информации на Web-сайтах, а также для организации работы с популярными запросами к корпоративным БД.
Работа в ROLAP-архитектуре
Создание OLAP-приложения в «Контур Стандарт» заключается в последовательном описании трех взаимосвязанных слоев: слоя источников данных, слоя бизнес-объектов и слоя интерфейса:
Например, описание физической таблицы Product с полями ID и Name хранится в словаре как источник Продукты с полями Код и Товар, а таблицы Deal с полями Product ID, Date и Amount – как источник данных Сделки с полями Код продукта, Дата и Сумма.
Так, например, при описании бизнес-объекта Продажи из списка полей источников данных Продукты и Сделки для отображения выбираются поля Товар, Дата и Сумма, а сами таблицы связываются по ключу Код продукта.
Слой источников данных и слой бизнес-объектов составляют словарь объектов предметной области, который скрывает от пользователя реальную структуру хранения данных в базе.
Например, при создании OLAP-таблицы «Отчет о продажах» строками назначаются Товары, колонками Даты, а значениями на пересечениях строк и колонок – Суммы продаж (рис. 2).
Рисунок 2. Структура OLAP – таблицы
Все настройки сохраняются в файле OLAP-приложения, который можно использовать в других копиях и редакциях программы.
Работа в MOLAP-архитектуре
OLAP-отчет можно сохранить в микрокуб для работы в off-line режиме и передачи удаленным пользователям. «Контур Стандарт» позволяет сохранять в микрокубах единичные отчеты.
Для массового производства микрокубов и работы с ними предназначены специализированные системы Аналитической платформы Контур: «Контур Дизайнер кубов», «Контур Генератор кубов» и «Контур OLAPBrowser».
Редакции системы «Контур Стандарт»
Система «Контур Стандарт» имеет несколько редакций, ориентированных на различных пользователей:
«Контур Стандарт. Дизайнер» – полнофункциональная редакция системы, предназначенная для специалистов, которые будут выполнять настройку на источники данных, и конечных пользователей аналитической информации. Включает следующие функции:
«Контур Стандарт. Аналитик» – система для анализа данных с использованием готовых приложений. Обеспечивает аналитика следующей функциональностью:
«Контур Стандарт. Обозреватель» – система для просмотра и анализа готовых отчетов.
Обеспечивает пользователя следующей функциональностью:
Работа с системой «Контур Стандарт» организуется в два этапа:
OLAP-приложение (файл формата *.caf) – отдельный программный ресурс (репозиторий метаданных), в котором хранятся настройки источников данных, запросов к источникам данных и аналитические отчеты. Создание OLAP-приложения состоит в последовательном описании этих настроек.
Источники данных – локальные таблицы и реляционные БД автоматизированных систем, в которых хранятся корпоративные данные для анализа (таблицы MS Excel, БД бухгалтерских или ERP-систем, Хранилищ данных и т.д.). «Контур Стандарт» поддерживает прямой доступ к локальным таблицам (Dbase и Paradox) и к таблицам и хранимым процедурам реляционных СУБД (MS SQL, Oracle, Sybase, MS Access и т.д.).
Запросы – SQL-запросы к источникам данных, описываемые в системе на уровне правил объединения таблиц источников данных по ключевым полям, условия фильтрации данных и набора возвращаемых полей. Результатом выполнения запроса является плоская выборка данных, отображаемая в отчетах.
Отчеты – пользовательские интерфейсы для анализа данных. В «Контур Стандарт» можно создать 4 вида отчетов:
Все пользовательские отчеты могут быть проиллюстрированы графиками, распечатаны, выгружены в офисные приложения (MS Excel, MS Word, html-формат) или сохранены в csv-формате.
Таблицы – плоские списочные отчеты, сопровождаемые графиками. Пользователь может быстро перерисовывать графики, фильтруя значения измерений и управляя фактами и измерениями по осям. Это позволяет оперативно менять «точку зрения» на анализируемые данные в поисках зависимостей и тенденций.
Тренды – отчеты, отражающие изменение показателей во времени и динамику этих изменений. Особенно эффективно использование трендов для изучения сезонных колебаний и прогнозирования тенденций.
Кластерный анализ – интерфейс, позволяющий объединять объекты в группы (кластеры) по заданным признакам, сравнивать группы, выявлять среди них крупные (наиболее влиятельные) и мелкие (наименее влиятельные). Этот интерфейс полезен, например, при создании приложений для маркетингового анализа.
OLAP-отчеты – управляемые динамические OLAP-таблицы, которые сопровождаются синхронной диаграммой (графиком). OLAP-отчет может содержать данные, полученные по запросу как из БД, так и из локального микрокуба (рис. 4).
Рисунок 4. OLAP – отчет
OLAP-таблица – таблица, автоматически суммирующая данные (факты) в различных разрезах (измерениях) и позволяющая интерактивно управлять вычислениями и формой отчета. Измерения отображаются в названиях строк и столбцов таблицы, соответствующие им факты и итоги (агрегированные факты) – в ячейках таблицы. Колонки и строки являются инструментами управления таблицей. Пользователь может перемещать их, фильтровать, сортировать, детализировать/обобщать и выполнять другие OLAP-операции. При этом таблица автоматически вычисляет новые итоги (агрегаты). Управляя OLAP-таблицей, можно из одного набора данных сформировать множество отчетов.
В OLAP-таблице можно условно выделить несколько рабочих областей (рис. 4):
Область активных измерений – строки и столбцы OLAP-таблицы.
Область неактивных измерений (фильтры) – область, содержащая измерения, не отображенные в OLAP-таблице, но влияющие на представленные в ней данные.
Область фактов – таблица с числовыми данными, над которыми выполняются вычисления.
Диаграмма – синхронное с OLAP-таблицей графическое представление данных. Диаграмма строится по расположенным в крайнем левом положении элементам динамической таблицы, то есть по крайне левому измерению-строке, измерению-колонке и фактам (крайне левому или по всем). Чтобы изменить измерение (строку или колонку), по которому строится диаграмма, надо переместить ее в крайне левое положение в таблице. Изменить порядок отображения фактов можно с помощью специального фильтра.
Стандартный алгоритм работы с системой «Контур Стандарт»
Создание приложения
Работа в системе начинается с создания файла нового приложения Продажи (рис. 5).
Рисунок 5. Создание приложения.
Для создания приложения в поле Каталог локальных таблиц необходимо указать название папки, в которой хранятся локальные таблицы.
Далее должны быть описаны все источники данных, которые будут использоваться в системе. Для описания источника данных нужно указать доступ к источнику данных: для локальных таблиц это имя и путь к таблице.
Описание источников данных
Описание источников выполняется в закладке «Источники данных», которая вызывается из меню Сервис по команде Источники данных.
Закладка «Источники данных » (рис. 6) разделена на две части. Левая часть закладки предназначена для описания источников данных, здесь отображается таблица, содержащая перечень источников данных.
Правая часть закладки предназначена для описания структуры источника данных, и содержит перечень полей текущего источника данных.
Рисунок 6. Описание источников данных приложения
При необходимости можно переименовать таблицы источников данных и поля и присвоить им названия в терминах предметной области.
Построение запроса к источникам данных
Запрос – это SQL-запрос к источнику данных. В «Контур Стандарт» запрос описывается на уровне правил объединения таблиц источников данных по ключевым полям, условий фильтрации данных и набора возвращаемых полей.
В одном приложении может быть описано неограниченное количество запросов для получения данных, которые в виде плоских выборок отображаются в аналитических отчетах.
Готовые запросы удобно хранить в тематических папках. Для хранения запросов приложения нужно создать папку и дать ей название.
Создание запросов выполняется в закладке «Запросы», которая вызывается из меню Сервис по команде Запросы.
Закладка «Запросы» состоит из двух частей (рис. 7). В левой части отображается заданная пользователем иерархическая структура тематических папок. Причем, папка любого уровня может содержать произвольное количество SQL-запросов к источнику данных.
В правой части закладки «Запросы » отображается перечень запросов, хранящихся в текущей папке.
Рисунок 7. Создание запросов.
Для построения запроса к данным необходимо указать:
Рисунок 8. Создание связи между таблицами
Создание пользовательских отчетов
Пользовательские отчеты или аналитические интерфейсы системы «Контур Стандарт» предназначены для интерактивного анализа данных. В системе для анализа можно создать 4 вида отчетов:
Создание всех отчетов Приложения выполняется в закладке «Отчеты», которая вызывается командой меню Отчеты. Готовые отчеты удобно хранить в тематических папках.
Закладка «Отчеты» состоит из двух частей (рис. 9). В левой части отображается заданная пользователем иерархическая структура тематических папок. Причем, папка любого уровня может содержать произвольное количество отчетов любого типа.
В правой части закладки «Отчеты » отображается перечень отчетов, хранящихся в текущей папке. Работа пользователя с отчетами осуществляется с использованием команд локального меню, вызываемого по правой кнопке мыши, или с помощью следующих кнопок:
OLAP-отчеты – это интерфейсы для OLAP-анализа данных из БД или микрокубов. OLAP-отчет включает динамическую таблицу и синхронную диаграмму. В таблице автоматически суммируются числовые данные в различных разрезах и рассчитываются итоговые показатели. С помощью OLAP-отчетов можно быстро посмотреть на одни и те же данные с разных «точек зрения».
Рисунок 9. Создание OLAP-отчета
Для создания OLAP-отчета необходимо указать:
Рисунок 10. Определение измерений таблицы и настройка OLAP-отчета
OLAP – таблица позволяет интерактивно управлять вычислениями и формой отчета. Инструментами управления динамической таблицей являются ее элементы – колонки и строки. Пользователь может перемещать их, удалять, фильтровать и выполнять другие OLAP-операции. При этом OLAP-машина автоматически вычисляет новые промежуточные и окончательные итоги. Таблица иллюстрируется графиком, который синхронно отображает изменения в таблице.
OLAP-отчеты можно применять для прикладного анализа практической любой направленности, если требуется обобщение, детализация или “другой” взгляд на одни и те же данные.
После создания и настройки OLAP – отчета можно произвести выгрузку данных отчета в форматы MS Word, MS Excel, html (рис. 11).
Рисунок 11. OLAP – отчет в Microsoft Excel.
Таблицы – это плоские списочные отчеты, сопровождаемые графиками. В таблице можно быстро строить различные графики и диаграммы (рис. 12). Это позволяет оперативно менять «точку зрения» на анализируемые данные в поисках зависимостей и тенденций.
Для создания таблицы необходимо указать:
Для управления данными таблицы используются следующие операции:
Для снятия фильтра необходимо выбрать из локального меню команду Удалить фильтр.
Рисунок 12. Таблица
Основное полезное свойство интерфейса «Таблица» – это возможность перестраивать график, меняя измерения, которые откладываются по его осям. Таким образом, можно анализировать зависимость факта от различных измерений и других фактов.
Кластерный анализ.
Интерфейс кластерного анализа позволяет объединять объекты в группы (кластеры) по заданным признакам для сравнительного анализа (рис. 13).
Рисунок 13. Интерфейс кластерного анализа
Для создания интерфейса кластерного анализа необходимо указать:
1.Запрос, на основании которого будут поступать данные из источников.
При необходимости можно откорректировать названия элементов интерфейса.
Интерфейс кластерного анализа предназначен для проведения сравнительного анализа групп объектов, объединенных по заданным признакам.
В интерфейсе кластерного анализа используйте следующие механизмы фильтрации:
После применения фильтров графическая иллюстрация синхронно перестраивается в соответствии с данными таблицы.
С помощью кластерного анализа можно выявить наиболее или наименее влияющие на какой-либо показатель группы. Этот интерфейс полезен при создании приложений для маркетингового анализа. Например, с его помощью можно выполнять сегментирование товарной продукции, то есть определять наиболее и наименее выгодные группы товаров в разрезе потребителей и регионов.
Тренд (отчет изменений)
Тренд – это отчет, отражающий изменение показателей во времени и динамику этих изменений.
Трендовая модель, изучающая явление во времени, полезна при оценке сезонных колебаний, прогнозирования тенденций и др.
Период и глубина исследований выбирается пользователем. В зависимости от данных можно анализировать динамику показателя по дням, месяцам, кварталам и годам. При необходимости изменения показателя можно показать в процентах.
Отчет изменений строится на основе выборки, критериями которой являются: одно измерение, один факт и дата. Интерфейс отчета состоит из следующих блоков (рис. 14):
Рисунок 14. Тренд.
В графическом интерфейсе тренда отображается три графика:
Для настройки отчета изменений укажите (рис. 15):
Рисунок 15. Настройка тренда.
При необходимости можно откорректировать названия элементов интерфейса. Для этого нужно нажать кнопку «Изменить наименование».
Готовое приложение вы можете передать конечному пользователю. Это делается путем передачи пользователю caf-файла и инструкции по настройке приложения на источники данных.
Приложение может использоваться локально, одним пользователем – в этом случае его следует разместить на компьютере пользователя. Чтобы сделать приложение доступным группе пользователей, файл приложения надо разместить на каком-либо разделяемом ресурсе.
У клиента может возникнуть задача разграничения прав доступа для различных пользователей приложения.
Разграничение прав доступа может быть реализовано несколькими способами.
Если приложение использует локальные таблицы, то возможны два варианта.
Первый вариант – ограничить доступ пользователей к локальным таблицам средствами операционной системы. При этом при запуске отчета, использующего закрытые для пользователя таблицы, пользователь получит сообщение о том, что источник данных недоступен.
Второй вариант – сделать копии приложения для различных групп пользователей с разными правами, оставив для каждой группы пользователей свой набор отчетов.
Если же приложение настроено на реляционную базу данных, доступ пользователя к базе будет контролироваться средствами СУБД. При первом обращении пользователя к базе данных из системы Контур Стандарт можно запрашивать login и пароль пользователя, и далее доступ к данным базы предоставлять в соответствии с правами этого пользователя.
Проиллюстрируем теорию примером. Создадим отчет для анализа продаж с помощью “Контур Стандарт”. Данные о продажах представим в разрезе товаров, покупателей и менеджеров. Учтем также географический и временной факторы. В качестве источника данных используем БД “Northwind”, предлагаемую в составе MS SQL Server и MS Access.
На первом этапе настройки OLAP-приложения определим путь к БД “Northwind” и в терминах предметной области опишем ее структуру (таблицы и отдельные поля этих таблиц). Описывая таблицы, выберем только те поля, которые нам необходимы для анализа. Для удобства российских пользователей при описании источников данных (таблиц и их полей) дадим им русскоязычные имена. Далее в отчетах пользователей будут фигурировать именно эти наименования.
Для анализа продаж воспользуемся таблицами:
Далее создаем запрос – “выборку” в терминах “Контур Стандарт”. Здесь описываются отображаемые поля, связи таблиц по ключевым полям, условия фильтрации. Таким образом, запрос описывает алгоритмы генерации SQL-запросов к источникам данных.
Перечислим отображаемые в запросе поля таблиц: “Группа товаров”, “Наименование товара”, “Сотрудник”, “Регион”, “Страна”, “Город”, “Компания”, “Дата”, “Скидка” и “Количество”. В этот список входят все информативные поля, используемые при анализе. Поля-идентификаторы не включены в список, т.к. в отчетах они фигурировать не будут.
Запрос объединяет данные нескольких таблиц. Поэтому необходимо указать связи таблиц по ключевым полям, например (рис. 16).
Рисунок 16. Настройка выборки данных – добавление связей между таблицами.
Соединим таблицы Покупатели и Договора по полю «Код покупателя», таблицы Договора и Сотрудники по полю «Код сотрудника», таблицыТовары и Детали договора по полю «Код товара», таблицы Договора и Детали договора по полю «Код договора», таблицы Товары и Группы товара по полю «Код группы товара».
Вместе с описанием источников данных запросы образуют семантический слой, скрывающий от пользователя реальную структуру БД. Этот семантический слой (метаданные) используется оптимизированным генератором SQL-запросов для создания первичной агрегированной плоской выборки записей. Если SQL-запрос будет выполняться сервером, то в запрос будет автоматически включено выражение GROUP BY, чтобы заставить сервер выполнить предварительную агрегацию. Если это запрос к локальным таблицам, то предварительная агрегация выполнится самой OLAP-машиной.
Далее на базе сформированной выборки создадим отчет. Он представляет собой пользовательский интерфейс, который позволяет интерактивно управлять структурой данных динамической таблицы, графической иллюстрацией и печатью отчетов.
В терминах “Контур Стандарт” отчет, содержащий динамическую таблицу, называется «срез». При настройке среза из списка полей выборки добавляем необходимые для отчета «факты» и «измерения». При добавлении поля «факта» пользователь выбирает один или несколько алгоритмов его агрегации: сумма, количество и т.д. При добавлении поля даты как «измерения» данные можно разложить на выбранные временные периоды. То есть «измерений» даты будет несколько: год, квартал, день и т.д.
В этом примере в отчете будут использоваться все поля выборки (рис. 17). Измерение «Дата» разложим на периоды: год, квартал, месяц, дата.
Результат настройки отчета можно увидеть в режиме «предварительный просмотр». На практике отчеты обычно оперируют меньшим количеством измерений. При анализе более 7-8 измерений человек с трудом воспринимает информацию. Поэтому, в режиме «предварительный просмотр» настроим внешний вид отчета, удобный для восприятия и оценки информации.
Например, перенесем в область «неактивных» измерений – вверху таблицы – измерения, которые будем использовать для фильтрации таблицы, а не для вычисления итогов продаж по ним (рис. 17): “Страна”, ”Регион”, ”Город”, ”Компания”, “Год”, ”Квартал”, ”Дата” и ”Группа товаров”.
Рисунок 17. Редактирование отчета в режиме «предварительный просмотр».
Таким образом, мы получили отчет о продажах товаров по месяцам в разрезе менеджеров. Для изменения ракурса анализа пользователь в процессе работы с отчетом может вернуть любое измерение в таблицу – «открыть» измерение.
На этом процесс создания приложения закончен. Все настройки сохраняются в файле OLAP-приложения.