На главную страницу ЗАО Софткей
 Главная   Новости   Статьи   Пресс-релизы   Рассылки 
 
MS O365 test

Найти и проанализировать!

04.02.2003 / Программы / Михаил Брод

Результаты анализа данныхКак хотелось написать ставшее шаблонным выражение - "найти и обезвредить!", но увы, к теме разговора оно никакого отношения не имеет. Потому что разговор пойдет о разработке, которая ищет, добывает, анализирует информацию и готовит прогнозы. Кстати, первым, о ком я подумал, когда прочитал название этой разработки, был Шерлок Холмс. Ведь он тоже искал, собирал и анализировал информацию, используя свой дедуктивный метод. Возможно, такие же мысли приходили и в головы разработчиков, назвавших свой продукт Deductor. Автор разработки - компания BaseGroup Labs - позиционирует ее следующим образом: "Время грубой силы прошло. Успех придет к организациям, готовым к адаптации и быстрому реагированию на изменение в рыночной обстановке. Новые технологии позволят моментально принимать эффективные и грамотные решения и обеспечат вам серьезные конкурентные преимущества".

Именно такие блага обещают авторы тем, кто воспользуется их программой Deductor Professional. А для того чтобы было легче принять решение, нужна она вам или нет, предлагается установить у себя свободно распространяемый аналитический пакет Deductor Lite, скачав его с сайта разработчика. В этот пакет включено 5 интегрированных приложений: Cube Analyzer (настольный OLAP модуль), RawData Analyzer (предобработка и очистка данных), Tree Analyzer (деревья решений), SOMap Analyzer (самоорганизующиеся карты Кохонена), Neural Analyzer (многослойные нейронные сети и RBF сети). И я, поскольку придерживаюсь мнения BaseGroup Labs, что время грубой силы прошло, скачал этот не очень "толстый" пакет на свой компьютер и установил его. Осталось лишь проверить, соответствуют ли его реальные возможности тем, что о них пишут. Чем теперь и займемся.

По сравнению с профессиональным вариантом, Deductir Lite имеет вполне определенные ограничения: количество записей, с которыми будут работать модули, не может превышать 150. Если их больше, лишние просто обрезаются. Начинать работу с системой нужно с заполнения данных. Его можно осуществить за счет их импортирования из внешних источников. Этот процесс не представляет каких-либо затруднений - одинаково хорошо подключались таблицы Paradox, FoxPro, базы данных из Interbase и Access, форматированные текстовые файлы, не пришлось устанавливать никаких дополнительных драйверов.

Центральный модуль системы - RawData Analyzer. Он предназначен для предварительного анализа входной информации и ее предварительной обработки, если она плохого качества. Импорт информации осуществляется с помощью мастера подключения. Но передачу данных в модуль RawData Analyzer можно осуществить и по-иному. Для этого необходимо проинсталлировать панель Deductor в Excell. После этого для передачи данных для анализа достаточно выделить нужную область и нажать на кнопку программы. Для повышения качества входной информации можно последовательно использовать любые из имеющихся вариантов обработки - сглаживание, удаление шумов, обработку аномальных значений, заполнение пропущенных данных. Результаты обработки, полученные в этом модуле, могут быть затем переданы для анализа в любой другой модуль системы. При этом исходные данные в источниках, к которым подключена система, не изменяются, а отлаженный сценарий обработки можно сохранить и вызывать в дальнейшем для обработки новых наборов данных. Полученные результаты помимо передачи в другие модули системы можно импортировать в Excel, Word, HTML и другие системы. Все остальные модули служат для непосредственного анализа входных данных. Что они могут?

Модуль SOMap Analyzer. Это система анализа информации создана на основе мощного алгоритма кластеризации - самоорганизующихся карт Кохонена. Суть метода сводится к тому, что информация, пропущенная через модуль, группируется по схожести между объектами. В результате операции сведения, полученные из баз данных, преобразуются в раскрашенные карты, на которых объекты расположены таким образом, что расстояние объектов на карте соответствует близости характеристик этих объектов в реальном мире. Этот алгоритм успешно применяется при анализе и выявлении зон риска, поиске объектов на основе нечетких критериев, диагностике. Графическое изображение вообще легче воспринимается человеком, чем бесконечные столбцы цифр. Поэтому результаты, представленные в виде карт и графиков, могут быть лучше поняты, и по ним могут быть приняты более верные решения.

Для реализации раскраски карт используются два варианта - раскраска кластеров (группы векторов, расстояние между которыми внутри этой группы меньше, чем расстояние до соседних групп) и раскраска отдельных компонент. В последнем случае карта выглядит как слоеный пирог, в котором каждому цвету соответствует тот или иной компонент. Часто для раскраски используют оттенки серого цвета, при этом черному цвету будут соответствовать либо ячейки с минимальным значением компоненты, либо узлы (кластеры) с наибольшими расстояниями.

Мастер построителя дерева

Следующий модуль - Tree Analyzer. Это программа, позволяющая проводить анализ данных на основе деревьев решений. В основе его лежит один из алгоритмов построения деревьев решений - С4.5. (C4.5 - алгоритм построения дерева решений, в котором количество потомков у узла не ограничено. Не умеет работать с непрерывным целевым полем, поэтому решает только задачи классификации). Суть его работы сводится в нахождении такого набора правил, который наиболее полно описывал бы представленные для построения дерева данные, при этом обеспечивая наиболее качественное разделение на классы. Эти правила затем представляются в виде иерархической структуры, или дерева. Как и в других модулях системы, работа начинается с подключения к какому-либо источнику данных. Затем в дело вступает Мастер построения. Пользователю нужно ответить на ряд вопросов. Вначале - выбрать те поля входных данных, которые будут использоваться для анализа. Затем - настроить параметры будущего дерева. На этом шаге можно указать, что нужно делать в случае появления неполных данных, что делать с ветками дерева, если количество данных в них меньше определенного числа и так далее. После этого запускается процесс построения дерева.

В дальнейшем из построенного дерева можно извлекать правила, записанные на естественном языке, например: 'если образование = высшее и возраст > 40 лет, то выдать кредит'. Для извлечения правил необходимо исследовать все пути от корня до каждого листа дерева. Каждый такой путь даст правило, где условиями будут являться проверки из узлов, встретившихся на пути. Деревья решений являются прекрасным инструментом в системах поддержки принятия решений, интеллектуального анализа данных (data mining).

Деревья решений успешно применяются для решения практических задач в следующих областях:

  • банковское дело: оценка кредитоспособности клиентов банка при выдаче кредитов;
  • промышленность: контроль за качеством продукции (выявление дефектов), испытания без разрушений (например, проверка качества сварки) и т.д.;
  • медицина: диагностика различных заболеваний.

Настройка нейронных сетей

Еще один модуль - Neural Analyzer, система анализа данных на основе многослойных нейронных и RBF сетей. О нейронных сетях написано много, поэтому нет смысла повторяться. Следует отметить лишь то, что их особенность заключается в способности к самообучению, настройке при изменении внешних условий. Технологии, заложенные в основу построения нейросетей, позволяют делать выводы не на основе правил, а на основе примеров. Поэтому нейронные сети нашли применение в задачах анализа фондовых и валютных рынков, прогнозирования, распознавания объектов, управления динамическими системами. Еще одно направление использования нейронных сетей - очистка данных при помещении их в "хранилище данных". Это связано с тем, что данные в информационные системы поступают из разнородных источников, при этом возникают проблемы, связанные с противоречивостью сведений, определением степени доверия к той или иной информации, ошибками при наборе данных, опечатками.

Таким образом, приобретая пакет Deductor, пользователь получает мощный математический аппарат для анализа информации. Но при этом надо понимать, что самое сложное в использовании этой системы - не подключение ее к источнику данных, а настройка параметров, с учетом которых будет проводиться анализ. Вероятно, поэтому один из модулей - Cube Analyzer - позволяет лишь использовать ранее подготовленные модели решений. Лишь прочитав FAQ на страницах сайта разработчиков, можно узнать, как запускается этот модуль в режиме создания новых моделей анализа.

Любители "острых ощущений" могут не только проверить себя в освоении системы Deductor, но и попытаться применить различные алгоритмы, использованные в ней, в своих разработках. Разработчики системы опубликовали на своем сайте исходные коды многих алгоритмов, написанные на Delphi.


Ссылки по теме:

Автор статьи: Михаил Брод


Рубрики статей
Все статьи
Аналитика
Программы
Игры
Интернет
Авторские права
Интервью
События в мире ПО
Рассылки
Новости мира ПО
Статьи: Мир ПО
Статьи: Программы
Статьи: Игры
Архив выпусков
  «   Сентябрь 2018   »  
Пн Вт Ср Чт Пт Сб Вс
     12
3456789
10111213141516
17181920212223
24252627282930
       
Поиск в архиве

Логин / пароль:
запомнить




Наши партнеры:

 САПР и графика



Написать редактору  | RSSЭкспорт новостей и обзоров


Rambler's
Top100 Rambler's Top100

Разработка компании «Битрикс»
Разработано
«Битрикс»


Copyright © 2001-2018 ЗАО «Софткей»