Главная » SQL, Базы данных » РАЗРАБОТКА ДАННЫХ ДЛЯ СИСТЕМ ПРИНЯТИЯ РЕШЕНИЙ

0

Разработку данных можно охарактеризовать как исследовательский анализ данных. Цель такой разработки — поиск интересных зависимостей среди данных, которые впоследствии могут использоваться для выработки стратегии деловой активности или для выявления  необычного  поведения,  например, внезапного  возрастания  интенсивности использования какой-то кредитной карточки (а это может означать, что она украдена). В     инструментах     разработки     данных     используются     статистические     методы, применяемые   к   большим   объемам    хранимых   данных,   что   и   позволяет   найти интересующие пользователя закономерности.

13  В частности, не следует упускать из виду следующее замечание. Часто приходится слышать, что  "таблицы являются плоскими" (т.е. двумерными), а "реальные данные — многомерными", и поэтому отношения не подходят для использования в качестве основы OLAP. Но сторонники этих доводов допускают путаницу между таблицами и отношениями! Как было показано в главе 6, таблицы представляют собой  просто изображения отношений, а не отношения как таковые. И хотя верно, что эти изображения двумерны, применительно к отношениям это не верно, поскольку отношения являются п-мерными, где п — степень отношения. Точнее, каждый кортеж в отношении с п атрибутами представляет собой точку в n-мерном пространстве, а отношение в целом является множеством таких точек.

Примечание. Слово большие здесь нужно выделить особо. Базы для разработки данных часто чрезвычайно велики, поэтому очень важно, чтобы применяемые  алгоритмы обеспечивали масштабируемость.

Рассмотрим не очень большую таблицу с данными о сбыте SALES, показанную на рис. 22.5, в которой содержатся данные, касающиеся  определенных деловых сделок в системе розничного сбыта14. На основе этих данных требуется выполнить анализ набора потребительских товаров, где под набором потребительских товаров понимается перечень товаров, приобретаемых во время одной сделки. Благодаря такому анализу можно определить, например, что потребитель, который покупает обувь, вероятно, покупает и носки в составе одной и той же сделки. Эта зависимость между обувью (shoes) и носками (Socks) представляет собой пример правила связи. Оно может быть выражено (немного неформально) таким образом.

FORALL  tx   (   Shoes  ∈    tx =>  Socks  6   tx   )

Здесь Shoes ∈  tx — антецедент, или условие правила, Socks e tx — результат, или

следствие правила, а переменная tx принимает свои значения среди всех торговых сделок.

Рис. 22.5. Таблица продаж SALES

Введем некоторые дополнительные термины. Множество всех торговых  сделок в данном примере называют совокупностью. Любое данное правило связи имеет уровень поддержки и уровень достоверности, или доверительный уровень. Поддержка — это процентная доля совокупности, в которой удовлетворяется правило связи. Достоверность — это отношение объема совокупности, в которой удовлетворяется правило связи, к объему совокупности, в которой удовлетворяется условие. (Отметим, что условие и следствие не обязательно должны относиться к одному товару; они могут относиться к любому количеству различных  товаров.)  Рассмотрим,  например,  такое  правило,  касающееся  зависимости покупки галстука (Tie) от покупки носков (Socks).

14  Отметим, что ключом этой таблицы является {ТХ#, PRODUCT}, данные в таблице  удовлетворяют функциональным зависимостям ТХ#—»CUST# и ТХ#—>TIMESTAMP, а значит, она  не приведена к нормальной форме Бойса-Кодда (БКНФ); версия таблицы, в которой столбец PRODUCT содержал бы значения в виде отношения (с использованием столбца тх# в качестве ключа), могла бы находиться в БКНФ и лучше бы подходила для выполнения данных исследований (хотя, возможно, меньше подходила бы для других видов исследования).

FORALL   tx   (   Socks                                        tx  =>  Tie  ∈   tx   )

По условиям примера, представленного на рис. 22.5, совокупность составляет 4 сделки, поддержка равна 50%, а достоверность— 66,67%.

Более общие правила связи могут быть исследованы с помощью соответствующих результатов агрегирования рассматриваемых данных.  Например,  после группирования по заказчикам можно проверить допустимость  такого правила: "Если заказчик покупает

обувь, то, вероятно, он также покупает носки, хотя не обязательно во время той же торговой сделки".

Могут быть определены и другие виды правил. Например, правило зависимости следствия  может использоваться для определения закономерностей совершения  покупок в течение некоторого времени ("Если заказчик купил обувь сегодня, то он, вероятно, купит носки в течение пяти дней"). Правило классификации  может использоваться для принятия решения по удовлетворению заявки на получение товара в кредит ("Если доход заказчика превышает 75 тыс. долл. в год, то, вероятно, риск неплатежа будет невелик") и т.д. Подобно правилам связей, правила зависимости следствия и правила классификации также имеют уровни поддержки и достоверности.

Разработка данных представляет собой огромную самостоятельную тему  [22.2],  поэтому очевидно, что рассмотреть ее достаточно подробно в этой книге невозможно. Мы ограничимся кратким описанием вероятного применения методов разработки данных к расширенной версии базы данных поставщиков и деталей. Прежде всего, при отсутствии других источников информации можно использовать логический вывод с помощью нейронной сети для классификации поставщиков по их специализации, например, по крепежным деталям и деталям  двигателя, а предсказание значений (value prediction) — для прогнозирования того, какими поставщиками и какие детали наиболее вероятно будут поставляться. Затем можно использовать демографическую кластеризацию, т.е. разбивку на группы, чтобы связать расходы на поставки с географическим расположением и тем самым закрепить поставщиков за регионами поставки. После этого можно  применить исследование связей, чтобы определить те детали, которые получены вместе, в одной поставке. С помощью последовательного обнаружения закономерностей можно определить, что поставки крепежных деталей обычно следуют за поставками деталей двигателя, а путем обнаружения аналогичных  временных последовательностей открыть, что имеются сезонные изменения объемов поставок определенных деталей (некоторые из таких изменений происходят осенью, а другие— весной).

Источник: Дейт К. Дж., Введение в системы баз данных, 8-е издание.: Пер. с англ. — М.: Издательский дом «Вильямс», 2005. — 1328 с.: ил. — Парал. тит. англ.

По теме:

  • Комментарии