Главная » Microsoft SQL Server, Базы данных » Процесс раскрытия данных – ЧАСТЬ 1

0

Традиционный процесс раскрытия данных выглядит следующим образом. Модель раскрытия данных “обучается” на тестовых наборах данных, для которых известен результат. После этого настроенная модель используется для получения результатов на основе новых данных по мере их поступления. Использование раскрытия данных требует выполнения нескольких действий, только некоторые из которых непосредственно связаны со службой анализа.

?               Изучение предметной области и данных. Определение вопросов, ответы на которые необходимо получить, и данных, необходимых для формирования этого ответа. Данные должны быть уместны для решаемой задачи и иметь приемлемую точность. Только в этом случае можно ожидать правдоподобные ответы на поставленные вопросы.

?               Подготовка данных. В зависимости от конкретной ситуации подготовка данных к раскрытию может быть простой, а может довести до изнеможения. В этом процессе желательно учесть некоторые моменты.

•           Следует избегать строк с низким качеством данных. Понятие качества данных специфично для каждой предметной области, но оно обычно предполагает достаточный объем выборок и отсутствие значений, выходящих за приемлемый диапазон (т.е. описывающих невозможные или крайне маловероятные ситуации).

•           Следует максимально очистить данные, т.е. устранить дублирования, некорректные и несогласованные значения, масштабирование, форматирование и т.п.

•           Служба анализа принимает одну первичную таблицу выбора и, возможно, одну или несколько дочерних вложенных таблиц. Если источник данных распределен по множеству таблиц, требуется выполнить денормализацию с помощью представлений или предварительной обработки.

•           Неравномерные временные ряды могут только выиграть от применения сглаживания.

•           В процессе моделирования могут оказаться полезными управляемые атрибуты. Обычно они представляют собой либо значения, вычисленные на основе других атрибутов (например, Прибыль =Доход-Затраты), либо дискретные диапазоны значений (например, “Высокий доход”, “Низкий доход” и т.п.).

Некоторые типы подготовки данных можно выполнить в представлении источника данных службы анализа с помощью именованных запросов и именованных вычислений. Когда такое возможно, настоятельно рекомендуется избегать переработки наборов данных, если изменения становятся необходимыми.

В заключение необходимо разбить подготовленные данные на два множества: набор данных обучения, предназначенный для настройки модели, и набор данных тестирования, который будет использован для оценки точности модели. Преобразования Row Sampling и Percentage Sampling (см. главу 42) службы интеграции можно использовать для разделения наборов данных случайным образом. Обычно для тестирования отбирается 10-20% строк.

?               Моделирование. Модели в службе анализа создаются с помощью предварительного определения структуры раскрытия данных, в которой определены таблицы, участвующие в качестве входа. После этого в структуру добавляются модели раскрытия данных (разные алгоритмы). И наконец, все модели в структуре проходят процесс обучения с использованием учебных данных.

?               Оценка. Оценка точности и полезности моделей-кандидатов. Этот процесс упрощается за счет использования диаграммы Mining Accuracy Chart службы анализа. Для получения оценки точности модели и сравнения ее с потребностями производства используют тестовый набор данных.

?               Развертывание. Интеграция запросов прогнозирования в приложения.

Более детальное описание процесса раскрытия данных можно найти на сайте

www.crisp-dm.org.

Несмотря на то что описанный процесс типичен для задач раскрытия данных, он не охватывает все возможные ситуации. Иногда исследование набора данных самодостаточно, и обеспечивает лучшее понимание данных и их взаимосвязей. Процесс в данном цикле сводится к повторению действий подготовки, моделирования и оценки. На другом конце спектра находится ситуация, когда для выполнения задачи приложению достаточно создавать и обучать модель, а затем выполнять к ней запрос, например, для выявления значений в наборе данных, не свойственных основному потоку. Независимо от ситуации, понимание типового процесса поможет вам в создании адаптации, подходящей для конкретной задачи.

Моделирование в службе анализа

Для создания структуры раскрытия данных откройте проект службы анализа в утилите Business Intelligence Development Studio (далее BEDS). После развертывания проект создаст базу данных службы анализа на сервере назначения.

Начинается процесс моделирования с указания службе анализа, где размещены данные для обучения и тестирования.

?               Определите источники данных, ссылающиеся на данные, которые будут использованы в моделировании.

?               Создайте представления источников данных, включающие все обучающие таблицы. Если используются вложенные таблицы, то источник данных должен отражать взаимосвязи между состояниями и вложенными таблицами.

Дополнительная О создании и управлении источниками данных и их представлениями см. в главе 43.

информация

Мастер раскрытия данных

Мастер раскрытия данных (Data Mining Wizard) проводит пользователя через процесс определения новой структуры раскрытия данных и первой модели в этой структуре. Для запуска

мастера щелкните правой кнопкой мыши на узле Mining Structure в Solution Explorer и выберите в контекстном меню пункт New Mining Model. Мастер раскрытия данных содержит несколько последовательных страниц.

?               Select Definition Method. На этой странице можно выбрать либо реляционные данные, либо куб учебных данных. В данном случае выберите реляционные данные. (Различия между структурами раскрытия, основанными на реляционных данных и на кубах OLAP, описаны в разделе “Интеграция OLAP”.)

?               Select Data Mining Technique. Выберите алгоритм, который будет использоваться в первой модели раскрытия создаваемой структуры. (Наиболее распространенные алгоритмы описаны в разделе “Алгоритмы’’.)

?               Specify Table Types. Выберите таблицу состояний, содержащую учебные данные, и все связанные вложенные таблицы. Вложенные таблицы всегда связаны с таблицей состояний отношениями “один ко многим”. В качестве примера можно привести список заказов, используемый в качестве таблицы состояний, и ассоциированные строки заказов во вложенной таблице.

?               Specify the Training Data. Разбейте столбцы на категории, согласно их использованию в структуре раскрытия. Если какой-либо столбец не включен ни в одну из категорий, то он исключается из структуры. Доступные категории приведены ниже.

•           Key. Выберите столбцы, которые уникально идентифицируют строки данных обучения. По умолчанию первичный ключ отображается в представлении источника данных со значком ключа.

•           Predictable. Идентифицируйте все столбцы модели, которые должны прогнозироваться.

•           Input. Пометьте все столбцы, которые будут использованы в прогнозировании, — как правило, в их состав входят и сами прогнозируемые столбцы. Кнопка Suggest может помочь в процессе выбора, если прогнозируемые столбцы были выбраны и перечислены по важности, основанной на выборке учебных данных. Однако старайтесь избегать тех данных, которые с малой вероятностью могут повторяться в эксплуатационных данных. Например, идентификатор клиента, его имя или адрес могут быть достаточно эффективными на этапе обучения модели, однако как только модель будет построена для поиска конкретных идентификаторов или адресов, маловероятно, что новые вводимые клиенты когда-нибудь будут совпадать по данным атрибутам. И наоборот, значения пола и профессии, вероятнее всего, будут часто повторяться в записях о новых клиентах.

?               Specify Columns’ Content and Data Type. Просмотрите и скорректируйте при необходимости типы данных (Boolean, Date, Double, Long, Text), проверьте и исправьте типы содержимого. В этом процессе может помочь щелчок на кнопке Detect для вычисления непрерывных числовых данных на основе дискретных. Доступные типы содержимого приведены ниже.

•           Key. Содержит значение, которое либо в одиночку, либо в совокупности с другими ключами уникально идентифицирует строку в учебной таблице.

•           Key Sequence. Выступает в качестве ключа и определяет порядок строк в таблице. Используется для упорядочения строк в алгоритме последовательной кластеризации.

•           Key Time. Выступает в качестве ключа и определяет порядок строк в таблице на основании временной оси. Используется для упорядочения строк в алгоритме временных рядов.

•           Continuous. Непрерывные числовые данные, часто являющиеся результатом некоторых вычислений или измерений, такие как возраст, цена или высота.

•           Discrete. Данные, которые можно представить в виде списка значений, такие как модель, профессия или метод доставки.

•           Discretized. Служба анализа преобразует непрерывные данные в набор дискретных диапазонов (например, диапазоны возраста 1 год-10 лет, 11-20 лет, 21 год-30 лет и т.д.). При выборе этого типа содержимого после завершения работы мастера следует установить еще некоторые параметры столбца. Откройте структуру раскрытия. выберите столбец, а затем установите параметры, определяющие характер дискретизации: DiseretizationBucketCount (количество диапазонов дискретизации) и DiscretizationMethod (метод дискретизации).

Источник: Нильсен, Пол. Microsoft SQL Server 2005. Библия пользователя. : Пер. с англ. — М. : ООО “И.Д. Вильямс”, 2008. — 1232 с. : ил. — Парал. тит. англ.

По теме:

  • Комментарии