Главная » Microsoft SQL Server, Базы данных » Процесс раскрытия данных – ЧАСТЬ 2

0

•           Ordered. Определяет порядок учебных данных, однако без назначения важности значений, используемых для упорядочения. Например, если значения 5 и 10 используются для упорядочения двух строк, то 10 будет следовать за 5, но это не значит, что 10 вдвое лучше 5.

•           Cyclical. Аналогичен типу Ordered, однако повторяется в цикле, подобно дням недели или месяцам года.

?               Completing the Wizard. На этой странице задается имя всей структуры раскрытия и первой модели раскрытия в этой структуре. Установите флажок Allow Drill Thru, чтобы активизировать прямую проверку учебных состояний в представлениях раскрытия данных.

После завершения работы мастера будет создана новая структура раскрытия с одной моделью; эта структура будет открыта в конструкторе раскрытия данных Data Mining Designer. Изначальное представление конструктора позволяет добавлять в структуру новые столбцы и удалять из нее ненужные, а также изменять параметры столбцов, такие как тип содержимого или метод дискретизации.

Представление Mining Models

Представление Mining Models конструктора раскрытия данных позволяет конфигурировать различные алгоритмы раскрытия на основе данных, представленных в структуре раскрытия. Для того чтобы добавить новые модели, выполните следующие действия (рис. 44.1).

1.              Щелкните правой кнопкой мыши на панели матрицы структуры/модели и выберите в контекстном меню пункт New Mining Model.

2.              Присвойте модели имя.

3.              Выберите используемый алгоритм.

В зависимости от определения структуры могут оказаться доступными не все алгоритмы. Например, алгоритм последовательной кластеризации Sequence Clustering требует наличия столбца с типом Key Sequence, а алгоритм временных рядов Time Series — столбца с типом Key Time. К тому же не все алгоритмы используют столбцы одинаково — например, некоторые алгоритмы игнорируют непрерывные столбцы (в данном случае подумайте об использовании дискретизации в таких столбцах).

Каждая модель раскрытия имеет свойства и параметры алгоритмов. Выделите модель (столбец) для просмотра и изменения свойств, общих для всех алгоритмов, на панели Properties, в том числе Name, Description и AllowDrilThru. Щелкните правой кнопкой мыши на модели, выберите в контекстном меню пункт Set Algorithm Parameters и измените параметры алгоритма, заданные по умолчанию.

Рис. 44.1. Добавление новой модели в существующую структуру

Когда определения структуры и модели будут созданы, структура должна быть развернута на сервере назначения для обработки и обучения модели. Процесс развертывания модели состоит из двух частей. На первом этапе (построения) определение структуры (или изменений в ней) отправляется на целевой сервер анализа. На панели вывода можно отслеживать ход построения. На втором этапе (обработки) сервер службы анализа выполняет запросы к учебным данным и обучает модель.

Перед первым развертыванием проекта следует определить сервер назначения. Для этого щелкните правой кнопкой мыши на проекте в Solution Explorer, содержащем структуру раскрытия, и выберите в контекстном меню пункт Properties. Перейдите к вкладке Deployment и введите соответствующее имя сервера, одновременно корректируя имя базы данных назначения (по умолчанию имя создаваемой базы данных службы анализа совпадает с именем проекта).

Разверните структуру, выбрав пункт Process или Process Mining Structure and All Models либо в меню Mining Model, либо в контекстном меню. После обработки конструктор переключится в представление Mining Model Viewer, в котором доступно несколько режимов отображения, зависящих от того, какие модели включены в структуру. Специфичные для алгоритма представления помогут понять правила и взаимосвязи, раскрываемые моделью (подробнее об этом — в разделе “Алгоритмы”).

Оценка модели

Оценка обученной модели позволяет определить, какая из моделей выполняет прогнозирование более достоверно, и решить, приемлема ли данная точность для рассматриваемой задачи. Представление диаграммы точности раскрытия снабдит вас средствами выполнения такой оценки.

Диаграммы, отображаемые в данном представлении, включаются после предоставления данных во вкладке Column Mapping. Прежде всего убедитесь, что оцениваемая структура раскрытия выделена в левой таблице. Щелкните на кнопке Select Case Table в правой таблице и выберите таблицу либо учебных, либо тестовых данных. Объединения между выбранной таблицей и структурой раскрытия будут установлены автоматически, если имена столбцов совпадают; в противном случае их отображение придется сконфигурировать вручную методом перетаскивания. Проверьте, все ли неключевые столбцы структуры раскрытия участвуют в объединениях.

После того как источник данных определен, перейдите к вкладке Lift Chart и выберите в списке Chart Туре тип диаграммы Lift Chart (рис. 44.2). Так как данные источника (как учебного, так и тестового) содержат прогнозируемые столбцы, линейный график позволит сравнить прогноз каждой из моделей с фактическим выходом. График отображается относительно осей %Correct и % Population, поэтому, когда проверяется 50% популяции, совершенная модель должна корректно прогнозировать ровно 50% данных. На график автоматически добавляются две вспомогательные линии: Ideal Model, соответствующая наилучшим из возможных показателей, и Random Guess, показывающая, как часто случайно выбранные значения оказываются корректными.

Puc. 44.2. Вкладка Lift Chart

Полезно вначале посмотреть на график, создаваемый учебными данными, и только затем использовать тестовые данные. Хорошо спроектированная модель с адекватными данными будет формировать линии, близкие к идеальной модели, с относительно единообразными показателями для обоих наборов данных. Среди наиболее распространенных проблем можно выделить следующие.

?               Модели, хорошо зарекомендовавшие себя на учебных данных и не столь хорошо на тестовых, были плохо обучены. Возможны следующие варианты.

•                Неслучайное разделение данных на учебные и тестовые. Если использованный метод разделения данных был основан на вероятностных алгоритмах, то снова выполните разделение, чтобы получить другие наборы данных, и повторите процесс обучения.

•                Входные столбцы слишком специфичны для некоторого состояния (идентификаторов, имен и т.п.). Скорректируйте структуру раскрытия для игнорирования элементов, содержащих значения, которые встречаются в учебных наборах данных и не встречаются в тестовых или эксплуатационных наборах данных.

•                В учебном наборе данных содержится слишком мало строк (состояний) для создания точной характеристики популяции. Чтобы получить лучшие результаты, поищите дополнительные источники данных. Если таковые недоступны, лучшие результаты можно получить, ограничив число особых состояний, рассматриваемых алгоритмом (например, можно увеличить значение параметра MINIMUM_SUPPORT).

?               Если все модели более близки к линии случайной выборки, чем к линии идеальной модели, значит, входные данные плохо коррелируют с прогнозируемыми значениями.

Диаграмма выгоды (profit chart) является расширением линейного графика (lift chart) и поможет в вычислении максимальной отдачи от маркетинговой кампании по отношению к затраченным усилиям. Щелкните на кнопке Settings и установите количество проекций (фиксированное и в расчете на стоимость каждого состояния), а также ожидаемый выход от успешно идентифицированного состояния, затем в списке типов диаграмм выберите Profit Chart. На результирующем графике отобразится выгода по отношению к задействованному проценту популяции. Таким образом, вы будете иметь представление о том, какую часть популяции включать в попытки, либо максимизируя выгоду, либо находя точку перелома.

Простейшее представление точности модели предлагается во вкладке Classification Matrix, в которой для каждой модели создается отдельная таблица с прогнозированными выходными значениями в левом столбце и фактическими значениями в первой строке, аналогично примеру, показанному в табл. 44.1. Как мы видим, приведенная в качестве примера модель правильно предсказывает красный цвет в 95 случаях и неправильно предсказывает синий в 37 случаях.

Таблица 44.1. Пример матрицы классификации

Прогноз

Красный (факт.)

Синий (факт.)

Красный

95

21

Синий

37

104

В приведенном описании оценки модели, использующей средства службы анализа и утилиты Bros, мы фокусировали внимание на прогнозировании дискретных значений. При прогнозировании непрерывных значений матрица классификации недоступна, и линейный график предлагает несколько отличное сравнение фактических и предсказанных значений. К тому же некоторые алгоритмы, такие как временных рядов, вообще не поддерживают диаграммы точности раскрытия.

Независимо от состава средств, доступных в среде разработки, важно выполнить оценку обученной модели, используя тестовый набор данных, специально зарезервированный для этой цели. После этого выполняйте коррекцию определений данных и модели до тех пор, пока результаты не удовлетворят требованиям, выдвигаемым производственной задачей.

Источник: Нильсен, Пол. Microsoft SQL Server 2005. Библия пользователя. : Пер. с англ. — М. : ООО “И.Д. Вильямс”, 2008. — 1232 с. : ил. — Парал. тит. англ.

По теме:

  • Комментарии