Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
PMML Logo.png

Язык разметки прогнозных моделей ( PMML ) - это основанный на XML формат обмена прогнозирующими моделями , разработанный доктором Робертом Ли Гроссманом , в то время директором Национального центра интеллектуального анализа данных в Университете Иллинойса в Чикаго . PMML предоставляет аналитическим приложениям способ описания и обмена прогнозными моделями, созданными с помощью алгоритмов интеллектуального анализа данных и машинного обучения . Он поддерживает общие модели, такие как логистическая регрессия и другие нейронные сети с прямой связью . Версия 0.9 была опубликована в 1998 году. [1] Последующие версии были разработаны Data Mining Group. [2]

Поскольку PMML является стандартом на основе XML, спецификация представлена ​​в форме схемы XML . PMML сам по себе является зрелым стандартом, и более 30 организаций анонсировали продукты, поддерживающие PMML. [3]

Компоненты PMML [ править ]

Файл PMML можно описать следующими компонентами: [4] [5]

  • Заголовок : содержит общую информацию о документе PMML, такую ​​как информация об авторских правах для модели, ее описание и информация о приложении, используемом для создания модели, например имя и версия. Он также содержит атрибут для отметки времени, который можно использовать для указания даты создания модели.
  • Словарь данных : содержит определения всех возможных полей, используемых моделью. Именно здесь поле определяется как непрерывное, категориальное или порядковое (атрибут optype). В зависимости от этого определения затем определяются соответствующие диапазоны значений, а также тип данных (например, string или double).
  • Преобразования данных : преобразования позволяют отображать пользовательские данные в более желательную форму, которая будет использоваться моделью интеллектуального анализа данных. PMML определяет несколько видов простых преобразований данных.
    • Нормализация: отображение значений в числа, ввод может быть непрерывным или дискретным.
    • Дискретность: преобразование непрерывных значений в дискретные.
    • Сопоставление значений: сопоставление дискретных значений с дискретными значениями.
    • Функции (настраиваемые и встроенные): получение значения путем применения функции к одному или нескольким параметрам.
    • Агрегация: используется для суммирования или сбора групп значений.
  • Модель : содержит определение модели интеллектуального анализа данных. Например, многослойная нейронная сеть с прямой связью представлена ​​в PMML элементом «NeuralNetwork», который содержит такие атрибуты, как:
    • Название модели (атрибут modelName)
    • Имя функции (атрибут functionName)
    • Имя алгоритма (атрибут имя алгоритма)
    • Функция активации (атрибут ActivationFunction)
    • Количество слоев (атрибут numberOfLayers)
Затем за этой информацией следуют три типа нейронных слоев, которые определяют архитектуру модели нейронной сети, представленной в документе PMML. Эти атрибуты - NeuralInputs, NeuralLayer и NeuralOutputs. Помимо нейронных сетей, PMML позволяет представлять множество других типов моделей, включая вспомогательные векторные машины , правила ассоциации , наивный байесовский классификатор , модели кластеризации, текстовые модели , деревья решений и различные модели регрессии .
  • Схема майнинга : список всех полей, используемых в модели. Это может быть подмножество полей, как определено в словаре данных. Он содержит конкретную информацию о каждом поле, например:
    • Имя (имя атрибута): должно относиться к полю в словаре данных
    • Тип использования (атрибут usageType): определяет способ использования поля в модели. Типичные значения: активные, прогнозируемые и дополнительные. Прогнозируемые поля - это те, значения которых предсказываются моделью.
    • Обработка выбросов (выбросы атрибутов): определяет используемую обработку выбросов. В PMML выбросы можно рассматривать как пропущенные значения, как экстремальные значения (на основе определения высоких и низких значений для конкретного поля) или как есть.
    • Политика замены отсутствующих значений (атрибут missingValueReplacement): если этот атрибут указан, то отсутствующее значение автоматически заменяется заданными значениями.
    • Обработка отсутствующего значения (атрибут missingValueTreatment): указывает, как была получена замена отсутствующего значения (например, в виде значения, среднего или медианы).
  • Цели : позволяет выполнять постобработку прогнозируемого значения в формате масштабирования, если выход модели является непрерывным. Цели также можно использовать для задач классификации. В этом случае атрибут priorProbability указывает вероятность по умолчанию для соответствующей целевой категории. Он используется, если сама логика прогноза не дала результата. Это может произойти, например, если входное значение отсутствует и нет другого метода обработки отсутствующих значений.
  • Вывод : этот элемент можно использовать для обозначения всех желаемых полей вывода, ожидаемых от модели. Это особенности прогнозируемого поля, а также, как правило, само прогнозируемое значение, вероятность, сродство к кластеру (для моделей кластеризации), стандартная ошибка и т. Д. Последняя версия PMML, PMML 4.1, расширенный вывод для обеспечения общей постобработки выходов модели. В PMML 4.1 все встроенные и пользовательские функции, которые изначально были доступны только для предварительной обработки, стали доступны и для последующей обработки.

PMML 4.0, 4.1, 4.2 и 4.3 [ править ]

PMML 4.0 был выпущен 16 июня 2009 г. [6] [7] [8]

Примеры новых функций:

  • Улучшенные возможности предварительной обработки: дополнения к встроенным функциям включают ряд логических операций и функцию If-Then-Else .
  • Модели временных рядов : новые модели экспоненциального сглаживания ; также заполнители для ARIMA , разложения сезонного тренда и оценки спектральной плотности , которые будут поддерживаться в ближайшем будущем.
  • Объяснение модели: Сохранение оценок и показателей производительности модели в самом файле PMML.
  • Множественные модели: возможности для построения моделей, ансамблей и сегментации (например, комбинирование регрессии и деревьев решений).
  • Расширения существующих элементов: добавление мультиклассовой классификации для машин опорных векторов , улучшенное представление правил ассоциации и добавление моделей регрессии Кокса .

PMML 4.1 был выпущен 31 декабря 2011 года. [9] [10]

Включены новые функции:

  • Новые элементы модели для представления карт показателей, k-ближайших соседей ( KNN ) и базовых моделей.
  • Упрощение нескольких моделей. В PMML 4.1 один и тот же элемент используется для представления сегментации, ансамбля и цепочки модели.
  • Общее определение области и имен полей.
  • Новый атрибут, который определяет для каждого элемента модели, готова ли модель к производственному развертыванию.
  • Расширенные возможности постобработки (через элемент «Вывод»).

PMML 4.2 был выпущен 28 февраля 2014 г. [11] [12]

Новые функции включают:

  • Преобразования: новые элементы для реализации интеллектуального анализа текста
  • Новые встроенные функции для реализации регулярных выражений: совпадения, конкатенация и замена.
  • Упрощенные выходы для постобработки
  • Улучшения в системе показателей и элементах модели наивного Байеса

PMML 4.3 был выпущен 23 августа 2016 г. [13] [14]

Новые функции включают:

  • Новые типы моделей:
    • Гауссовский процесс
    • Байесовская сеть
  • Новые встроенные функции
  • Разъяснения по использованию
  • Улучшения документации

История выпусков [ править ]

Группа интеллектуального анализа данных [ править ]

Mining Group Data представляет собой консорциум под управлением Центром вычислительных наук Research, Inc., некоммерческая организация , основанной в 2008 году [15] Mining Group Данные также разработал стандарт переносимого формата для Analytics или PFA, который является дополнением к PMML .

См. Также [ править ]

  • Открытый обмен нейронной сетью

Ссылки [ править ]

  1. ^ «Управление и интеллектуальный анализ нескольких прогнозных моделей с использованием языка разметки прогнозного моделирования» . ResearchGate . DOI : 10.1016 / S0950-5849 (99) 00022-1 . Проверено 21 декабря 2015 .
  2. ^ "Группа интеллектуального анализа данных" . Проверено 14 декабря 2017 года . DMG гордится тем, что принимает у себя рабочие группы, которые разрабатывают язык разметки прогнозных моделей (PMML) и переносимый формат для аналитики (PFA) , два дополнительных стандарта, которые упрощают развертывание аналитических моделей.
  3. ^ "PMML Powered" . Группа интеллектуального анализа данных . Проверено 14 декабря 2017 года .
  4. ^ А. Guazzelli, М. Zeller, В. Чен, Г. Уильямс. PMML: открытый стандарт для обмена моделями . Журнал R , том 1/1, май 2009 г.
  5. ^ А. Guazzelli, В. Лин, Т. Jena (2010). PMML в действии (2-е издание): раскрытие возможностей открытых стандартов интеллектуального анализа данных и прогнозной аналитики . CreateSpace.
  6. ^ Веб-сайт Data Mining Group | PMML 4.0 - Изменения по сравнению с PMML 3.2. Архивировано 28 июля 2012 г. в Archive.today.
  7. ^ "Сайт Zementis | PMML 4.0 уже здесь!" . Архивировано из оригинала на 2011-10-03 . Проверено 17 июня 2009 .
  8. ^ Р. Пехтер. Что такое PMML и что нового в PMML 4.0? Информационный бюллетень ACM SIGKDD Explorations , том 11/1, июль 2009 г.
  9. ^ Веб-сайт Data Mining Group | PMML 4.1 - Изменения по сравнению с PMML 4.0
  10. ^ Информационный веб-сайт прогнозной аналитики | PMML 4.1 уже здесь!
  11. ^ Веб-сайт Data Mining Group | PMML 4.2 - Изменения по сравнению с PMML 4.1. Архивировано 20 мая 2014 г. в Archive.today.
  12. ^ Информационный веб-сайт прогнозной аналитики | PMML 4.2 уже здесь!
  13. ^ Веб-сайт Data Mining Group | PMML 4.3 - Отличия от PMML 4.2.1
  14. ^ Веб-сайт продукта языка разметки прогнозных моделей | Проектная деятельность
  15. ^ "2008 EO 990" . Дата обращения 16 октября 2014 .

Внешние ссылки [ править ]

  • Предварительная обработка данных в PMML и ADAPA - Учебник
  • Видео презентации PMML доктора Алекса Гуаццелли для группы ACM Data Mining (размещено на LinkedIn)
  • PMML 3.2 Технические характеристики
  • PMML 4.0 Спецификация
  • PMML 4.1 Технические характеристики
  • PMML 4.2.1 Технические характеристики
  • PMML 4.3 Технические характеристики
  • Представление прогнозных решений в PMML: переход от необработанных данных к прогнозам - статья опубликована на веб-сайте IBM developerWorks.
  • Прогнозная аналитика в здравоохранении: важность открытых стандартов - статья, опубликованная на веб-сайте IBM developerWorks.