Язык разметки прогнозных моделей ( PMML ) - это основанный на XML формат обмена прогнозирующими моделями , разработанный доктором Робертом Ли Гроссманом , в то время директором Национального центра интеллектуального анализа данных в Университете Иллинойса в Чикаго . PMML предоставляет аналитическим приложениям способ описания и обмена прогнозными моделями, созданными с помощью алгоритмов интеллектуального анализа данных и машинного обучения . Он поддерживает общие модели, такие как логистическая регрессия и другие нейронные сети с прямой связью . Версия 0.9 была опубликована в 1998 году. [1] Последующие версии были разработаны Data Mining Group. [2]
Поскольку PMML является стандартом на основе XML, спецификация представлена в форме схемы XML . PMML сам по себе является зрелым стандартом, и более 30 организаций анонсировали продукты, поддерживающие PMML. [3]
Компоненты PMML [ править ]
Файл PMML можно описать следующими компонентами: [4] [5]
- Заголовок : содержит общую информацию о документе PMML, такую как информация об авторских правах для модели, ее описание и информация о приложении, используемом для создания модели, например имя и версия. Он также содержит атрибут для отметки времени, который можно использовать для указания даты создания модели.
- Словарь данных : содержит определения всех возможных полей, используемых моделью. Именно здесь поле определяется как непрерывное, категориальное или порядковое (атрибут optype). В зависимости от этого определения затем определяются соответствующие диапазоны значений, а также тип данных (например, string или double).
- Преобразования данных : преобразования позволяют отображать пользовательские данные в более желательную форму, которая будет использоваться моделью интеллектуального анализа данных. PMML определяет несколько видов простых преобразований данных.
- Нормализация: отображение значений в числа, ввод может быть непрерывным или дискретным.
- Дискретность: преобразование непрерывных значений в дискретные.
- Сопоставление значений: сопоставление дискретных значений с дискретными значениями.
- Функции (настраиваемые и встроенные): получение значения путем применения функции к одному или нескольким параметрам.
- Агрегация: используется для суммирования или сбора групп значений.
- Модель : содержит определение модели интеллектуального анализа данных. Например, многослойная нейронная сеть с прямой связью представлена в PMML элементом «NeuralNetwork», который содержит такие атрибуты, как:
- Название модели (атрибут modelName)
- Имя функции (атрибут functionName)
- Имя алгоритма (атрибут имя алгоритма)
- Функция активации (атрибут ActivationFunction)
- Количество слоев (атрибут numberOfLayers)
- Затем за этой информацией следуют три типа нейронных слоев, которые определяют архитектуру модели нейронной сети, представленной в документе PMML. Эти атрибуты - NeuralInputs, NeuralLayer и NeuralOutputs. Помимо нейронных сетей, PMML позволяет представлять множество других типов моделей, включая вспомогательные векторные машины , правила ассоциации , наивный байесовский классификатор , модели кластеризации, текстовые модели , деревья решений и различные модели регрессии .
- Схема майнинга : список всех полей, используемых в модели. Это может быть подмножество полей, как определено в словаре данных. Он содержит конкретную информацию о каждом поле, например:
- Имя (имя атрибута): должно относиться к полю в словаре данных
- Тип использования (атрибут usageType): определяет способ использования поля в модели. Типичные значения: активные, прогнозируемые и дополнительные. Прогнозируемые поля - это те, значения которых предсказываются моделью.
- Обработка выбросов (выбросы атрибутов): определяет используемую обработку выбросов. В PMML выбросы можно рассматривать как пропущенные значения, как экстремальные значения (на основе определения высоких и низких значений для конкретного поля) или как есть.
- Политика замены отсутствующих значений (атрибут missingValueReplacement): если этот атрибут указан, то отсутствующее значение автоматически заменяется заданными значениями.
- Обработка отсутствующего значения (атрибут missingValueTreatment): указывает, как была получена замена отсутствующего значения (например, в виде значения, среднего или медианы).
- Цели : позволяет выполнять постобработку прогнозируемого значения в формате масштабирования, если выход модели является непрерывным. Цели также можно использовать для задач классификации. В этом случае атрибут priorProbability указывает вероятность по умолчанию для соответствующей целевой категории. Он используется, если сама логика прогноза не дала результата. Это может произойти, например, если входное значение отсутствует и нет другого метода обработки отсутствующих значений.
- Вывод : этот элемент можно использовать для обозначения всех желаемых полей вывода, ожидаемых от модели. Это особенности прогнозируемого поля, а также, как правило, само прогнозируемое значение, вероятность, сродство к кластеру (для моделей кластеризации), стандартная ошибка и т. Д. Последняя версия PMML, PMML 4.1, расширенный вывод для обеспечения общей постобработки выходов модели. В PMML 4.1 все встроенные и пользовательские функции, которые изначально были доступны только для предварительной обработки, стали доступны и для последующей обработки.
PMML 4.0, 4.1, 4.2 и 4.3 [ править ]
PMML 4.0 был выпущен 16 июня 2009 г. [6] [7] [8]
Примеры новых функций:
- Улучшенные возможности предварительной обработки: дополнения к встроенным функциям включают ряд логических операций и функцию If-Then-Else .
- Модели временных рядов : новые модели экспоненциального сглаживания ; также заполнители для ARIMA , разложения сезонного тренда и оценки спектральной плотности , которые будут поддерживаться в ближайшем будущем.
- Объяснение модели: Сохранение оценок и показателей производительности модели в самом файле PMML.
- Множественные модели: возможности для построения моделей, ансамблей и сегментации (например, комбинирование регрессии и деревьев решений).
- Расширения существующих элементов: добавление мультиклассовой классификации для машин опорных векторов , улучшенное представление правил ассоциации и добавление моделей регрессии Кокса .
PMML 4.1 был выпущен 31 декабря 2011 года. [9] [10]
Включены новые функции:
- Новые элементы модели для представления карт показателей, k-ближайших соседей ( KNN ) и базовых моделей.
- Упрощение нескольких моделей. В PMML 4.1 один и тот же элемент используется для представления сегментации, ансамбля и цепочки модели.
- Общее определение области и имен полей.
- Новый атрибут, который определяет для каждого элемента модели, готова ли модель к производственному развертыванию.
- Расширенные возможности постобработки (через элемент «Вывод»).
PMML 4.2 был выпущен 28 февраля 2014 г. [11] [12]
Новые функции включают:
- Преобразования: новые элементы для реализации интеллектуального анализа текста
- Новые встроенные функции для реализации регулярных выражений: совпадения, конкатенация и замена.
- Упрощенные выходы для постобработки
- Улучшения в системе показателей и элементах модели наивного Байеса
PMML 4.3 был выпущен 23 августа 2016 г. [13] [14]
Новые функции включают:
- Новые типы моделей:
- Гауссовский процесс
- Байесовская сеть
- Новые встроенные функции
- Разъяснения по использованию
- Улучшения документации
История выпусков [ править ]
Версия | Дата выхода |
---|---|
Версия 0.7 | Июль 1997 г. |
Версия 0.9 | Июль 1998 г. |
Версия 1.0 | Август 1999 г. |
Версия 1.1 | Август 2000 г. |
Версия 2.0 | Август 2001 г. |
Версия 2.1 | Март 2003 г. |
Версия 3.0 | Октябрь 2004 г. |
Версия 3.1 | Декабрь 2005 г. |
Версия 3.2 | Май 2007 г. |
Версия 4.0 | Июнь 2009 г. |
Версия 4.1 | Декабрь 2011 г. |
Версия 4.2 | Февраль 2014 |
Версия 4.2.1 | Март 2015 г. |
Версия 4.3 | Август 2016 г. |
Группа интеллектуального анализа данных [ править ]
Mining Group Data представляет собой консорциум под управлением Центром вычислительных наук Research, Inc., некоммерческая организация , основанной в 2008 году [15] Mining Group Данные также разработал стандарт переносимого формата для Analytics или PFA, который является дополнением к PMML .
См. Также [ править ]
- Открытый обмен нейронной сетью
Ссылки [ править ]
- ^ «Управление и интеллектуальный анализ нескольких прогнозных моделей с использованием языка разметки прогнозного моделирования» . ResearchGate . DOI : 10.1016 / S0950-5849 (99) 00022-1 . Проверено 21 декабря 2015 .
- ^ "Группа интеллектуального анализа данных" . Проверено 14 декабря 2017 года .
DMG гордится тем, что принимает у себя рабочие группы, которые разрабатывают
язык разметки прогнозных моделей (PMML)
и
переносимый формат для аналитики (PFA)
, два дополнительных стандарта, которые упрощают развертывание аналитических моделей.
- ^ "PMML Powered" . Группа интеллектуального анализа данных . Проверено 14 декабря 2017 года .
- ^ А. Guazzelli, М. Zeller, В. Чен, Г. Уильямс. PMML: открытый стандарт для обмена моделями . Журнал R , том 1/1, май 2009 г.
- ^ А. Guazzelli, В. Лин, Т. Jena (2010). PMML в действии (2-е издание): раскрытие возможностей открытых стандартов интеллектуального анализа данных и прогнозной аналитики . CreateSpace.
- ^ Веб-сайт Data Mining Group | PMML 4.0 - Изменения по сравнению с PMML 3.2. Архивировано 28 июля 2012 г. в Archive.today.
- ^ "Сайт Zementis | PMML 4.0 уже здесь!" . Архивировано из оригинала на 2011-10-03 . Проверено 17 июня 2009 .
- ^ Р. Пехтер. Что такое PMML и что нового в PMML 4.0? Информационный бюллетень ACM SIGKDD Explorations , том 11/1, июль 2009 г.
- ^ Веб-сайт Data Mining Group | PMML 4.1 - Изменения по сравнению с PMML 4.0
- ^ Информационный веб-сайт прогнозной аналитики | PMML 4.1 уже здесь!
- ^ Веб-сайт Data Mining Group | PMML 4.2 - Изменения по сравнению с PMML 4.1. Архивировано 20 мая 2014 г. в Archive.today.
- ^ Информационный веб-сайт прогнозной аналитики | PMML 4.2 уже здесь!
- ^ Веб-сайт Data Mining Group | PMML 4.3 - Отличия от PMML 4.2.1
- ^ Веб-сайт продукта языка разметки прогнозных моделей | Проектная деятельность
- ^ "2008 EO 990" . Дата обращения 16 октября 2014 .
Внешние ссылки [ править ]
- Предварительная обработка данных в PMML и ADAPA - Учебник
- Видео презентации PMML доктора Алекса Гуаццелли для группы ACM Data Mining (размещено на LinkedIn)
- PMML 3.2 Технические характеристики
- PMML 4.0 Спецификация
- PMML 4.1 Технические характеристики
- PMML 4.2.1 Технические характеристики
- PMML 4.3 Технические характеристики
- Представление прогнозных решений в PMML: переход от необработанных данных к прогнозам - статья опубликована на веб-сайте IBM developerWorks.
- Прогнозная аналитика в здравоохранении: важность открытых стандартов - статья, опубликованная на веб-сайте IBM developerWorks.