Открытие истины


Установление истины (также известное как установление истины ) — это процесс выбора фактического истинного значения для элемента данных, когда разные источники данных предоставляют противоречивую информацию о нем.

Для решения этой проблемы было предложено несколько алгоритмов , начиная от простых методов, таких как голосование большинством , и заканчивая более сложными, способными оценить надежность источников данных . [1]

Задачи установления истины можно разделить на два подкласса: с одной и с несколькими правдами. В первом случае для элемента данных допускается только одно истинное значение (например, день рождения человека, столица страны). В то время как во втором случае допускается несколько истинных значений (например, актерский состав фильма, авторы книги). [2] [3]

Как правило, обнаружение истины является последним этапом конвейера интеграции данных , когда схемы различных источников данных унифицированы и обнаружены записи, относящиеся к одному и тому же элементу данных . [4]

Изобилие данных, доступных в Интернете , делает все более вероятным обнаружение того, что разные источники предоставляют (частично или полностью) разные значения для одного и того же элемента данных . Это, вместе с тем фактом, что мы все больше полагаемся на данные для принятия важных решений, мотивирует необходимость разработки хороших алгоритмов обнаружения правды . [5]  

Многие доступные в настоящее время методы основаны на стратегии голосования для определения истинного значения элемента данных . Тем не менее, недавние исследования показали, что, если мы полагаемся только на голосование большинством , мы можем получить неверные результаты даже в 30% элементов данных . [5]