Семантический разрыв

Семантический разрыв характеризует разницу между двумя описаниями объекта по различным лингвистическим представлениям, для языков экземпляра или символов. По словам Андреаса Хайна, семантический разрыв можно определить как «различие в значении конструктов, сформированных в разных системах представления». ^[1] В информатике эта концепция актуальна всякий раз, когда обычная человеческая деятельность, наблюдения и задачи переводятся в вычислительное представление. ^[2]^[3]^[1]

Точнее, разрыв означает различие между неоднозначной формулировкой контекстных знаний на мощном языке (например, естественном языке ) и его звуковым, воспроизводимым и вычислительным представлением на формальном языке (например, языке программирования ). Семантика объекта зависит от контекста, в котором он рассматривается. Для практического применения это означает, что любое формальное представление задач реального мира требует перевода контекстных экспертных знаний о приложении (высокоуровневые) в элементарные и воспроизводимые операции вычислительной машины (низкоуровневые). Поскольку естественный язык позволяет выражать задачи, которые невозможно вычислить на формальном языке, нет средств для автоматизации этого перевода в общем виде. Более того, изучение языков в иерархии Хомского показывает, что не существует формального и, следовательно, автоматизированного способа перевода с одного языка на другой выше определенного уровня выразительной силы.

Теоретические основы

Еще недоказанный, но общепринятый тезис Черча-Тьюринга утверждает, что машина Тьюринга и все эквивалентные формальные языки, такие как лямбда-исчисление, выполняют и представляют все формальные операции, соответственно, применяемые человеком, занимающимся вычислениями. Однако выбор адекватных операций для самого правильного вычисления формально не выводим, более того, он зависит от вычислимости основной проблемы. Задачи, такие как проблема остановки , могут быть исчерпывающе сформулированы на естественном языке, но вычислительное представление не завершается или не дает полезного результата, что доказано теоремой Райса . Общее выражение ограничений для основанного на правилах вывода с помощью теоремы Гёделя о неполноте указывает на то, что семантический пробел никогда не должен быть полностью закрыт. Это общие утверждения, учитывающие общие пределы вычислений на самом высоком уровне абстракции, где проявляется семантический разрыв . Однако существует множество подмножеств задач, которые можно переводить автоматически, особенно на более высоких уровнях иерархии Хомского.

Формальные языки

Задачи реального мира формализованы языками программирования, которые выполняются на компьютерах на основе архитектуры фон Неймана . Поскольку языки программирования являются лишь удобными представлениями машины Тьюринга, любая программа на компьютере фон Неймана имеет те же свойства и ограничения, что и машина Тьюринга или ее эквивалентное представление. Следовательно, каждый язык программирования, такой как машинный код уровня ЦП, ассемблер или любой язык программирования высокого уровня, имеет такую же выразительную силу, какую способна вычислять базовая машина Тьюринга. Между ними нет семантического разрыва, поскольку программа передается с языка высокого уровня в машинный код программой, например компилятором, который сам работает на машине Тьюринга без какого-либо взаимодействия с пользователем. Фактически возникает семантический разрыв между выбором правил и представлением задачи.

Практические последствия

Выбор правил для формального представления реальных приложений соответствует написанию программы. Написание программ не зависит от реального языка программирования и в основном требует перевода специфических для предметной области знаний пользователя в формальные правила, управляющие машиной Тьюринга. Именно этот переход от контекстуального знания к формальному представлению не может быть автоматизирован с учетом теоретических ограничений вычислений. Следовательно, любое отображение из реальных приложений в компьютерные приложения требует от пользователя определенного количества технических базовых знаний, где проявляется семантический разрыв .

Фундаментальной задачей программной инженерии является сокращение разрыва между знаниями о конкретных приложениях и технически выполнимой формализацией. Для этого необходимо передать специфические (высокоуровневые) знания предметной области в алгоритм и его параметры (низкоуровневые). Это требует диалога между пользователем и разработчиком. Цель - это всегда программное обеспечение, которое позволяет пользователю представить свои знания как параметры алгоритма, не зная деталей реализации, и интерпретировать результат работы алгоритма без помощи разработчика. Для этого пользовательские интерфейсы играют ключевую роль в разработке программного обеспечения, а разработчики поддерживаются фреймворками, которые помогают организовать интеграцию контекстной информации.

Примеры

Поиск документов

Простой пример можно сформулировать как серию все более сложных запросов на естественном языке для поиска целевого документа, который может существовать или не существовать локально в известной компьютерной системе.

Примеры запросов :

1) Найдите любой файл в известном каталоге «/ usr / local / funny».
2) Найдите любой файл, в названии которого есть слово «смешно».
3) Найдите любой текстовый файл, в тексте которого встречается слово «смешно» или подстрока «юмор».
4) Найдите любой mp3- файл, в метаданных которого указано «смешно», «комикс» или «юмор».
5) Найдите любой файл любого типа, связанный с юмором.
6) Найдите любое изображение, которое может рассмешить мою бабушку.

Возрастающая сложность этих запросов представлена возрастающей степенью абстракции от типов и семантики, определяющих системную архитектуру (каталоги и файлы на известном компьютере), до типов и семантики, которые занимают сферу обычного человеческого дискурса (такие темы, как " юмор »и такие сущности, как« моя бабушка »). Более того, это несоответствие сфер дополнительно осложняется нечеткими абстракциями , например, обычными в случае запроса 4), где целевой документ может существовать, но не может инкапсулировать «метаданные» в манере, ожидаемой пользователем, или конструктор системы обработки запросов.

Анализ изображений

Анализ изображений - это типичная область, для которой требуется высокая степень абстракции от низкоуровневых методов, и где семантический пробел немедленно влияет на пользователя. Если содержимое изображения необходимо идентифицировать, чтобы понять значение изображения, единственной доступной независимой информацией являются данные пикселей низкого уровня. Текстовые аннотации всегда зависят от знаний, способности выражения и конкретного языка аннотатора и поэтому ненадежны. Чтобы распознать отображаемые сцены из необработанных данных изображения, алгоритмы выбора и манипулирования пикселями должны быть скомбинированы и параметризованы соответствующим образом и, наконец, связаны с естественным описанием. Даже простое лингвистическое представление формы или цвета, такого как круглая или желтая, требует совершенно иных методов математической формализации, которые не являются ни интуитивными, ни уникальными, ни надежными.

Семантический разрыв в контексте анализа изображений

Многослойные системы

Во многих многоуровневых системах возникают некоторые конфликты, когда концепции высокого уровня абстракции необходимо преобразовать в более низкие, более конкретные артефакты . Это несоответствие часто называют семантическим разрывом .

Базы данных

Сторонники ООСУБД (объектно-ориентированной системы управления базами данных) иногда заявляют, что эти базы данных помогают уменьшить семантический разрыв между доменом приложения ( мини-миром ) и традиционными системами РСУБД. ^[4] Однако сторонники реляционных технологий утверждают прямо противоположное, потому что по определению объектные базы данных фиксируют записываемые данные в единую абстракцию связывания.