Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В программном обеспечении , проверка орфографии (или проверка орфографии ) является функцией программного обеспечения , которая проверяет опечатки в тексте . Функции проверки орфографии часто встроены в программное обеспечение или службы, такие как текстовый процессор , почтовый клиент , электронный словарь или поисковую систему .

В Eye есть проверка орфографии,
она пришла с моим Pea Sea.
На нем самолет подветренной отметки четыре моего ревю
Мисс Стейкс Я могу завязать море.

Глаз ударяет по набережной и типа жужжит
И вес четыре, он два говорит
Погода, глаз, я пишу весло неправильно,
Он говорит мне прямо вес.

Глаз пробежал это стихотворение бросил,
Твой берег реально рад двум нет.
Его вес отполирован.
Моя шашка разрешила мне шить.

Шашка - благо,
Она замораживает тисовые дольки тимьяна.
Это помогает мне выправить все этапы восстановления,
И помогает мне, когда глаза инеют.

Каждая драка появляется на моем экране.
Глаз связан слишком много джоуля.
Шашка наливает каждое слово
Правило написания двух контрольных сумм.

Первоначальная версия этого стихотворения была написана Джерролдом Х. Заром в 1992 году. Неискушенный специалист по проверке правописания не найдет в этом стихотворении недостатков или не обнаружит никаких недостатков, поскольку он проверяет слова изолированно. Более сложная проверка орфографии будет использовать языковую модель для рассмотрения контекста, в котором встречается слово.
Проверка орфографии в Google Chrome для приведенного выше стихотворения, слово "проверка" помечено как нераспознанное слово.

Дизайн [ править ]

Базовая проверка орфографии выполняет следующие процессы:

  • Он сканирует текст и извлекает содержащиеся в нем слова.
  • Затем он сравнивает каждое слово с известным списком правильно написанных слов (т. Е. Словарем). Он может содержать просто список слов или дополнительную информацию, такую ​​как точки переноса или лексические и грамматические атрибуты.
  • Дополнительным шагом является зависящий от языка алгоритм обработки морфологии . Даже для языка с легкими наклонами, такого как английский , программе проверки правописания необходимо будет учитывать разные формы одного и того же слова, такие как множественное число, глагольные формы, сокращения и притяжательные формы . Для многих других языков, таких как языки с агглютинацией и более сложным склонением и спряжением, эта часть процесса более сложна.

Неясно, дает ли морфологический анализ, позволяющий использовать множество различных форм слова в зависимости от его грамматической роли, значительные преимущества для английского языка, хотя его преимущества для языков с высокой степенью синтеза, таких как немецкий, венгерский или турецкий, очевидны.

В качестве дополнения к этим компонентам пользовательский интерфейс программы позволит пользователям утверждать или отклонять замены и изменять работу программы.

Альтернативный тип проверки орфографии использует исключительно статистическую информацию, такую ​​как n-граммы , для распознавания ошибок вместо правильно написанных слов. Этот подход обычно требует больших усилий для получения достаточной статистической информации. Ключевые преимущества включают необходимость меньшего объема памяти во время выполнения и возможность исправлять ошибки в словах, которые не включены в словарь. [1]

В некоторых случаях средства проверки орфографии используют фиксированный список орфографических ошибок и предложений для этих орфографических ошибок; этот менее гибкий подход часто используется в методах исправления на бумаге, таких как см. также статьи в энциклопедиях.

Алгоритмы кластеризации также использовались для проверки орфографии [2] в сочетании с фонетической информацией. [3]

История [ править ]

Pre-PC [ править ]

В 1961 году Лес Эрнест , возглавлявший исследования этой многообещающей технологии, счел необходимым включить первую программу проверки орфографии, которая обращалась к списку из 10 000 допустимых слов. [4] Ральф Горин, в то время аспирант под руководством Эрнеста, создал первую настоящую программу проверки орфографии, написанную в виде прикладной программы (а не исследования) для общего английского текста: SPELL для DEC PDP-10 в Лаборатории искусственного интеллекта Стэнфордского университета. , в феврале 1971 г. [5] Горин написал ЗАКЛИНАНИЕ на ассемблере., для более быстрого действия; он сделал первый корректор орфографии, выполнив поиск в списке слов на предмет правдоподобных правильных написаний, которые отличаются одной буквой или транспонированием соседних букв, и представив их пользователю. Горин сделал SPELL общедоступным, как это было сделано с большинством программ SAIL (Стэнфордская лаборатория искусственного интеллекта), и вскоре он распространился по миру через новую сеть ARPAnet, примерно за десять лет до того, как персональные компьютеры стали широко использоваться. [6] SPELL, его алгоритмы и структуры данных вдохновили Unix- программу ispell .

Первые средства проверки орфографии были широко доступны на мэйнфреймах в конце 1970-х годов. Группа из шести лингвистов из Джорджтаунского университета разработала первую систему проверки орфографии для корпорации IBM. [7]

Генри Кучера изобрел один для машин VAX Digital Equipment Corp в 1981 г. [8]

ПК [ править ]

Первые средства проверки правописания для персональных компьютеров появились в 1980 году, такие как WordCheck для систем Commodore, который был выпущен в конце 1980 года к моменту выхода рекламы в печать в январе 1981 года. [9] Разработчики, такие как Мария Мариани [7] и Random Хаус [10] поспешно вывел OEM- пакеты или продукты для конечных пользователей на быстрорастущий рынок программного обеспечения. На ПК с предустановленной ОС эти средства проверки орфографии были автономными программами, многие из которых можно было запускать в режиме TSR из пакетов текстовых редакторов на ПК с достаточным объемом памяти.

Однако рынок автономных пакетов просуществовал недолго, так как к середине 1980-х разработчики популярных пакетов текстовых редакторов, таких как WordStar и WordPerfect, включили в свои пакеты средства проверки орфографии, в основном лицензированные вышеупомянутыми компаниями, которые быстро расширили поддержку всего за Английский для многих европейских и даже азиатских языков . Однако это потребовало все большего усложнения процедур морфологии программного обеспечения, особенно в отношении сильно агглютинативных языков, таких как венгерский и финский . Хотя размер рынка текстовых редакторов в такой стране, как Исландия,возможно, не оправдало вложений во внедрение программы проверки орфографии, такие компании, как WordPerfect, тем не менее, стремились локализовать свое программное обеспечение для максимально возможного количества национальных рынков в рамках своей глобальной маркетинговой стратегии.

Когда Apple Macintosh разработала «общесистемную проверку орфографии», чтобы «операционная система взяла на себя исправления орфографии» [11], это было первое: «не нужно было поддерживать отдельную проверку орфографии для каждой» программы. [12] Функция проверки орфографии Mac OS X включает практически все связанные приложения и приложения сторонних производителей.

VT Speller от Visual Tools , представленный в 1994 году, был «разработан для разработчиков приложений, поддерживающих Windows». [13] [14] Он поставлялся со словарем, но имел возможность создавать и использовать вторичные словари. [15]

Браузеры [ править ]

Firefox 2.0, веб-браузер , поддерживает проверку орфографии для пользовательского контента [16], например, при редактировании Wikitext, написании текста на многих сайтах электронной почты , блогах и сайтах социальных сетей . Веб - браузеры Google Chrome , Konqueror и Opera , почтовый клиент Kmail и обмен мгновенных сообщений клиент Pidgin также предлагает проверку орфографии поддержки, прозрачно используя ранее GNU Aspell и в настоящее время Hunspell в качестве двигателя.

Специальности [ править ]

Некоторые программы проверки орфографии имеют отдельную поддержку медицинских словарей, чтобы предотвратить медицинские ошибки. [17] [18] [19]

Функциональность [ править ]

Первые средства проверки правописания были «проверяющими», а не «корректорами». Они не предложили никаких предложений для неправильно написанных слов. Это было полезно для опечаток, но было не так полезно для логических или фонетических ошибок. Проблема, с которой столкнулись разработчики, заключалась в том, что трудно было предложить полезные предложения для слов с ошибками. Это требует преобразования слов в скелетную форму и применения алгоритмов сопоставления с образцом.

Может показаться логичным, что когда речь идет о словарях для проверки орфографии, «чем больше, тем лучше», чтобы правильные слова не помечались как неправильные. Однако на практике оптимальный размер для английского языка составляет около 90 000 статей. Если их больше, неправильно написанные слова могут быть пропущены, потому что они ошибочно приняты за другие. Например, лингвист может определить на основе лингвистики корпуса, что слово бат чаще является неправильным написанием слова ванна или летучая мышь, чем ссылкой на тайскую валюту. Следовательно, обычно было бы более полезно, если бы несколько людей, которые пишут о тайской валюте, были немного неудобны, чем если бы орфографические ошибки гораздо большего числа людей, которые обсуждают ванны, были упущены.

Скриншот Enchant , средства проверки правописания AbiWord .

Первые средства проверки орфографии MS-DOS в основном использовались в режиме проверки из пакетов текстовых редакторов. После подготовки документа пользователь сканировал текст на предмет орфографических ошибок. Позже, однако, пакетная обработка была предложена в таких пакетах , как Oracle «s недолговечны Соавтор и позволил пользователю просматривать результаты после того, как документ был обработан и исправить только те слова , которые были известны неправильно. Когда памяти и вычислительной мощности стало больше, проверка орфографии выполнялась в фоновом режиме в интерактивном режиме, как это было в случае с программой Spellbound, созданной Sector Software, выпущенной в 1987 году, и Microsoft Word, начиная с Word 95.

В последние годы средства проверки орфографии становятся все более изощренными; некоторые теперь способны распознавать простые грамматические ошибки. Однако даже в лучшем случае они редко обнаруживают все ошибки в тексте (например, ошибки омофона ) и помечают неологизмы и иностранные слова как орфографические ошибки. Тем не менее, средства проверки орфографии можно рассматривать как тип вспомогательного средства для письма на иностранном языке, на которое изучающие иностранный язык могут положиться при обнаружении и исправлении орфографических ошибок на целевом языке. [20]

Проверка орфографии на языках, отличных от английского [ править ]

Английский язык необычен тем, что большинство слов, используемых в формальном письме, имеют единственное написание, которое можно найти в типичном словаре, за исключением некоторых жаргонов и модифицированных слов. Во многих языках слова часто объединяются в новые комбинации слов. В немецком языке составные существительные часто образуются от других существующих существительных. В некоторых сценариях одно слово четко не отделяется от другого, поэтому требуются алгоритмы разделения слов. Каждый из них представляет собой уникальную проблему для средств проверки орфографии, не владеющих английским языком.

Контекстно-зависимые средства проверки правописания [ править ]

Были проведены исследования по разработке алгоритмов, способных распознавать слово с ошибкой, даже если само слово присутствует в словаре, на основе контекста окружающих слов. Это не только позволяет улавливать слова, подобные тем, что в стихотворении выше, но и смягчает пагубный эффект увеличения словарей, позволяя распознавать больше слов. Например, бат в том же пункте , как тайский или Таиланд не будет признан как опечатка в ванне . Самым распространенным примером ошибок, обнаруживаемых такой системой, являются ошибки омофона , такие как слова, выделенные жирным шрифтом в следующем предложении:

Их приближение слишком морем, если его катушка .

Самым успешным алгоритмом на сегодняшний день является « Алгоритм исправления орфографии на основе Winnow » Эндрю Голдинга и Дэна Рота [21], опубликованный в 1999 г., который способен распознавать около 96% контекстно-зависимых орфографических ошибок в дополнение к обычным несловесным ошибкам. орфографические ошибки. Контекстно-зависимая проверки орфографии появляется в Microsoft Office 2007 , [22] , а также появился в ныне несуществующей Google Wave . [23]

Программы проверки грамматики пытаются исправить проблемы с грамматикой, помимо орфографических ошибок, включая неправильный выбор слов.

См. Также [ править ]

  • Приблизительное соответствие строк
  • Эффект Купертино
  • Проверка грамматики
  • Проблема с привязкой к записи
  • Предложение правописания
  • Слова (Unix)
  • Автокоррекция
  • LanguageTool

Ссылки [ править ]

  1. ^ Патент США 6618697, Метод исправления орфографических и грамматических ошибок на основе правил
  2. ^ де Аморим, RC; Зампиери, М. (2013) Эффективные методы проверки орфографии с использованием алгоритмов кластеризации. Архивировано 17 августа 2017 года в журнале Wayback Machine Proceedings of Recent Advances in Natural Language Processing (RANLP2013). Гиссар, Болгария. п. 172-178.
  3. ^ Zampieri, M .; де Аморим, Р.К. (2014) Между звуком и правописанием: сочетание фонетики и алгоритмов кластеризации для улучшения восстановления целевого слова. Материалы 9-й Международной конференции по обработке естественного языка (PolTAL). Конспект лекций по информатике (LNCS). Springer. п. 438-449.
  4. ^ Эрнест, Лес. «Первые три средства проверки правописания» (PDF) . Стэндфордский Университет. Архивировано из оригинального (PDF) 22 октября 2012 года . Проверено 10 октября 2011 года .
  5. Петерсон, Джеймс (декабрь 1980 г.). Компьютерные программы для обнаружения и исправления орфографических ошибок (PDF) . Проверено 18 февраля 2011 .
  6. ^ Эрнест, Лес. Видимое наследие Y3K (PDF) . Архивировано из оригинального (PDF) 20 июля 2011 года . Проверено 18 февраля 2011 .
  7. ^ a b "Преподаватели и сотрудники Джорджтаунского университета: Центр языка, образования и развития" . Архивировано из оригинала на 2009-02-05 . Проверено 18 декабря 2008 ., цитата: «Мария Мариани ... была одной из шести лингвистов из Джорджтаунского университета, которые разработали первую систему проверки орфографии для корпорации IBM».
  8. ^ Харви, Шарлотта Брюс (май – июнь 2010 г.). «Обучение компьютеров правописанию (некролог Генри Кучера)». Журнал "Браун выпускников" . п. 79.
  9. ^ Реклама (январь 1981 г.). "Микро Компьютер Индастриз, Лтд" (PDF) . Вычислить! Журнал, Выпуск 8, Том. 3, №1 . п. 119.
  10. Реклама (ноябрь 1982 г.). "Орфографическая пчела закончилась" . Журнал ПК . п. 165 . Проверено 21 октября 2013 года .
  11. ^ Дэвид Пог (2009). Mac OS X Snow Leopard: отсутствующее руководство .
  12. ^ Дэвид Пог (2015). Переход на Mac: отсутствующее руководство .
  13. ^ "VisualTools VT-Speller". Компьютерный мир . 21 февраля 1994 г. с. 68.
  14. ^ "Обзор 27 сентября 1993" . VT-SPELLER
  15. Питер Г. Эйткен (8 ноября 1994 г.). «Проверка орфографии для ваших приложений». Журнал ПК . п. 299.
  16. ^ «Проверить мою электронную почту на наличие орфографических ошибок | Электронная почта рабочего пространства - GoDaddy Help US» . www.godaddy.com .
  17. ^ «Медицинская проверка орфографии для Firefox и Thunderbird» . e-MedTools. 2017 . Проверено 29 августа 2018 .
  18. ^ Кватамер, доктор Тобиас (2016). «Немецкий медицинский словарь слов» . Доктор Тобиас Кватамер . Проверено 29 августа 2018 .
  19. ^ Фридман, Ричард А .; Д, М (2003). «СЛУЧАИ; Учесть орфографию и почерк? В медицине вы держите пари» . Нью-Йорк Таймс . Проверено 29 августа 2018 .
  20. ^ Бэнкс, Т. (2008). Трудности изучения иностранного языка и стратегии преподавания . (стр.29). Магистерская работа, Доминиканский университет Калифорнии. Проверено 19 марта 2012 года.
  21. ^ Голдинг, Эндрю Р .; Рот, Дэн (1999). «Журнальная статья» . Машинное обучение . SpringerLink. 34 : 107–130. DOI : 10,1023 / A: 1007545901558 .
  22. Уолт Моссберг (4 января 2007 г.). «Обзор» . Wall Street Journal . Проверено 24 сентября 2010 года .
  23. ^ "Операционная система Google" . googlesystem.blogspot.com . Проверено 25 сентября 2010 года . "Контекстно-зависимая проверка орфографии Google" . 29 мая 2009 года . Проверено 25 сентября 2010 года .

Внешние ссылки [ править ]

  • Список средств проверки орфографии в Curlie
  • Norvig.com , "Как написать корректор орфографии", Питер Норвиг
  • BBK.ac.uk , "Проверка орфографии компьютером", Роджер Миттон
  • CBSNews.com , Ллойд де Фрис, «Проверка орфографии».
  • История и текст «Кандидата в молодку-сюрприз» Марка Экмана и Джеррольда Х. Зара