Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Google Ngram просмотра или Google Книги Ngram просмотра является интернет - поисковик , который диаграммы частоты любого набора строк поиска с помощью ежегодно кол - п-граммы найдены в источниках напечатанных между 1500 и 2019 [1] [2] [3] [ 4] [5] в корпусе текста Google на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках. [2] [6] Есть также несколько специализированных корпусов английского языка, таких как американский английский, британский английский и английская художественная литература. [7]

Программа может искать слово или фразу , включая орфографические ошибки или тарабарщину . [6] n-граммы сопоставляются с текстом в выбранном корпусе, при необходимости используя орфографию с учетом регистра (которая сравнивает точное использование прописных букв), [8] и, если они найдены в 40 или более книгах, затем отображаются в виде графика. [9]

Средство просмотра Google Ngram поддерживает поиск по частям речи и подстановочным знакам . [7] Он обычно используется в исследованиях. [10] [11]

История [ править ]

Программа была разработана Джоном Орвантом и Уиллом Брокманом и выпущена в середине декабря 2010 года. [2] [3] Она была вдохновлена ​​прототипом под названием «Книжный червь», созданным Жан-Батистом Мишелем и Эрезом Эйденом из Культурной обсерватории Гарварда и Юань Шеном. из Массачусетского технологического института и Стивена Пинкера . [12]

Ngram Viewer изначально был основан на выпуске Google Книг Ngram Corpus 2009 года. По состоянию на июль 2020 года программа поддерживает корпуса 2009, 2012 и 2019 годов.

Работа и ограничения [ править ]

Запятые разделяют вводимые пользователем условия поиска, указывая каждое отдельное слово или фразу для поиска. [9] Ngram Viewer возвращает построенную линейную диаграмму в течение нескольких секунд после нажатия пользователем клавиши Enter или кнопки «Поиск» на экране.

В качестве поправки на большее количество книг, опубликованных в течение нескольких лет, данные нормализованы , как относительный уровень, по количеству книг, издаваемых за каждый год. [9]

Из-за ограничений на размер базы данных Ngram, только совпадения, найденные по крайней мере в 40 книгах, индексируются в базе данных; иначе база данных не смогла бы сохранить все возможные комбинации. [9]

Обычно поисковые запросы не могут заканчиваться знаками препинания, хотя можно искать отдельную точку (точку). [9] Кроме того, конечный вопросительный знак (например, «Почему?») Вызовет второй поиск вопросительного знака отдельно. [9]

Пропуск точек в сокращениях позволит использовать форму сопоставления, например, использование «R M S» для поиска «RMS» по сравнению с «RMS».

Корпорация [ править ]

Корпусы используется для поиска состоят из TOTAL_COUNTS, 1-г, 2-г, 3-граммы, 4-граммы, и 5-грамм файлов для каждого языка. Формат файла каждого из файлов - данные, разделенные табуляцией . Каждая строка имеет следующий формат: [13]

  • total_counts файл
    год TAB match_count TAB page_count TAB volume_count NEWLINE
  • Файл ngram версии 1 (создан в июле 2009 г.)
    ngram TAB год TAB match_count TAB page_count TAB volume_count NEWLINE
  • Файл ngram версии 2 (создан в июле 2012 г.)
    ngram TAB год TAB match_count TAB volume_count NEWLINE

Средство просмотра Google Ngram использует match_count для построения графика.

Например, слово «Википедия» из файла версии 2 с английскими 1-граммами хранится следующим образом: [14]

График, построенный программой просмотра Google Ngram Viewer с использованием приведенных выше данных, находится здесь: [15]

Критика [ править ]

Набор данных подвергался критике за то, что он полагался на неточное распознавание текста , переизбыток научной литературы и за включение большого количества неправильно датированных и категоризированных текстов. [16] [17] Из-за этих ошибок, а также из-за неконтролируемой предвзятости [18] (например, растущее количество научной литературы, которое вызывает снижение популярности других терминов), использовать этот корпус рискованно. изучать язык или проверять теории. [19] Поскольку набор данных не включает метаданные , он может не отражать общие языковые или культурные изменения [20] и может только намекать на такой эффект.

Были предложены рекомендации по проведению исследований с данными из Google Ngram, которые решают многие из проблем, рассмотренных выше. [21]

Проблемы с распознаванием текста [ править ]

Оптическое распознавание символов или OCR не всегда надежно, и некоторые символы могут быть неправильно отсканированы. В частности, системные ошибки, такие как путаница «s» и «f» в текстах до XIX века (из-за использования длинного s, которое по внешнему виду было похоже на «f»), могут вызвать системную предвзятость. Хотя Google Ngram Viewer утверждает, что результаты являются надежными с 1800 года и позже, плохое распознавание текста и недостаточные данные означают, что частоты, указанные для таких языков, как китайский, могут быть точными только с 1970 года, при этом более ранние части корпуса не показывают результатов для общих терминов. , и данные за несколько лет, содержащие более 50% шума. [22] [23]

См. Также [ править ]

  • Культуромика
  • Google Trends
  • Лексический анализ

Ссылки [ править ]

  1. ^ «Количественный анализ культуры с использованием миллионов оцифрованных книг» JB Michel et al, Science 2011, DOI: 10.1126 / science.1199644 [1]
  2. ^ a b c «База данных Google Ngram отслеживает популярность 500 миллиардов слов» Huffington Post , 17 декабря 2010 г., веб-страница: HP8150 .
  3. ^ a b «Google's Ngram Viewer: машина времени для игры слов», Cnet.com, 17 декабря 2010 г., веб-страница: CN93 .
  4. ^ «Картинка стоит 500 миллиардов слов - Расти С. Томпсон», HarrisburgMagazine.com, 20 сентября 2011 г., веб-страница: HBMag20 [ постоянная мертвая ссылка ] .
  5. ^ Google SearchLiaison. «Программа просмотра Google Книг Ngram теперь обновлена ​​свежими данными за 2019 год» . Twitter . Проверено 11 августа 2020 .
  6. ^ a b «Программа просмотра Ngram Google Книг - Библиотеки Университета Буффало», Lib.Buffalo.edu, 22 августа 2011 г., веб-страница: Buf497. Архивировано 2 июля 2013 г. на Wayback Machine .
  7. ^ a b Информационная страница средства просмотра Ngram в Google Книгах: https://books.google.com/ngrams/info
  8. ^ "Google Ngram Viewer - Google Книги", Books.Google.com, май 2012 г., веб-страница: G-Ngrams .
  9. ^ a b c d e f "Google Ngram Viewer - Google Книги" (информация), Books.Google.com, 16 декабря 2010 г., веб-страница: G-Ngrams-info : отмечает биграммы и использование кавычек для слов с апострофами.
  10. Перейти ↑ Greenfield PM (2013). Изменяющаяся психология культуры с 1800 по 2000 год. Психологическая наука, 24 (9), 1722–1731. https://doi.org/10.1177/0956797613479387
  11. ^ Юнес, Н., & Reips, U.-D. (2018). Изменяющаяся психология культуры в Германии: исследование Google Ngram. Международный журнал психологии, 53 (S1), 53-62. https://doi.org/10.1002/ijop.12428
  12. RSA (4 февраля 2010 г.). «Стивен Пинкер - Материал мысли: язык как окно в человеческую природу» - через YouTube.
  13. ^ "Программа просмотра Google Книг Ngram" .
  14. ^ googlebooks-eng-all-1gram-20120701-w.gz по адресу http://storage.googleapis.com/books/ngrams/books/datasetsv2.html.
  15. ^ https://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0
  16. ^ Google Ngrams: OCR и метаданные, заархивированные 27 апреля 2016 г. на Wayback Machine . ResourceShelf, 19 декабря 2010 г.
  17. ^ Нанберг, Geoff (16 декабря 2010). «Гуманитарные исследования в корпусе Google Книг» . Архивировано из оригинального 10 -го марта 2016 года.
  18. ^ Печеник, Эйтан Адам; Данфорт, Кристофер М .; Доддс, Питер Шеридан; Баррат, Ален (7 октября 2015 г.). «Характеристика корпуса Google Книги: строгие ограничения для выводов о социокультурной и лингвистической эволюции» . PLOS ONE . 10 (10): e0137041. arXiv : 1501.00960 . Bibcode : 2015PLoSO..1037041P . DOI : 10.1371 / journal.pone.0137041 . PMC 4596490 . PMID 26445406 .  
  19. ^ Чжан, Сара. «Ловушки использования Google Ngram для изучения языка» . ПРОВОДНОЙ . Проверено 24 мая 2017 .
  20. ^ Коплениг Александр (2015-09-02). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram - реконструкция состава немецкого корпуса во времена Второй мировой войны» . Цифровая стипендия по гуманитарным наукам (опубликовано 01.04.2017). 32 (1): 169–188. DOI : 10,1093 / ооо / fqv037 . ISSN 2055-7671 . 
  21. ^ Юнес, Н., & Reips, U.-D. (2019). Рекомендации по повышению надежности исследований Google Ngram: свидетельства с религиозной точки зрения. PLoS One, 14 (3): e0213554. https://doi.org/10.1371/journal.pone.0213554
  22. ^ Google n-граммы и до-современный китайский язык . digitalsinology.org.
  23. ^ Когда n-граммы портятся . digitalsinology.org.

Библиография [ править ]

  • Лин, Юрий; и другие. (Июль 2012 г.). «Синтаксические аннотации для корпуса Ngram Google Книг» (PDF) . Труды 50-го ежегодного собрания . Демо-материалы. Чеджу, Республика Корея: Ассоциация компьютерной лингвистики. 2 : 169–174. 2390499. Whitepaper представления в 2012 году издание Google Книги Ngram корпус

Внешние ссылки [ править ]

  • Официальный веб-сайт