Google Ngram просмотра или Google Книги Ngram просмотра является интернет - поисковик , который диаграммы частоты любого набора строк поиска с помощью ежегодно кол - п-граммы найдены в источниках напечатанных между 1500 и 2019 [1] [2] [3] [ 4] [5] в корпусе текста Google на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках. [2] [6] Есть также несколько специализированных корпусов английского языка, таких как американский английский, британский английский и английская художественная литература. [7]
Программа может искать слово или фразу , включая орфографические ошибки или тарабарщину . [6] n-граммы сопоставляются с текстом в выбранном корпусе, при необходимости используя орфографию с учетом регистра (которая сравнивает точное использование прописных букв), [8] и, если они найдены в 40 или более книгах, затем отображаются в виде графика. [9]
Средство просмотра Google Ngram поддерживает поиск по частям речи и подстановочным знакам . [7] Он обычно используется в исследованиях. [10] [11]
История [ править ]
Программа была разработана Джоном Орвантом и Уиллом Брокманом и выпущена в середине декабря 2010 года. [2] [3] Она была вдохновлена прототипом под названием «Книжный червь», созданным Жан-Батистом Мишелем и Эрезом Эйденом из Культурной обсерватории Гарварда и Юань Шеном. из Массачусетского технологического института и Стивена Пинкера . [12]
Ngram Viewer изначально был основан на выпуске Google Книг Ngram Corpus 2009 года. По состоянию на июль 2020 [Обновить]года программа поддерживает корпуса 2009, 2012 и 2019 годов.
Работа и ограничения [ править ]
Запятые разделяют вводимые пользователем условия поиска, указывая каждое отдельное слово или фразу для поиска. [9] Ngram Viewer возвращает построенную линейную диаграмму в течение нескольких секунд после нажатия пользователем клавиши Enter или кнопки «Поиск» на экране.
В качестве поправки на большее количество книг, опубликованных в течение нескольких лет, данные нормализованы , как относительный уровень, по количеству книг, издаваемых за каждый год. [9]
Из-за ограничений на размер базы данных Ngram, только совпадения, найденные по крайней мере в 40 книгах, индексируются в базе данных; иначе база данных не смогла бы сохранить все возможные комбинации. [9]
Обычно поисковые запросы не могут заканчиваться знаками препинания, хотя можно искать отдельную точку (точку). [9] Кроме того, конечный вопросительный знак (например, «Почему?») Вызовет второй поиск вопросительного знака отдельно. [9]
Пропуск точек в сокращениях позволит использовать форму сопоставления, например, использование «R M S» для поиска «RMS» по сравнению с «RMS».
Корпорация [ править ]
Корпусы используется для поиска состоят из TOTAL_COUNTS, 1-г, 2-г, 3-граммы, 4-граммы, и 5-грамм файлов для каждого языка. Формат файла каждого из файлов - данные, разделенные табуляцией . Каждая строка имеет следующий формат: [13]
- total_counts файл
- год TAB match_count TAB page_count TAB volume_count NEWLINE
- Файл ngram версии 1 (создан в июле 2009 г.)
- ngram TAB год TAB match_count TAB page_count TAB volume_count NEWLINE
- Файл ngram версии 2 (создан в июле 2012 г.)
- ngram TAB год TAB match_count TAB volume_count NEWLINE
Средство просмотра Google Ngram использует match_count для построения графика.
Например, слово «Википедия» из файла версии 2 с английскими 1-граммами хранится следующим образом: [14]
нграм | год | match_count | volume_count |
---|---|---|---|
Википедия | 1904 г. | 1 | 1 |
Википедия | 1912 г. | 11 | 1 |
Википедия | 1924 г. | 1 | 1 |
Википедия | 1925 г. | 11 | 1 |
Википедия | 1929 г. | 11 | 1 |
Википедия | 1943 г. | 11 | 1 |
Википедия | 1946 г. | 11 | 1 |
Википедия | 1947 г. | 11 | 1 |
Википедия | 1949 г. | 11 | 1 |
Википедия | 1951 г. | 11 | 1 |
Википедия | 1953 г. | 22 | 2 |
Википедия | 1955 г. | 11 | 1 |
Википедия | 1958 г. | 1 | 1 |
Википедия | 1961 г. | 22 | 2 |
Википедия | 1964 г. | 22 | 2 |
Википедия | 1965 г. | 11 | 1 |
Википедия | 1966 г. | 15 | 2 |
Википедия | 1969 г. | 33 | 3 |
Википедия | 1970 г. | 129 | 4 |
Википедия | 1971 г. | 44 год | 4 |
Википедия | 1972 г. | 22 | 2 |
Википедия | 1973 | 1 | 1 |
Википедия | 1974 г. | 2 | 1 |
Википедия | 1975 г. | 33 | 3 |
Википедия | 1976 г. | 11 | 1 |
Википедия | 1977 г. | 13 | 3 |
Википедия | 1978 г. | 11 | 1 |
Википедия | 1979 г. | 112 | 12 |
Википедия | 1980 г. | 13 | 4 |
Википедия | 1982 г. | 11 | 1 |
Википедия | 1983 г. | 3 | 2 |
Википедия | 1984 | 48 | 3 |
Википедия | 1985 г. | 37 | 3 |
Википедия | 1986 г. | 6 | 4 |
Википедия | 1987 г. | 13 | 2 |
Википедия | 1988 г. | 14 | 3 |
Википедия | 1990 г. | 12 | 2 |
Википедия | 1991 г. | 8 | 5 |
Википедия | 1992 г. | 1 | 1 |
Википедия | 1993 г. | 1 | 1 |
Википедия | 1994 г. | 23 | 3 |
Википедия | 1995 г. | 4 | 1 |
Википедия | 1996 г. | 23 | 3 |
Википедия | 1997 г. | 6 | 1 |
Википедия | 1998 г. | 32 | 10 |
Википедия | 1999 г. | 39 | 11 |
Википедия | 2000 г. | 43 год | 12 |
Википедия | 2001 г. | 59 | 14 |
Википедия | 2002 г. | 105 | 19 |
Википедия | 2003 г. | 149 | 53 |
Википедия | 2004 г. | 803 | 285 |
Википедия | 2005 г. | 2964 | 911 |
Википедия | 2006 г. | 9818 | 2655 |
Википедия | 2007 г. | 20017 | 5400 |
Википедия | 2008 г. | 33722 | 6825 |
График, построенный программой просмотра Google Ngram Viewer с использованием приведенных выше данных, находится здесь: [15]
Критика [ править ]
Набор данных подвергался критике за то, что он полагался на неточное распознавание текста , переизбыток научной литературы и за включение большого количества неправильно датированных и категоризированных текстов. [16] [17] Из-за этих ошибок, а также из-за неконтролируемой предвзятости [18] (например, растущее количество научной литературы, которое вызывает снижение популярности других терминов), использовать этот корпус рискованно. изучать язык или проверять теории. [19] Поскольку набор данных не включает метаданные , он может не отражать общие языковые или культурные изменения [20] и может только намекать на такой эффект.
Были предложены рекомендации по проведению исследований с данными из Google Ngram, которые решают многие из проблем, рассмотренных выше. [21]
Проблемы с распознаванием текста [ править ]
Оптическое распознавание символов или OCR не всегда надежно, и некоторые символы могут быть неправильно отсканированы. В частности, системные ошибки, такие как путаница «s» и «f» в текстах до XIX века (из-за использования длинного s, которое по внешнему виду было похоже на «f»), могут вызвать системную предвзятость. Хотя Google Ngram Viewer утверждает, что результаты являются надежными с 1800 года и позже, плохое распознавание текста и недостаточные данные означают, что частоты, указанные для таких языков, как китайский, могут быть точными только с 1970 года, при этом более ранние части корпуса не показывают результатов для общих терминов. , и данные за несколько лет, содержащие более 50% шума. [22] [23]
См. Также [ править ]
- Культуромика
- Google Trends
- Лексический анализ
Ссылки [ править ]
- ^ «Количественный анализ культуры с использованием миллионов оцифрованных книг» JB Michel et al, Science 2011, DOI: 10.1126 / science.1199644 [1]
- ^ a b c «База данных Google Ngram отслеживает популярность 500 миллиардов слов» Huffington Post , 17 декабря 2010 г., веб-страница: HP8150 .
- ^ a b «Google's Ngram Viewer: машина времени для игры слов», Cnet.com, 17 декабря 2010 г., веб-страница: CN93 .
- ^ «Картинка стоит 500 миллиардов слов - Расти С. Томпсон», HarrisburgMagazine.com, 20 сентября 2011 г., веб-страница: HBMag20 [ постоянная мертвая ссылка ] .
- ^ Google SearchLiaison. «Программа просмотра Google Книг Ngram теперь обновлена свежими данными за 2019 год» . Twitter . Проверено 11 августа 2020 .
- ^ a b «Программа просмотра Ngram Google Книг - Библиотеки Университета Буффало», Lib.Buffalo.edu, 22 августа 2011 г., веб-страница: Buf497. Архивировано 2 июля 2013 г. на Wayback Machine .
- ^ a b Информационная страница средства просмотра Ngram в Google Книгах: https://books.google.com/ngrams/info
- ^ "Google Ngram Viewer - Google Книги", Books.Google.com, май 2012 г., веб-страница: G-Ngrams .
- ^ a b c d e f "Google Ngram Viewer - Google Книги" (информация), Books.Google.com, 16 декабря 2010 г., веб-страница: G-Ngrams-info : отмечает биграммы и использование кавычек для слов с апострофами.
- Перейти ↑ Greenfield PM (2013). Изменяющаяся психология культуры с 1800 по 2000 год. Психологическая наука, 24 (9), 1722–1731. https://doi.org/10.1177/0956797613479387
- ^ Юнес, Н., & Reips, U.-D. (2018). Изменяющаяся психология культуры в Германии: исследование Google Ngram. Международный журнал психологии, 53 (S1), 53-62. https://doi.org/10.1002/ijop.12428
- ↑ RSA (4 февраля 2010 г.). «Стивен Пинкер - Материал мысли: язык как окно в человеческую природу» - через YouTube.
- ^ "Программа просмотра Google Книг Ngram" .
- ^ googlebooks-eng-all-1gram-20120701-w.gz по адресу http://storage.googleapis.com/books/ngrams/books/datasetsv2.html.
- ^ https://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0
- ^ Google Ngrams: OCR и метаданные, заархивированные 27 апреля 2016 г. на Wayback Machine . ResourceShelf, 19 декабря 2010 г.
- ^ Нанберг, Geoff (16 декабря 2010). «Гуманитарные исследования в корпусе Google Книг» . Архивировано из оригинального 10 -го марта 2016 года.
- ^ Печеник, Эйтан Адам; Данфорт, Кристофер М .; Доддс, Питер Шеридан; Баррат, Ален (7 октября 2015 г.). «Характеристика корпуса Google Книги: строгие ограничения для выводов о социокультурной и лингвистической эволюции» . PLOS ONE . 10 (10): e0137041. arXiv : 1501.00960 . Bibcode : 2015PLoSO..1037041P . DOI : 10.1371 / journal.pone.0137041 . PMC 4596490 . PMID 26445406 .
- ^ Чжан, Сара. «Ловушки использования Google Ngram для изучения языка» . ПРОВОДНОЙ . Проверено 24 мая 2017 .
- ^ Коплениг Александр (2015-09-02). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram - реконструкция состава немецкого корпуса во времена Второй мировой войны» . Цифровая стипендия по гуманитарным наукам (опубликовано 01.04.2017). 32 (1): 169–188. DOI : 10,1093 / ооо / fqv037 . ISSN 2055-7671 .
- ^ Юнес, Н., & Reips, U.-D. (2019). Рекомендации по повышению надежности исследований Google Ngram: свидетельства с религиозной точки зрения. PLoS One, 14 (3): e0213554. https://doi.org/10.1371/journal.pone.0213554
- ^ Google n-граммы и до-современный китайский язык . digitalsinology.org.
- ^ Когда n-граммы портятся . digitalsinology.org.
Библиография [ править ]
- Лин, Юрий; и другие. (Июль 2012 г.). «Синтаксические аннотации для корпуса Ngram Google Книг» (PDF) . Труды 50-го ежегодного собрания . Демо-материалы. Чеджу, Республика Корея: Ассоциация компьютерной лингвистики. 2 : 169–174. 2390499.
Whitepaper представления в 2012 году издание Google Книги Ngram корпус
Внешние ссылки [ править ]
- Официальный веб-сайт