Наблюдатель Google Ngram

Google Ngram просмотра или Google Книги Ngram просмотра является интернет - поисковик , который диаграммы частоты любого набора строк поиска с помощью ежегодно кол - п-граммы найдены в источниках напечатанных между 1500 и 2019 ^[1]^[2]^[3]^{[ 4]}^[5] в корпусе текста Google на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках. ^[2]^[6] Есть также несколько специализированных корпусов английского языка, таких как американский английский, британский английский и английская художественная литература. ^[7]

Программа может искать слово или фразу , включая орфографические ошибки или тарабарщину . ^[6] n-граммы сопоставляются с текстом в выбранном корпусе, при необходимости используя орфографию с учетом регистра (которая сравнивает точное использование прописных букв), ^[8] и, если они найдены в 40 или более книгах, затем отображаются в виде графика. ^[9]

Средство просмотра Google Ngram поддерживает поиск по частям речи и подстановочным знакам . ^[7] Он обычно используется в исследованиях. ^[10]^[11]

История [ править ]

Программа была разработана Джоном Орвантом и Уиллом Брокманом и выпущена в середине декабря 2010 года. ^[2]^[3] Она была вдохновлена прототипом под названием «Книжный червь», созданным Жан-Батистом Мишелем и Эрезом Эйденом из Культурной обсерватории Гарварда и Юань Шеном. из Массачусетского технологического института и Стивена Пинкера . ^[12]

Ngram Viewer изначально был основан на выпуске Google Книг Ngram Corpus 2009 года. По состоянию на июль 2020 ^{[Обновить]}года программа поддерживает корпуса 2009, 2012 и 2019 годов.

Работа и ограничения [ править ]

Запятые разделяют вводимые пользователем условия поиска, указывая каждое отдельное слово или фразу для поиска. ^[9] Ngram Viewer возвращает построенную линейную диаграмму в течение нескольких секунд после нажатия пользователем клавиши Enter или кнопки «Поиск» на экране.

В качестве поправки на большее количество книг, опубликованных в течение нескольких лет, данные нормализованы , как относительный уровень, по количеству книг, издаваемых за каждый год. ^[9]

Из-за ограничений на размер базы данных Ngram, только совпадения, найденные по крайней мере в 40 книгах, индексируются в базе данных; иначе база данных не смогла бы сохранить все возможные комбинации. ^[9]

Обычно поисковые запросы не могут заканчиваться знаками препинания, хотя можно искать отдельную точку (точку). ^[9] Кроме того, конечный вопросительный знак (например, «Почему?») Вызовет второй поиск вопросительного знака отдельно. ^[9]

Пропуск точек в сокращениях позволит использовать форму сопоставления, например, использование «R M S» для поиска «RMS» по сравнению с «RMS».

Корпорация [ править ]

Корпусы используется для поиска состоят из TOTAL_COUNTS, 1-г, 2-г, 3-граммы, 4-граммы, и 5-грамм файлов для каждого языка. Формат файла каждого из файлов - данные, разделенные табуляцией . Каждая строка имеет следующий формат: ^[13]

total_counts файл
год TAB match_count TAB page_count TAB volume_count NEWLINE
Файл ngram версии 1 (создан в июле 2009 г.)
ngram TAB год TAB match_count TAB page_count TAB volume_count NEWLINE
Файл ngram версии 2 (создан в июле 2012 г.)
ngram TAB год TAB match_count TAB volume_count NEWLINE

Средство просмотра Google Ngram использует match_count для построения графика.

Например, слово «Википедия» из файла версии 2 с английскими 1-граммами хранится следующим образом: ^[14]

нграм	год	match_count	volume_count
Википедия	1904 г.	1	1
Википедия	1912 г.	11	1
Википедия	1924 г.	1	1
Википедия	1925 г.	11	1
Википедия	1929 г.	11	1
Википедия	1943 г.	11	1
Википедия	1946 г.	11	1
Википедия	1947 г.	11	1
Википедия	1949 г.	11	1
Википедия	1951 г.	11	1
Википедия	1953 г.	22	2
Википедия	1955 г.	11	1
Википедия	1958 г.	1	1
Википедия	1961 г.	22	2
Википедия	1964 г.	22	2
Википедия	1965 г.	11	1
Википедия	1966 г.	15	2
Википедия	1969 г.	33	3
Википедия	1970 г.	129	4
Википедия	1971 г.	44 год	4
Википедия	1972 г.	22	2
Википедия	1973	1	1
Википедия	1974 г.	2	1
Википедия	1975 г.	33	3
Википедия	1976 г.	11	1
Википедия	1977 г.	13	3
Википедия	1978 г.	11	1
Википедия	1979 г.	112	12
Википедия	1980 г.	13	4
Википедия	1982 г.	11	1
Википедия	1983 г.	3	2
Википедия	1984	48	3
Википедия	1985 г.	37	3
Википедия	1986 г.	6	4
Википедия	1987 г.	13	2
Википедия	1988 г.	14	3
Википедия	1990 г.	12	2
Википедия	1991 г.	8	5
Википедия	1992 г.	1	1
Википедия	1993 г.	1	1
Википедия	1994 г.	23	3
Википедия	1995 г.	4	1
Википедия	1996 г.	23	3
Википедия	1997 г.	6	1
Википедия	1998 г.	32	10
Википедия	1999 г.	39	11
Википедия	2000 г.	43 год	12
Википедия	2001 г.	59	14
Википедия	2002 г.	105	19
Википедия	2003 г.	149	53
Википедия	2004 г.	803	285
Википедия	2005 г.	2964	911
Википедия	2006 г.	9818	2655
Википедия	2007 г.	20017	5400
Википедия	2008 г.	33722	6825

График, построенный программой просмотра Google Ngram Viewer с использованием приведенных выше данных, находится здесь: ^[15]

Критика [ править ]

Набор данных подвергался критике за то, что он полагался на неточное распознавание текста , переизбыток научной литературы и за включение большого количества неправильно датированных и категоризированных текстов. ^[16]^[17] Из-за этих ошибок, а также из-за неконтролируемой предвзятости ^[18] (например, растущее количество научной литературы, которое вызывает снижение популярности других терминов), использовать этот корпус рискованно. изучать язык или проверять теории. ^[19] Поскольку набор данных не включает метаданные , он может не отражать общие языковые или культурные изменения ^[20] и может только намекать на такой эффект.

Были предложены рекомендации по проведению исследований с данными из Google Ngram, которые решают многие из проблем, рассмотренных выше. ^[21]

Проблемы с распознаванием текста [ править ]

Оптическое распознавание символов или OCR не всегда надежно, и некоторые символы могут быть неправильно отсканированы. В частности, системные ошибки, такие как путаница «s» и «f» в текстах до XIX века (из-за использования длинного s, которое по внешнему виду было похоже на «f»), могут вызвать системную предвзятость. Хотя Google Ngram Viewer утверждает, что результаты являются надежными с 1800 года и позже, плохое распознавание текста и недостаточные данные означают, что частоты, указанные для таких языков, как китайский, могут быть точными только с 1970 года, при этом более ранние части корпуса не показывают результатов для общих терминов. , и данные за несколько лет, содержащие более 50% шума. ^[22]^[23]

См. Также [ править ]

Культуромика
Google Trends
Лексический анализ

Ссылки [ править ]

^ «Количественный анализ культуры с использованием миллионов оцифрованных книг» JB Michel et al, Science 2011, DOI: 10.1126 / science.1199644 [1]
^ a b c «База данных Google Ngram отслеживает популярность 500 миллиардов слов» Huffington Post , 17 декабря 2010 г., веб-страница: HP8150 .
^ a b «Google's Ngram Viewer: машина времени для игры слов», Cnet.com, 17 декабря 2010 г., веб-страница: CN93 .
^ «Картинка стоит 500 миллиардов слов - Расти С. Томпсон», HarrisburgMagazine.com, 20 сентября 2011 г., веб-страница: HBMag20 ^{[ постоянная мертвая ссылка ]} .
^ Google SearchLiaison. «Программа просмотра Google Книг Ngram теперь обновлена свежими данными за 2019 год» . Twitter . Проверено 11 августа 2020 .
^ a b «Программа просмотра Ngram Google Книг - Библиотеки Университета Буффало», Lib.Buffalo.edu, 22 августа 2011 г., веб-страница: Buf497. Архивировано 2 июля 2013 г. на Wayback Machine .
^ a b Информационная страница средства просмотра Ngram в Google Книгах: https://books.google.com/ngrams/info
^ "Google Ngram Viewer - Google Книги", Books.Google.com, май 2012 г., веб-страница: G-Ngrams .
^ a b c d e f "Google Ngram Viewer - Google Книги" (информация), Books.Google.com, 16 декабря 2010 г., веб-страница: G-Ngrams-info : отмечает биграммы и использование кавычек для слов с апострофами.
Перейти ↑ Greenfield PM (2013). Изменяющаяся психология культуры с 1800 по 2000 год. Психологическая наука, 24 (9), 1722–1731. https://doi.org/10.1177/0956797613479387
^ Юнес, Н., & Reips, U.-D. (2018). Изменяющаяся психология культуры в Германии: исследование Google Ngram. Международный журнал психологии, 53 (S1), 53-62. https://doi.org/10.1002/ijop.12428
↑ RSA (4 февраля 2010 г.). «Стивен Пинкер - Материал мысли: язык как окно в человеческую природу» - через YouTube.
^ "Программа просмотра Google Книг Ngram" .
^ googlebooks-eng-all-1gram-20120701-w.gz по адресу http://storage.googleapis.com/books/ngrams/books/datasetsv2.html.
^ https://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0
^ Google Ngrams: OCR и метаданные, заархивированные 27 апреля 2016 г. на Wayback Machine . ResourceShelf, 19 декабря 2010 г.
^ Нанберг, Geoff (16 декабря 2010). «Гуманитарные исследования в корпусе Google Книг» . Архивировано из оригинального 10 -го марта 2016 года.
^ Печеник, Эйтан Адам; Данфорт, Кристофер М .; Доддс, Питер Шеридан; Баррат, Ален (7 октября 2015 г.). «Характеристика корпуса Google Книги: строгие ограничения для выводов о социокультурной и лингвистической эволюции» . PLOS ONE . 10 (10): e0137041. arXiv : 1501.00960 . Bibcode : 2015PLoSO..1037041P . DOI : 10.1371 / journal.pone.0137041 . PMC 4596490 . PMID 26445406 .
^ Чжан, Сара. «Ловушки использования Google Ngram для изучения языка» . ПРОВОДНОЙ . Проверено 24 мая 2017 .
^ Коплениг Александр (2015-09-02). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram - реконструкция состава немецкого корпуса во времена Второй мировой войны» . Цифровая стипендия по гуманитарным наукам (опубликовано 01.04.2017). 32 (1): 169–188. DOI : 10,1093 / ооо / fqv037 . ISSN 2055-7671 .
^ Юнес, Н., & Reips, U.-D. (2019). Рекомендации по повышению надежности исследований Google Ngram: свидетельства с религиозной точки зрения. PLoS One, 14 (3): e0213554. https://doi.org/10.1371/journal.pone.0213554
^ Google n-граммы и до-современный китайский язык . digitalsinology.org.
^ Когда n-граммы портятся . digitalsinology.org.

Библиография [ править ]

Лин, Юрий; и другие. (Июль 2012 г.). «Синтаксические аннотации для корпуса Ngram Google Книг» (PDF) . Труды 50-го ежегодного собрания . Демо-материалы. Чеджу, Республика Корея: Ассоциация компьютерной лингвистики. 2 : 169–174. 2390499. Whitepaper представления в 2012 году издание Google Книги Ngram корпус

Внешние ссылки [ править ]

Официальный веб-сайт

[Culturomics-1] «Количественный анализ культуры с использованием миллионов оцифрованных книг» JB Michel et al, Science 2011, DOI: 10.1126 / science.1199644 [1]

[Huf-2] «База данных Google Ngram отслеживает популярность 500 миллиардов слов» Huffington Post , 17 декабря 2010 г., веб-страница: HP8150 .

[Cnet-3] «Google's Ngram Viewer: машина времени для игры слов», Cnet.com, 17 декабря 2010 г., веб-страница: CN93 .

[SThom-4] «Картинка стоит 500 миллиардов слов - Расти С. Томпсон», HarrisburgMagazine.com, 20 сентября 2011 г., веб-страница: HBMag20 ^{[ постоянная мертвая ссылка ]} .

[5] Google SearchLiaison. «Программа просмотра Google Книг Ngram теперь обновлена свежими данными за 2019 год» . Twitter . Проверено 11 августа 2020 .

[BufLib-6] «Программа просмотра Ngram Google Книг - Библиотеки Университета Буффало», Lib.Buffalo.edu, 22 августа 2011 г., веб-страница: Buf497. Архивировано 2 июля 2013 г. на Wayback Machine .

[Google_Books_Ngram_Viewer-7] Информационная страница средства просмотра Ngram в Google Книгах: https://books.google.com/ngrams/info

[Goog-8] "Google Ngram Viewer - Google Книги", Books.Google.com, май 2012 г., веб-страница: G-Ngrams .

[GInf-9] "Google Ngram Viewer - Google Книги" (информация), Books.Google.com, 16 декабря 2010 г., веб-страница: G-Ngrams-info : отмечает биграммы и использование кавычек для слов с апострофами.

[10] Перейти ↑ Greenfield PM (2013). Изменяющаяся психология культуры с 1800 по 2000 год. Психологическая наука, 24 (9), 1722–1731. https://doi.org/10.1177/0956797613479387

[11] Юнес, Н., & Reips, U.-D. (2018). Изменяющаяся психология культуры в Германии: исследование Google Ngram. Международный журнал психологии, 53 (S1), 53-62. https://doi.org/10.1002/ijop.12428

[12] RSA (4 февраля 2010 г.). «Стивен Пинкер - Материал мысли: язык как окно в человеческую природу» - через YouTube.

[13] "Программа просмотра Google Книг Ngram" .

[14] s-eng-all-1gram-20120701-w.gz по адресу http://storage.googleapis.com/books/ngrams/books/datasetsv2.html.

[15] ttps://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0

[16] Google Ngrams: OCR и метаданные, заархивированные 27 апреля 2016 г. на Wayback Machine . ResourceShelf, 19 декабря 2010 г.

[17] Нанберг, Geoff (16 декабря 2010). «Гуманитарные исследования в корпусе Google Книг» . Архивировано из оригинального 10 -го марта 2016 года.

[:0-18] Печеник, Эйтан Адам; Данфорт, Кристофер М .; Доддс, Питер Шеридан; Баррат, Ален (7 октября 2015 г.). «Характеристика корпуса Google Книги: строгие ограничения для выводов о социокультурной и лингвистической эволюции» . PLOS ONE . 10 (10): e0137041. arXiv : 1501.00960 . Bibcode : 2015PLoSO..1037041P . DOI : 10.1371 / journal.pone.0137041 . PMC 4596490 . PMID 26445406 .

[19] Чжан, Сара. «Ловушки использования Google Ngram для изучения языка» . ПРОВОДНОЙ . Проверено 24 мая 2017 .

[20] Коплениг Александр (2015-09-02). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram - реконструкция состава немецкого корпуса во времена Второй мировой войны» . Цифровая стипендия по гуманитарным наукам (опубликовано 01.04.2017). 32 (1): 169–188. DOI : 10,1093 / ооо / fqv037 . ISSN 2055-7671 .

[21] Юнес, Н., & Reips, U.-D. (2019). Рекомендации по повышению надежности исследований Google Ngram: свидетельства с религиозной точки зрения. PLoS One, 14 (3): e0213554. https://doi.org/10.1371/journal.pone.0213554

[22] Google n-граммы и до-современный китайский язык . digitalsinology.org.

[23] Когда n-граммы портятся . digitalsinology.org.

[1]