Список слов


Из Википедии, свободной энциклопедии
  (Перенаправлено из списка частот )
Перейти к навигации Перейти к поиску

Список слов (или лексика ) - это список лексики языка (обычно отсортированный по частоте встречаемости либо по уровням, либо в виде ранжированного списка) в некотором заданном корпусе текста , служащий цели приобретения словарного запаса . Лексика, отсортированная по частоте, «обеспечивает рациональную основу для обеспечения максимальной отдачи учащихся от своих усилий по изучению словарного запаса» ( Nation 1997 ), но в основном предназначена для составителей курсов, а не непосредственно для учащихся. Списки частот также составлены для лексикографических целей и служат своего рода контрольным списком, чтобы гарантировать, что общеупотребительные слова не пропущены. Некоторые основные подводные камни - это содержание корпуса, регистр корпуса., и определение слова . Хотя подсчету слов уже тысяча лет, и в середине 20-го века все еще проводился гигантский анализ вручную, электронная обработка естественного языка больших корпусов, таких как субтитры к фильмам (SUBTLEX megastudy), ускорила поле исследований.

В компьютерной лингвистике , список частот является отсортированный список слов (типов слов) вместе с их частотой , где частота здесь обычно означает число вхождений в данном корпусе , из которого ранг может быть получен в качестве позиции в списке.

Методология

Факторы

Nation ( Nation 1997 ) отметил невероятную помощь, которую предоставляют вычислительные возможности, значительно упрощающие анализ корпуса. Он назвал несколько ключевых моментов, которые влияют на составление списков частот:

  • представительность корпуса
  • частота и диапазон слов
  • обработка семейств слов
  • обработка идиом и фиксированных выражений
  • диапазон информации
  • различные другие критерии

Корпорация

Традиционный письменный корпус

Большинство доступных в настоящее время исследований основано на корпусе письменных текстов , более доступных и простых для обработки.

SUBTLEX движение

Однако New et al. В 2007 году было предложено использовать большое количество субтитров, доступных в Интернете, для анализа большого количества выступлений. Brysbaert & New 2009 сделали длинную критическую оценку этого традиционного подхода к анализу текста и поддержали переход к анализу речи и анализу субтитров фильмов, доступных в Интернете. За этим недавно последовало несколько последующих исследований [1], которые предоставили ценный анализ частотности для различных языков. Действительно, движение SUBTLEX завершило за пять лет полные исследования французского ( New et al. 2007 ), американского английского ( Brysbaert & New 2009 ; Brysbaert, New & Keuleers 2012 ), голландского ( Keuleers & New 2010).), Китайский ( Cai & Brysbaert 2010 ), испанский ( Cuetos et al. 2011 ), греческий ( Dimitropoulou et al. 2010 ), вьетнамский ( Pham, Bolger & Baayen 2011 ), бразильский португальский ( Tang 2012 ) и португальский ( Soares et al. и др. 2015 ), албанский ( Avdyli & Cuetos 2013 ) и Польский ( Mandera и др. 2014 ). SUBTLEX-IT (2015) предоставляет только сырые данные. [1]

Лексическая единица

В любом случае следует определить базовую «словесную» единицу. Для латинских шрифтов слова обычно состоят из одного или нескольких символов, разделенных пробелами или знаками препинания. Но могут возникать исключения, такие как английское «не могу», французское «aujourd'hui» или идиомы. Также может быть предпочтительнее сгруппировать слова семейства слов по представлению его основного слова . Таким образом, возможный, невозможный, возможный - это слова из одного семейства слов, представленные базовым словом * возможно *.. Для статистических целей все эти слова объединены в базовую словоформу * возможно *, что позволяет ранжировать возникновение понятия и формы. Более того, другие языки могут представлять определенные трудности. Так обстоит дело с китайским языком, в котором не используются пробелы между словами и где указанная цепочка из нескольких символов может интерпретироваться либо как фраза из слов с уникальным символом, либо как слово из нескольких символов.

Статистика

Похоже, что закон Ципфа справедлив для списков частот, взятых из более длинных текстов на любом естественном языке. Списки частот - полезный инструмент при создании электронного словаря, который является необходимым условием для широкого спектра приложений в компьютерной лингвистике .

Немецкие лингвисты определяют Häufigkeitsklasse (частотный класс) элемента в списке, используя логарифм по основанию 2 отношения между его частотой и частотой наиболее часто встречающегося элемента. Самый распространенный элемент относится к классу частоты 0 (ноль), а любой элемент, который примерно вдвое реже, относится к классу 1. В приведенном выше списке примеров слово с ошибкой outragious имеет соотношение 76/3789654 и принадлежит к классу 16.

где - функция пола .

Списки частот вместе с семантическими сетями используются для определения наименее распространенных специализированных терминов, которые должны быть заменены их гиперонимами в процессе семантического сжатия .

Педагогика

Эти списки не предназначены для непосредственного предоставления студентам, а скорее служат руководством для учителей и авторов учебников ( Nation 1997 ). Краткое изложение современного языка Пола Нейшна призывает сначала «перейти от высокочастотной лексики и специальной [тематической] лексики к низкочастотной лексике, а затем научить учащихся стратегиям поддержания автономного расширения словарного запаса» ( Nation 2006 ).

Влияние частоты слов

Частота слов, как известно, имеет различные эффекты ( Brysbaert et al. 2011 ; Rudell 1993 ). На запоминание положительно влияет более высокая частота слов, вероятно, потому, что учащийся подвергается большему воздействию ( Laufer 1997 ). На лексический доступ положительно влияет высокая частота слов, явление, называемое эффектом частотности слов ( Segui et al. ). Влияние частоты употребления слов связано с эффектом возраста усвоения , возраста, в котором слово было изучено.

Языки

Ниже представлен обзор доступных ресурсов.

английский

Подсчет слов восходит к эллинистическим временам. Торндайк и Лорге с помощью своих коллег насчитали 18 миллионов бегущих слов, чтобы составить первый крупномасштабный список частот в 1944 году, прежде чем современные компьютеры значительно упростили такие проекты ( Nation 1997 ).

Традиционные списки

Все они страдают от возраста. В частности, слова, относящиеся к технологиям, такие как «блог», которые в 2014 г. занимали № 7665 по частоте [2] в Корпусе современного американского английского языка [3], впервые были засвидетельствованы в 1999 г. [4] [5 ] [6] и не фигурирует ни в одном из этих трех списков.

Книга слов для учителей, состоящая из 30 000 слов (Торндайк и Лорге, 1944 г.)

TWB содержит 30 000 лемм или ~ 13 000 семейств слов (Goulden, Nation and Read, 1990). Корпус из 18 миллионов написанных слов был проанализирован вручную. Размер его исходного корпуса увеличил его полезность, но его возраст и языковые изменения уменьшили его применимость ( Nation 1997 ).

Список общего обслуживания (Запад, 1953)

GSL содержит 2000 заглавных слов, разделенных на два набора по 1000 слов. В 1940-х годах был проанализирован корпус из 5 миллионов письменных слов. Приведена частота встречаемости (%) различных значений и частей речи заглавного слова. К корпусу тщательно применялись различные критерии, помимо частоты и диапазона. Таким образом, несмотря на свой возраст, некоторые ошибки и весь корпус, состоящий из полностью написанного текста, он по-прежнему является отличной базой данных по частоте слов, частоте значений и снижению шума ( Nation 1997 ). Этот список был обновлен в 2013 году доктором Чарльзом Брауном, доктором Брентом Каллиганом и Джозефом Филлипсом в качестве нового списка общего обслуживания .

Книга частотных данных "Американское наследие" (Кэрролл, Дэвис и Ричман, 1971 г.)

Корпус из 5 миллионов бегущих слов из письменных текстов, используемых в школах США (разные классы, разные предметные области). Его ценность заключается в том, что он ориентирован на школьные учебные материалы, а также в тегах слов по частоте употребления каждого слова в каждом классе школы и в каждой предметной области ( Nation 1997 ).

Большой бизнес Брауна (Фрэнсис и Кучера, 1982) и связанные с ним корпуса

Теперь они содержат 1 миллион слов из письменного корпуса, представляющего различные диалекты английского языка. Эти источники используются для составления списков частот ( Nation 1997 ).

французский язык

Традиционные наборы данных

Обзор был сделан New & Pallier . Попытка была предпринята в 1950–60-х годах с использованием фонда Français fondamental . Он включает список FF1 с 1500 высокочастотными словами, дополненный более поздним списком FF2 с 1700 среднечастотными словами и наиболее часто используемыми правилами синтаксиса. [7] Утверждается, что 70 грамматических слов составляют 50% коммуникативного предложения [8], в то время как 3680 слов составляют около 95-98% охвата. [9] Доступен список из 3000 часто используемых слов. [10]

Министерство образования Франции также предоставило ранжированный список из 1500 наиболее часто встречающихся семейств слов , составленный лексикологом Этьеном Брюне . [11] Жан Бодо провел исследование на модели американского исследования Брауна под названием «Fréquences d'utilisation des mots en français écrit contemporain». [12]

Совсем недавно проект Lexique3 предоставляет 142 000 французских слов, включая орфографию , фонетику , слоговую форму , часть речи , пол , количество вхождений в исходном корпусе, частотный ранг, связанные лексемы и т. Д., Доступные по открытой лицензии CC-by- sa-4.0 . [13]

Subtlex

Эта Lexique3 представляет собой непрерывное исследование, из которого берет начало упомянутое выше движение Subtlex . New et al. 2007 год произвел совершенно новый подсчет на основе субтитров онлайн-фильмов.

испанский язык

Было проведено несколько исследований частотности испанских слов ( Cuetos et al. 2011 ). [14]

китайский язык

Китайские корпуса уже давно изучаются с точки зрения частотных списков. Исторический способ изучения китайской лексики основан на частоте символов ( Allanic 2003 ). Американский китаевед Джон ДеФрэнсис упомянул его важность для китайского как изучения и преподавания иностранного языка в книге « Почему Джонни не умеет читать по-китайски» ( DeFrancis 1966 ). В качестве инструментария частотности Da ( Da, 1998 ) и Министерство образования Тайваня ( TME 1997 ) предоставили большие базы данных с частотными рангами для символов и слов. Список HSK из 8848 слов с высокой и средней частотой встречаемости в Китайской Народной Республике , а такжеТОП- список Китайской Республики (Тайвань) , состоящий из около 8600 общеупотребительных традиционных китайских слов, - это два других списка, в которых отображаются общеупотребительные китайские слова и иероглифы. Следуя за движением SUBTLEX, Cai & Brysbaert 2010 недавно провели обширное исследование частот китайских слов и символов.

Другой

Наиболее часто используемые слова на разных языках на основе Википедии или комбинированных корпусов. [15]

Смотрите также

  • Частота писем
  • Самые распространенные слова в английском языке
  • Длинный хвост
  • Google Ngram Viewer - показывает изменения частоты слов / фраз (и относительной частоты) с течением времени.

Примечания

  1. ^ a b «Crr» Частоты слов субтитров » .
  2. ^ «Слова и фразы: частота, жанры, словосочетания, соответствия, синонимы и WordNet» .
  3. ^ "Корпус современного американского английского (COCA)" .
  4. ^ "Это ссылки, тупица" . Экономист. 20 апреля 2006 . Проверено 5 июня 2008 .
  5. ^ Мерхольц, Питер (1999). "Peterme.com" . Интернет-архив . Архивировано из оригинала на 1999-10-13 . Проверено 5 июня 2008 .
  6. ^ Котка, Джейсон (26 августа 2003). "kottke.org" . Проверено 5 июня 2008 .
  7. ^ "Le français fondamental" . Архивировано из оригинала на 2010-07-04.
  8. ^ Ouzoulias, Андре (2004), Comprendre и др пособник Les Enfants ан difficulté Scolaire: Le Vocabulaire fondamental, 70 mõts essentiels (PDF) , Рец - Ссылаясь на VAC Henmon
  9. ^ «Общие положения» .
  10. ^ "PDF 3000 французских слов" .
  11. ^ "Maitrise de la langue à l'école: Vocabulaire" . Ministère de l'éducation nationale.
  12. ^ Бодо, J. (1992), ЧАСТОТЫ использование d'дез словечки ан français écrit Contemporain , Прессы де L'Université, ISBN 978-2-7606-1563-2
  13. ^ «Лексика» .
  14. ^ "Списки частот испанских слов" . Vocabularywiki.pbworks.com .
  15. ^ Наиболее часто используемые слова в разных языках , ezglot

использованная литература

Теоретические концепции

  • Нация, П. (1997), «Объем словарного запаса, охват текста и списки слов» , у Шмитта; Маккарти (ред.), Словарь: описание, приобретение и педагогика , Кембридж: Cambridge University Press, стр. 6–19, ISBN 978-0-521-58551-4
  • Лауфер, Б. (1997), «Что в слове делает его трудным или легким? Некоторые внутрилексовые факторы, влияющие на усвоение слов», Словарь: Описание, усвоение и педагогика , Кембридж: Cambridge University Press, стр. 140– 155, ISBN 9780521585514
  • Нация, P. (2006), "Язык Образование - Словарь", Энциклопедия языка и лингвистики , Оксфорд: 494-499, DOI : 10.1016 / B0-08-044854-2 / 00678-7 , ISBN 9780080448541.
  • Брайсберт, Марк; Бухмайер, Матиас; Конрад, Маркус; Джейкобс, Артур М .; Бёльте, Йенс; Бёль, Андреа (2011). «Эффект частоты слова: обзор последних событий и последствий для выбора оценок частоты в немецком языке» . Экспериментальная психология . 58 (5): 412–424. DOI : 10.1027 / 1618-3169 / a000123 . PMID  21768069 . база данных
  • Rudell, AP (1993), «Частота употребления слов и воспринимаемая сложность слов: оценка слов Кучера и Фрэнсиса», Most , 25 , стр. 455–463
  • Segui, J .; Мелер, Жак; Фрауэнфельдер, Ули; Мортон, Джон (1982), "Влияние частоты слова и лексический доступ" , Neuropsychologia , 20 (6): 615-627, DOI : 10,1016 / 0028-3932 (82) 90061-6 , PMID  7162585 , S2CID  39694258
  • Мейер, Гельмут (1967), Deutsche Sprachstatistik , Hildesheim: Olms (частотный список немецких слов)
  • ДеФрансис, Джон (1966), Почему Джонни не может читать по-китайски (PDF)
  • Алланик, Бернар (2003), Корпус персонажей и их педагогический аспект в древнем и современном Китае (фр .: Les corpus de caractères et leur dimension pédagogique dans la Chine ancienne et contemporaine) , Париж: INALCO

Базы данных на основе письменных текстов

  • Da, Jun (1998), Jun Da: Вычисление текста на китайском языке , получено 21 августа 2010 г..
  • Тайвань Министерство образования (1997),八十六年常用語詞調查報告書, извлекаться 2010-08-21.
  • Новый, Борис; Pallier, Christophe, Manuel de Lexique 3 (на французском языке) (3,01 изд.).
  • Гименес, Мануэль; Новый, Борис (2016), "Worldlex: Twitter и частоты блога слово для 66 языков", поведение Методы исследования , 48 (3): 963-972, DOI : 10,3758 / s13428-015-0621-0 , ISSN  1554-3528 , PMID  26170053.

SUBTLEX движение

  • Новый, Б .; Brysbaert, M .; Veronis, J .; Паллиер, К. (2007). «SUBTLEX-FR: Использование субтитров фильмов для оценки частотности слов» (PDF) . Прикладная психолингвистика . 28 (4): 661. DOI : 10,1017 / s014271640707035x . hdl : 1854 / LU-599589 . Архивировано из оригинального (PDF) 24.10.2016.
  • Брайсберт, Марк; Нью, Борис (2009), «Выход за рамки Кучера и Фрэнсиса: критическая оценка текущих норм частоты слов и введение новой и улучшенной меры частотности слов для американского английского» (PDF) , Behavior Research Methods , 41 (4): 977-990, DOI : 10,3758 / brm.41.4.977 , PMID  19897807 , S2CID  4792474
  • Keuleers, E, M, B .; Новый, B. (2010), "SUBTLEX - NL: Новая мера для голландской частоты слова на основе субтитров фильма" , поведение Методы исследования , 42 (3): 643-650, DOI : 10,3758 / brm.42.3.643 , PMID  20805586
  • Cai, Q .; Брайсберт, М. (2010), «SUBTLEX-CH: Китайские слова и частота символов на основе субтитров фильмов», PLOS ONE , 5 (6): 8, Bibcode : 2010PLoSO ... 510729C , doi : 10.1371 / journal.pone. 0010729 , PMC  2880003 , PMID  20532192
  • Cuetos, F .; Глез-ности, Мария; Барбон, Аналия; Brysbaert, Marc (2011), «SUBTLEX-ESP: частота испанских слов на основе субтитров фильмов» (PDF) , Psicológica , 32 : 133–143
  • Dimitropoulou, M .; Дуньябейтия, Джон Андони; Авилес, Альберто; Корраль, Хосе; Каррейрас, Мануэль (2010), «SUBTLEX-GR: частота слов на основе субтитров как лучшая оценка поведения при чтении: пример греческого языка», Frontiers in Psychology , 1 (декабрь): 12, doi : 10.3389 / fpsyg.2010.00218 , PMC  3153823 , PMID  21833273
  • Pham, H .; Bolger, P .; Баайен, Р.Х. (2011 г.), «СУБТЛЕКС-ВИ: мера для вьетнамских слов и частот символов в субтитрах фильмов», ACOL
  • Brysbaert, M .; Новый, Борис; Keuleers, E. (2012), «SUBTLEX-US: Добавление части речевой информации к частотам слов SUBTLEXus» (PDF) , Методы исследования поведения : 1–22( базы данных )
  • Mandera, P .; Keuleers, E .; Wodniecka, Z .; Брайсберт, М. (2014). «Subtlex-pl: оценка частоты слов на основе субтитров для польского языка» (PDF) . Методы Behav Res . 47 (2): 471–483. DOI : 10,3758 / s13428-014-0489-4 . PMID  24942246 . S2CID  2334688 .
  • Тан, К. (2012), «Корпус из 61 миллиона слов субтитров бразильских португальских фильмов как ресурс для лингвистических исследований», UCL Work Pap Linguist (24): 208–214
  • Авдыли, Ррезарта; Куетос, Фернандо (июнь 2013 г.), «СУБТЛЕКСЫ: частоты албанских слов на основе субтитров фильмов» , ILIRIA International Review , 3 (1): 285–292, doi : 10.21113 / iir.v3i1.112 , ISSN  2365-8592
  • Соарес, Ана Паула; Мачадо, Жоао; Коста, Ана; Ириарте, Альваро; Симоэнс, Альберто; де Алмейда, Жозе Жуан; Комесана, Монтсеррат; Perea, Мануэль (апрель 2015), «О преимуществах частоты слов и контекстных меры разнообразия , извлеченных из субтитров: Случай португальцев», Ежеквартальный журнал экспериментальной психологии , 68 (4): 680-696, DOI : 10,1080 / 17470218,2014 .964271 , PMID  25263599 , S2CID  5376519
Источник « https://en.wikipedia.org/w/index.php?title=Word_list&oldid=1028134614 »