Список слов


Список слов (или лексикон ) — это список лексики языка (обычно отсортированный по частоте встречаемости либо по уровням, либо в виде ранжированного списка) в пределах некоторого заданного текстового корпуса , служащий цели приобретения словарного запаса . Лексикон, отсортированный по частоте, «обеспечивает рациональную основу для того, чтобы учащиеся получали максимальную отдачу от своих усилий по изучению словарного запаса» ( Nation 1997 ), но в основном предназначен для авторов курсов, а не непосредственно для учащихся. Частотные списки также составляются для лексикографических целей, служащих своего рода контрольным списком , чтобы гарантировать, что общеупотребительные слова не будут упущены. Некоторые основные ловушки связаны с содержанием корпуса, реестром корпуса., и определение слова " слово ". В то время как подсчету слов уже тысяча лет, а в середине 20-го века все еще проводился гигантский анализ вручную, электронная обработка естественного языка больших корпусов, таких как субтитры фильмов (мегаисследование SUBTLEX), ускорила область исследований.

В компьютерной лингвистике частотный список — это отсортированный список слов (типов слов) вместе с их частотой , где частота здесь обычно означает количество вхождений в данном корпусе , из которого можно вывести ранг как позицию в списке.

Нейшн ( Nation, 1997 ) отметил невероятную помощь вычислительных возможностей, значительно упрощающую анализ корпуса. Он назвал несколько ключевых моментов, влияющих на составление списков частот:

Большинство доступных в настоящее время исследований основаны на корпусе письменных текстов , более доступных и простых в обработке.

Однако Нью и соавт. 2007 предложил использовать большое количество субтитров, доступных в Интернете, для анализа большого количества речей. Brysbaert & New 2009 провела длительную критическую оценку этого традиционного подхода к текстовому анализу и поддержала переход к анализу речи и анализу субтитров к фильмам, доступным в Интернете. За этим недавно последовало несколько дополнительных исследований, [1] обеспечивающих ценный анализ подсчета частоты для различных языков. Действительно, за пять лет движение SUBTLEX завершило полные исследования французского ( New et al. 2007 ), американского английского ( Brysbaert & New 2009 ; Brysbaert, New & Keuleers 2012 ), голландского ( Keuleers & New 2010 ).), китайском ( Cai & Brysbaert 2010 ), испанском ( Cuetos et al. 2011 ), греческом ( Dimitropoulou et al. 2010 ), вьетнамском ( Pham, Bolger & Baayen 2011 ), бразильском португальском ( Tang 2012 ) и португальском португальском ( Soares et al . и др., 2015 г.), албанском ( Авдыли и Куэтос, 2013 г. ) и польском ( Мандера и др., 2014 г. ). SUBTLEX-IT (2015) предоставляет только необработанные данные. [1]

В любом случае необходимо определить базовую единицу слова. Для латиницы слова обычно состоят из одного или нескольких символов, разделенных пробелами или знаками препинания. Но могут возникнуть исключения, такие как английское «не могу», французское «aujourd'hui» или идиомы. Также может быть предпочтительнее сгруппировать слова семейства слов по представлению его основного слова . Таким образом, возможно, невозможно, возможность — это слова одного и того же словарного семейства, представленные базовым словом *possib*.. В статистических целях все эти слова суммируются в базовой словесной форме *possib*, что позволяет ранжировать встречаемость концепта и формы. Кроме того, другие языки могут представлять определенные трудности. Так обстоит дело с китайским языком, в котором не используются пробелы между словами, и где указанная цепочка из нескольких символов может быть интерпретирована либо как фраза из слов с уникальными символами, либо как многосимвольное слово.