Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Сфера языковой документации в современном контексте включает в себя сложный и постоянно развивающийся набор инструментов и методов, и изучение и развитие их использования - и, особенно, выявление и продвижение передовых практик - можно рассматривать как подобласть языковая документация собственноручно. [1] Среди них этические принципы и принципы регистрации, рабочие процессы и методы, аппаратные средства и программные средства. [2]

Принципы и рабочие процессы [ править ]

Исследователи языковой документации часто проводят лингвистические полевые исследования для сбора данных, на которых основана их работа, записывая аудиовизуальные файлы, которые документируют использование языка в традиционном контексте. Поскольку условия, в которых часто проводятся полевые лингвистические исследования, могут быть сложными с точки зрения логистики, не все типы записывающих устройств необходимы или идеальны, и часто приходится искать компромиссы между качеством, стоимостью и удобством использования. Также важно представить себе полный рабочий процесс и предполагаемые результаты; например, если созданы видеофайлы, может потребоваться некоторая обработка, чтобы подвергнуть аудиокомпонент обработке различными способами с помощью разных пакетов программного обеспечения.

Этика [ править ]

Этические практики в языковой документации были в центре многих недавних дискуссий и дебатов. [3] Лингвистическое общество Америки подготовило заявление по вопросам этики , и поддерживает блог Этики обсуждения , которая в основном сосредоточена на этике в контексте языковой документации. Джордж ван Дрим поставил под сомнение мораль этических протоколов . [4]Большинство программ последипломного образования, которые включают какую-либо форму документации и описания на языке, требуют, чтобы исследователи представили свои предлагаемые протоколы внутреннему наблюдательному совету учреждения, который обеспечивает соблюдение этических норм при проведении исследований. Как минимум, участники должны быть проинформированы о процессе и предполагаемом использовании записей, а также дать записанное звуковое или письменное разрешение на использование аудиовизуальных материалов для лингвистического исследования исследователем (ами). Многие участники захотят, чтобы их называли консультантами, но другие не захотят - это определит, нужно ли анонимизировать данные или ограничить общий доступ к ним.

Форматы данных [ править ]

Соблюдение стандартов форматов имеет решающее значение для взаимодействия между программными инструментами. Многие индивидуальные архивы или репозитории данных имеют свои собственные стандарты и требования к данным, размещаемым на их серверах - знание этих требований должно определять стратегию сбора данных и используемые инструменты, а также должно быть частью плана управления данными, разработанного до начала исследования. Ниже приведены некоторые примеры руководств из широко используемых репозиториев:

Большинство современных стандартов архивирования видео используют MPEG-4 (H264) в качестве формата кодирования или хранения, который включает аудиопоток AAC (обычно до 320 кбит / с). Аудио архив качество по крайней мере WAV 44,1 кГц, 16-бит.

Принципы записи [ править ]

Поскольку документирование языков часто затруднено, а многие языки, с которыми работают лингвисты, находятся под угрозой исчезновения (в ближайшем будущем на них могут не разговаривать), рекомендуется записывать с максимально возможным качеством, учитывая ограничения записывающего устройства. Для видео это означает запись с разрешением HD (1080p или 720p) или выше, когда это возможно, в то время как для аудио это означает минимальную запись в несжатом PCM 44100 выборок в секунду, 16-битное разрешение. Возможно, однако, что хорошие методы записи (изоляция, выбор и использование микрофона, использование штатива для минимизации размытости) важнее разрешения. Микрофон, который дает четкую запись говорящего сказку (высокое соотношение сигнал / шум) в формате MP3 (возможно, через телефон), лучше, чем чрезвычайно шумная запись в формате WAV, когда все, что можно услышать, - это проезжающие машины.Чтобы гарантировать получение хороших записей, лингвисты должны как можно больше практиковаться со своими записывающими устройствами и сравнивать результаты, чтобы определить, какие методы дают наилучшие результаты.[5] [2] [6] [7] [8]

Рабочие процессы [ править ]

Для многих лингвистов конечным результатом записи является анализ языка, часто исследование фонологических или синтаксических свойств языка с помощью различных программных инструментов. Это требует транскрипции аудио, как правило, в сотрудничестве с носителями языка, о котором идет речь. Для общей транскрипции медиафайлы можно воспроизводить на компьютере (или другом устройстве, поддерживающем воспроизведение) и приостанавливать транскрипцию в текстовом редакторе. Другие (кроссплатформенные) инструменты, помогающие в этом процессе, включают Audacity и Transcriber , а такая программа, как ELAN (описанная ниже), также может выполнять эту функцию.

Такие программы, как Toolbox или FLEx , часто отдают предпочтение лингвистам, которые хотят иметь возможность подстрочить свои тексты, поскольку эти программы создают словарь форм и правил синтаксического анализа для ускорения анализа. К сожалению, эти программы обычно не связывают медиафайлы (в отличие от ELAN, в которой предпочтительны связанные файлы), что затрудняет просмотр или прослушивание записей для проверки транскрипции. В настоящее время существует обходной путь для Toolbox, который позволяет временным кодам ссылаться на аудиофайл и разрешать воспроизведение (полного текста или указанного предложения) из Toolbox - в этом рабочем процессе выравнивание текста по времени выполняется в Transcriber, а затем соответствующие временные коды и текст преобразуются в формат, понятный Toolbox.

Оборудование [ править ]

Видео + аудио рекордеры [ править ]

Рекордеры, которые записывают видео, обычно также записывают и звук. Однако звук не всегда соответствует критериям минимальных потребностей и рекомендуемым передовым практикам для языковой документации (несжатый формат WAV, 44,1 кГц, 16 бит) и часто бесполезен для лингвистических целей, таких как фонетический анализ. Многие видеоустройства вместо этого записывают в сжатый аудиоформат, такой как AAC или MP3, который объединяется с видеопотоком в различных оболочках . Исключениями из этого общего правила являются следующие устройства записи видео и звука:

Серия Zoom , особенно Q8 , Q4n и Q2n , которые записывают в несколько видео и аудио разрешений / форматов, в первую очередь WAV (44,1 / 48/96 кГц, 16/24-бит).

При использовании видеомагнитофона, который не записывает звук в формате WAV (например, большинства цифровых зеркальных фотоаппаратов), рекомендуется записывать звук отдельно на другое записывающее устройство, следуя некоторым из приведенных ниже рекомендаций. Как и в случае с аудиорекордерами, описанными ниже, многие видеомагнитофоны также принимают микрофонный вход различных типов (обычно через 1/8 дюйма или разъем TRS) - это может обеспечить высококачественную резервную аудиозапись, синхронизированную с записанным видео. , что может быть полезно в некоторых случаях (например, для транскрипции).

Магнитофоны и микрофоны [ править ]

Регистраторы только для звука могут использоваться в сценариях, где видео нецелесообразно или по иным причинам нежелательно. В большинстве случаев выгодно комбинировать использование записывающего устройства только для звука с одним или несколькими внешними микрофонами, однако многие современные аудиорекордеры включают встроенные микрофоны, которые можно использовать, если важны стоимость или скорость установки. Цифровые (твердотельные) записывающие устройства предпочтительны для большинства сценариев языковой документации. Современные цифровые рекордеры достигают очень высокого уровня качества при относительно невысокой цене. Некоторые из самых популярных полевых регистраторов входят в линейку Zoom , включая H1 , H2 , H4 , H5 и H6 . H1особенно подходит для ситуаций, в которых стоимость и удобство использования являются главными требованиями. Другими популярными рекордерами для ситуаций, когда размер является фактором, являются серия Olympus LS и цифровые диктофоны Sony (хотя в последнем случае убедитесь, что устройство может записывать в формате WAV / Linear PCM).

В сценариях языковой документации можно эффективно использовать несколько типов микрофонов , в зависимости от ситуации (особенно, включая такие факторы, как количество, положение и мобильность говорящих) и от бюджета. Как правило, следует выбирать конденсаторные микрофоны , а не динамические . Если конденсаторный микрофон имеет автономное питание (от батареи), это является преимуществом в большинстве случаев работы в полевых условиях; однако, когда питание не является основным фактором, можно также использовать модели с фантомным питанием. Установка стереомикрофона необходима, когда в записи задействовано более одного динамика; это может быть достигнуто с помощью группы из двух монофонических микрофонов или с помощью специального стереомикрофона.

В большинстве случаев следует использовать направленные микрофоны, чтобы изолировать голос говорящего от других потенциальных источников шума. Однако всенаправленные микрофоны могут быть предпочтительнее в ситуациях, когда большое количество громкоговорителей размещено в относительно большом пространстве. Среди направленных микрофонов кардиоидные микрофоны подходят для большинства приложений, однако в некоторых случаях может быть предпочтительнее гиперкардиоидный («дробовик») микрофон.

Микрофоны для гарнитуры хорошего качества сравнительно дороги, но в контролируемых ситуациях могут производить записи исключительно высокого качества. [9] Петлицы или петличные микрофоны могут использоваться в некоторых ситуациях, однако, в зависимости от микрофона, они могут производить записи, которые уступают микрофону гарнитуры для фонетического анализа и вызывают те же проблемы, что и микрофоны гарнитуры. с точки зрения ограничения записи одним выступающим - в то время как другие выступающие могут быть слышны на записи, они будут заземлены по отношению к говорящему с петличным микрофоном. [10]

Некоторые микрофоны качества хорошо используются для съемочных и интервью включают дробовик Rode VideoMic и серии ПЕТЛИЧНЫЕ Роде , Shure Головные микрофоны и Shure lavaliers . В зависимости от записывающего устройства и микрофона потребуются дополнительные кабели (XLR, стерео / моно преобразователь или переходник с TRRS на TRS ).

Другие инструменты записи [ править ]

Производство, хранение и управление электрической энергией [ править ]

Компьютерные системы [ править ]

Аксессуары [ править ]

Программное обеспечение [ править ]

Пока еще не существует единого программного пакета, который был бы разработан или способен обрабатывать все аспекты типичного рабочего процесса документации на языке. Вместо этого существует большое и постоянно увеличивающееся количество пакетов, предназначенных для обработки различных аспектов рабочего процесса, многие из которых значительно перекрываются. Некоторые из этих пакетов используют стандартные форматы и совместимы, тогда как другие гораздо менее совместимы.

SayMore [ править ]

SayMore - это пакет языковой документации, разработанный SIL International в Далласе, который в первую очередь ориентирован на начальные этапы языковой документации и нацелен на относительно несложный пользовательский интерфейс.

Основными функциями SayMore являются: (a) аудиозапись (b) импорт файлов с записывающего устройства (видео и / или аудио) (c) организация файлов (d) ввод метаданных на уровне сеанса и файла (e) ассоциация AV-файлов с доказательства информированного согласия и другие дополнительные объекты (например, фотографии) (f) сегментация AV-файла (g) транскрипция / перевод (h) Жирным шрифтом - аннотация «Осторожная речь» и устный перевод.

Файлы SayMore можно в дальнейшем экспортировать для аннотации в FLEx , а метаданные можно экспортировать в форматы .csv и IMDI для архивирования.

ЭЛАН [ править ]

ELAN разработан Языковой Архиве в Институте Макса Планка психолингвистики в Неймеген . ELAN - это полнофункциональный инструмент для транскрипции, особенно полезный для исследователей со сложными задачами / потребностями в аннотации.

FLEx [ править ]

FieldWorks Language Explorer, FLEx разработан SIL International, ранее называвшимся Летним институтом лингвистики, Inc. в SIL International в Далласе . FLEx позволяет пользователю создавать «словарный запас» языка, то есть список слов с определениями и грамматической информацией, а также сохранять тексты с языка. В текстах каждое слово или часть слова (то есть «морфема») связаны с записью в лексиконе. Для новых проектов и для студентов, которые учатся впервые, FLEx теперь является лучшим инструментом для подстрочного перевода и составления словарей.

Панель инструментов [ править ]

Toolbox полевого лингвиста (обычно называемый Toolbox) является предшественником FLEx и уже несколько десятилетий является одним из наиболее широко используемых пакетов языковой документации. Ранее известная как Shoebox , основными функциями Toolbox являются построение лексической базы данных и подстилка текстов через взаимодействие с лексической базой данных. Как лексическую базу данных, так и тексты можно экспортировать в среду обработки текста, в случае с лексической базой данных с помощью инструмента преобразования Multi-Dictionary Formatter ( MDF ). Также можно использовать Toolbox в качестве среды транскрипции. [11]По сравнению с ELAN и FLEx, Toolbox имеет относительно ограниченную функциональность, и некоторые считают, что она имеет неинтуитивный дизайн и интерфейс. Тем не менее, большое количество проектов было выполнено в среде Shoebox / Toolbox за время ее существования, и его пользовательская база продолжает пользоваться такими преимуществами, как знакомство, скорость и поддержка сообщества. Toolbox также имеет преимущество работы непосредственно с удобочитаемыми текстовыми файлами, которые можно открывать в любом текстовом редакторе, легко манипулировать и архивировать. Файлы Toolbox также можно легко преобразовать для хранения в XML (рекомендуется для архивов), например, с помощью библиотек Python с открытым исходным кодом, таких как Xigt, предназначенных для вычислительного использования данных IGT.

Инструменты для автоматизации компонентов рабочего процесса [ править ]

Документация по языку может быть частично автоматизирована с помощью ряда программных инструментов, в том числе:

  • eSpeak
  • HTK
  • Lingua Libre , НЬга онлайн инструмент , позволяющий записывать большое количество слов и фраз , в короткий период (до 1 000 слов / часа с чистым списком слов и опытным пользователем). Он автоматизирует классическую процедуру записи аудио- и видеофайлов произношения (для устных и жестовых языков). После завершения записи платформа автоматически загружает чистые, хорошо вырезанные, хорошо названные и удобные для приложений файлы непосредственно на Wikimedia Commons (можно загружать наборы данных для определенного языка).
  • Maus
  • Просодилаб Элайнер
  • Sox

Литература [ править ]

Рецензируемый журнал Language Documentation and Conservation опубликовал большое количество статей, посвященных инструментам и методам языковой документации.

См. Также [ править ]

LRE Map Карта языковых ресурсов Доступен для поиска по типу ресурса, языку (языкам), типу языка, модальности, использованию ресурсов, доступности, состоянию производства, конференциям, названию ресурса

Каталог Ричарда Литтауэра на GitHub Каталог «открытого кода, который может быть полезен для документирования, сохранения, разработки, сохранения или работы с исчезающими языками».

Страница программного обеспечения RNLD Страница Research Network for Linguistic Diversity, посвященная лингвистическому программному обеспечению.

Ссылки [ править ]

  1. ^ "Саммит LD Tools" . sites.google.com . Проверено 2 июня 2016 .
  2. ^ a b Бауэрн, Клэр (2008). Лингвистическая полевая работа - Springer . DOI : 10.1057 / 9780230590168 . ISBN 978-0-230-54538-0.
  3. ^ Остин, Питер К. 2010. «Сообщества, этика и права в языковой документации». В издании Питера К. Остина, « Документация по языку и описание», том 7 . Лондон, SOAS: 34-54.
  4. ^ ван Дрим, Джордж (2016). «Исчезновение языков и моральная порочность этических протоколов». Документация на языке и сохранение 10: 243-252 . ЛВП : 10125/24693 .
  5. ^ Ladefoged, Питер (2003). Фонетический анализ данных: введение в полевые и инструментальные методы . Молден, Массачусетс: Blackwell Pub. ISBN 978-0631232698. OCLC  51818554 .
  6. ^ Chelliah, Shobhana L .; де Реус, Виллем Дж. (2011). Справочник по описательной лингвистической полевой работе . DOI : 10.1007 / 978-90-481-9026-3 . ISBN 978-90-481-9025-6.
  7. ^ Микинс, Фелисити; Грин, Дженнифер; Терпин, Myfany (2018). Понимание лингвистической полевой работы . Лондон. ISBN 9781351330114. OCLC  1029352513 .
  8. ^ Тибергер, Николас, изд. (2011-11-24). Оксфордский справочник полевых лингвистических исследований . Издательство Оксфордского университета. DOI : 10.1093 / oxfordhb / 9780199571888.001.0001 . ISBN 9780191744112.
  9. ^ Švec, Jan G .; Гранквист, Сванте (01.11.2010). «Рекомендации по выбору микрофонов для исследования воспроизведения человеческого голоса» . Американский журнал патологии речи и языка . 19 (4): 356–368. DOI : 10,1044 / 1058-0360 (2010 / 09-0091) . ISSN 1058-0360 . PMID 20601621 .  
  10. ^ Бриксен, Эдди (1996-05-01). «Спектральная деградация речи, записанной миниатюрными микрофонами, установленными на голове и груди людей» . Конвенция Общества звукорежиссеров 100 .
  11. ^ Маргетс, Эндрю (2009). «Использование Toolbox с медиафайлами». Языковая документация и сохранение . 3 (1): 51–86. hdl : 10125/4426 .