Методы корпусной лингвистики

Методы корпусной лингвистики

Статья № 2 цикла продолжит рассказ о пользе корпусной лингвистики в контексте преподавания иностранного языка. Цикл статей составлен на основе материала из лекций курса «Введение в корпусную лингвистику», который читает Левинзон Анна Иосифовна, ст. преподаватель Школы лингвистики гуманитарного факультета НИУ ВШЭ. Этот курс каждый может пройти совершенно бесплатно онлайн на сайте "Открытое образование" 

 

 

Корпусная лингвистика часто решает не только теоретические задачи, но и задачи сугубо практические, связанные с бизнесом, например, или криминалистикой.

Пример практической задачи на немецком языке, которая была поставлена перед исследователем:

Компания, размещая наружную рекламу своего продукта,  хотела сделать рекламную бегущую строку, количество окошек для букв в которой зависит от количества букв в среднем немецком слове. Такую информацию можно получить достоверно только на основе корпусного запроса, а не на основе среднего арифметического. Самое длинное немецкое слово состояло из 32 букв, самое короткое – из одной. Согласно данным корпуса, среднее немецкое слово состоит из 5, 7 букв.

Многие исследования в корпусе требуют применения статистических методов, владение которыми становится для исследователя необходимым.  Помимо чисто практических задач, популярны исследования сравнительные на лексическом материале разных эпох и разных авторов текстов. Есть даже такой индекс лексического разнообразия автора, получить который можно только с помощью корпуса.

Нередко лингвистов интересует частотность ключевых слов определенных авторов или в определенных текстах и т.д. Популярным является такое направление корпусных исследований, как выявление неслучайных сочетаний слов – коллокаций. Во многом изучение коллокаций вызвано необходимостью преподавать язык. Уже в начале тридцатых годов ХХ века была признана важность включения коллокаций в учебники и тесты английского языка как иностранного. Тогда же появились частотные словари. Один из современных популярных частотных словарей – словарь издательства Macmillan состоит из коллокаций английского языка на современном этапе развития.

Девизом его является цитата «Вы узнаете слово по его компании» Дж.Фёрс.

Инструмент исследования на базе корпусов, который был создан в начале двухтысячных годов и основан на корпусах. Здесь имеются базы многих корпусов на многих языках.

Sketch Engine: sketchengine.co.uk

Sketch Engine for Language Learning: sketchengine.co.uk/skell

Инструмент применяется для составления конкорданса – сопоставительного материала по слову в его контекстах, когда слово графически удобно располагается посередине, а контексты слева и справа.

Ресурс дает возможность самому быстро составлять тезаурусы – отнесение слова к определенной категории в соответствии с его значением, например, синонимов.

С помощью этого инструмента можно исследовать свой собственный подкорпус языка, на основе которого можно составлять переводческие соответствия терминов.

И, наконец, функция, которая и дала название самого инструмента, с помощью которого исследователь может получить «Скетч слова». Скетч слова – это коротко изложенное на одной странице описание грамматических конструкций, в которых данное слово встречается, и лексических сочетаний, в которых появляется это слово. С помощью этого инструмента исследователь значительно экономит свое время и силы на просматривание многих страниц выдачи корпусных данных.

Примером получения такой быстрой информации могут служить скетчи слов intelligent и  clever. На одной странице такого скетча можно сразу увидеть, что слово intelligent употребляется для характеристики робота, а clever – человека, который придумал что-то хитрое trick J.

Беслатный, очень полезный и простой инструмент для изучающих английский язык, который функционирует в рамках sketchengine является SKELL.

Безусловно, описанный инструмент, так же, как и сам огромный корпус языка, является только инструментом для опровержения или подтверждения тех умозаключений, которые имеет исследователь изначально, либо имеющихся у него вопросов.

На таком подходе к корпусу основано направление корпусной лингвистики, которое называется corpus-based research. При этом исследователь имеет предварительно до работы с корпусом собственную гипотезу, которую данные корпуса подтверждают или нет.

Примером такого исследования может служит контент-анализ слова «Европа», где корпус является источником примеров

Иного принципа придерживаются исследователи направления corpus-driven research, которые не имеют заранее определенной установки, а наоборот, полностью полагаются на данные корпуса, из которого затем уже выводятся теории, нормы и правила.

Конечно, приверженцы обоих методов критикуют друг друга. 

Главное достижение обоих методов состоит в том, что идея «описать язык в целом» признана невозможной, да и ненужной, а все исследования проводятся только в рамках определенных регистров, поскольку определенные правила действуют исключительно в одних регистрах и исчезают в других. Таким образом, защищается установка, когда в языке нет неправильного и нормы, а есть только разнообразие регистров, то есть форм существования языка.

В последнее время оба подхода сближаются и дают новые возможности для исследования, примером сближения рекомендуется ознакомиться с исследованием Piperski, A. Kukhto. Intra-speaker stress variation in Russian: A corpus-driven study of Russian poetry.

 

Продолжение следует.

Автор статьи: Н.Булгакова