Что такое корпус?

Что такое корпус?

Преподавателю иностранного языка следует использовать летние каникулы для расширения своего кругозора и знакомства с новейшими лингвистическими исследованиями - следуя этой максиме предлагаем начать знакомство с корпусной лингвистикой.

Статья № 1 цикла расскажет о лингвистическом корпусе языка. Цикл статей составлен на основе материала из лекций курса «Введение в корпусную лингвистику», который читает Левинзон Анна Иосифовна, ст. преподаватель Школы лингвистики гуманитарного факультета НИУ ВШЭ. Этот курс каждый может пройти совершенно бесплатно онлайн на сайте "Открытое образование" 

 

Для изучения гуманитарного знания в 21 века применяются новые компьютерные технологии, позволяющие обрабатывать огромные объемы текстов. Сочетание компьютерных технологий и нового взгляда на языковые феномены и привело к возникновению новой науки – корпусной лингвистики.

Повторяя пример Михаила Копотева, автора учебника по корпусной лингвистике, рассмотрим предмет ее изучения – корпус языка -  на  примере из живописи. 

Картина Рембрандта «Урок анатомии доктора Тульпа» может помочь объяснить, как происходит процесс изучения языка с помощью корпуса (лат. Corpus «тело»). Этот процесс изучения данных языка, анализа данных, доступный широкой аудитории интересующихся (как на картине), состоящей из школьных учителей, студентов, любителей, переводчиков. Однако, при сравнении существования языкового корпуса, следует подчеркнуть, что корпус – это живой организм, как живой и сам язык исследования.

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годы в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках.Итак, лингвистический корпус – это большой массив языкового материала, где счет идет на сотни миллионов и миллиарды словоупотреблений. Языковой материал при этом не сконструирован, а взят из реального существования слов в языке, в разных его регистрах, стилях, типах текстов, письменной и устной форме в виде отрывков. Естественно, что такие объемы данных могут существовать и существуют только в электронном виде.

Существуют самые разные корпуса от авторских, до корпуса текстов маленьких детей. Примеры см. на илл.

 

Что такое корпус языка? Корпус – это коллекция текстов, предназначенная специально для изучения языка, не для чтения.

Эта коллекция - репрезентативная, сбалансированная и размеченная особым образом, именно эти свойства корпуса позволяют изучать язык.

С помощью поддержки государства создаются национальные корпуса определенного языка страны. Например, Национальный корпус русского языка ruscorpora.ru

Выбор текстов для национального корпуса основан на культурной репрезентативности, отбор их производят авторы корпусов на основе своего решения о правилах включения или не включения определенных текстов в корпус. Репрезентативность корпуса соблюдается, если в нем представлены значимые для культуры тексты, если в нем не преобладают тексты оригинальных авторов, пишущих художественную литературу, и если этот корпус будет большим, не менее 100 млн словоупотреблений.См. илл.

Из корпуса исследователь языковых явленийя может получить достоверные сведения о словоупотреблении и находить точные словоформы, а не только слова, но и грамматические категории благодаря своей лингвистической разметке. Очень многие онлайн-словари построены по принципу корпуса, например, корпусной словарь linguee.ru – незаменимый ресурс для переводчиков и преподавателей иностранного языка, где значение слова дается из контекста, путем сопоставления имеющихся в интернете текстов на двух языках и их выравнивания.  В отличие от словаря, который фиксирует норму, принятую на определенном этапе развития языка, корпус не даст такой информации, но даст сведения о существовании, распространении и функционировании слова в языке.

Данные, полученные исследователем из корпуса, имеют важную характеристику частотности словоупотребления, которую в дальнейшем можно сравнивать и анализировать, однако, значение ее  должно быть «нормализовано» статистически, так как выданные данные содержат некоторое количество так называемого «шума» - малозначимых данных. См. илл.

 

Сбалансированность корпуса

Необходимость сбалансированности текстов очевидна. В корпус должны входить тексты как письменные, так и устные, как написанные литераторами, так и сказанные грузчиками в порту, в пропорциях, которые свойственны реально существующему языку в целом. Для того чтобы составить сбалансированный корпус языка, необходимо выделить внутри него подъязыки. Один из первых в истории корпусов американского английского языка университета Браун делал балансировку следующим образом:

 

 

 

 

 

 

 

 

 

Национальный корпус русского языка (НКРЯ) также не является единым массивом, но включает разнообразные подкорпуса – от поэтического до мультимедиа, составленные на основе тех текстов, которые авторы посчитали важными и значимыми.

И последнее свойство корпуса, необходимое для проведения лингвистических исследований – разметка, то есть, специальные обозначения для каждого слова в текстовом отрывке. Она может быть самой разнообразной, в качестве примера приводится разметка НКРЯ.

Продолжение следует.

Н.Булгакова

Рекомендуемые ресурсы: 

В. Плунгян. Корпусная лингвистика – лекция на сайте «Постнаука»

И. Левонтина. О чем речь.

Д. Сичинава. Полк, дивизия, корпус русского языка.