Корпусная лингвистика: в рамках работы над диссертацией мне необходимо создать электронный корпус переводов

Вернуться назад 2019-01-04  |  Дмитрий Соснин Корпусная лингвистика: в рамках работы над диссертацией мне необходимо создать электронный корпус переводов

Казалось бы, что нового может появиться в лингвистике, как в науке? Языки формировались тысячелетиями, их изучение ведётся многие века – и за это время должны были устояться все методы, все подходы. Но на самом деле лингвистика постоянно развивается: и лучший пример этого развития – теория корпусов.

Что такое корпусная лингвистика?

Лингвистический корпус – это собрание текстов, которые:

  • Выбраны по какому-то определённому признаку (один язык, жанр, период создания и т. д.);
  • Специальным образом размечены (выделены клише, термины, устойчивые конструкции и т. д.).

То есть, корпус представляет собой большую базу данных, в которой хранятся естественно сформированные человеком тексты. В этом и есть их основная ценность, в естественном происхождении материала.

Когда исследователь – например, разработчик онлайн-переводчика – изучает какой-то язык (принципы построения фраз, частотные словосочетания и т. д.), ему необходимо работать именно с реально использованными текстами.

Он не может просто составить нужный программе для примера текст, потому что это будет искусственный материал, сделанный самим исследователем – а значит, он не показателен. Корпуса же имеют настоящий коммуникативный контекст, они реально использовались для решения тех или иных задач.

Соответственно, этот материал просто бесценен для разработчиков и исследователей.

История корпусов

Сам термин появился в 60-х – вместе с первым корпусом (Брауновский корпус, 1961-й год) но настоящее развитие теория корпусов получила только в конце 80-х, когда эволюция компьютеров наконец вышла на достаточный для обработки таких собраний текстов виток. Дело в том, что изначально, в 60-е и 70-е, электронных мощностей хватало только на работу с корпусами в миллион слов: это всего 500 текстовых фрагментов по 2 тысячи слов в каждом (Брауновский был как раз таким). Для сравнения: в этой статье 753 слова.

В масштабах языка такой корпус совершенно непредставителен: например, в Брауновском корпусе слово «polite» – вежливый – встречалось всего 7 раз. И это при том, что «polite» – одно из самых обыденных и употребительных слов.

Естественно, что как только компьютерная техника получила большие мощности, лингвисты начали создавать более масштабные корпуса.

Уже в 90-х использовались собрания текстов, включавшие в себя сотни миллионов слов, а сегодня и миллиардные корпуса – это не редкость.

В качестве примера можно привести Acquis Communautaire – базу данных Евросоюза, содержащую переводы европейского законодательства на 22 языка. В ней как раз около миллиарда слов.

Зачем нужны корпуса с практической точки зрения?

Тексты, входящие в корпус, обрабатывают при помощи специального ПО: анализируют, раскладывают на составляющие. Эти составляющие – часто встречающиеся слова и словосочетания, а также условия, при которых они используются (контекст) – стали основой для современных систем машинного перевода.

С точки зрения основ машинный перевод работает очень просто: система подключена к базе данных – корпусу (или к нескольким корпусам, об этом ниже) – и активно использует поиск по паттернам: словам и словосочетаниям. Находя в корпусе соответствующий по составу и условиям использования паттерн, автоматический переводчик выдаёт его в качестве результата.

Виды корпусов

Современная лингвистика выделяет три типа корпусов:

  1. Монолингвальные корпусы. Они же «одноязычные». Это собрания текстов на одном и том же языке, которые используются для определения регистра (стилевых и жанровых особенностей), характерного для этого языка и типа текстов. Очень часто монолингвальные корпусы посвящены конкретной области деятельности: например, исследователь может взять собрание юридических текстов, вычленить из них все термины и клише – создать эталонный корпус, на который система будет опираться при переводе;
  2. Сравнительные билингвальные корпусы. Они же «двуязычные». Собрание, в котором каждый текст представлен на нескольких языках: оригинал и несколько переводов (как правило, используются 2 перевода на 2 различных языка). Такие корпусы становятся основой для машинного перевода: они помогают определить соответствие терминов, частотных словосочетаний и т. д.;
  3. Параллельные корпусы. Это сопоставленные по абзацам пары «оригинал-перевод»: исследователь берёт два текста и сводит их вместе.

Особую ценность для автоматизации профессионального перевода имеют тематические корпуса – например, корпус, сформированный Гранжером и Петч-Тайсоном (Granger and Petch-Tyson). Это собрание статей по биохимическим исследованиям, содержащее 500 000 слов.

Корпуса – это «фундамент» машинного перевода

Что такое «корпусный подход в изучении иностранного языка»?

Корпусная лингвистика: в рамках работы над диссертацией мне необходимо создать электронный корпус переводов

Коллеги, а вы слышали о корпусной лингвистике и о корпусном  подходе в изучении иностранного языка?  

 В англоязычной методике довольно распространен подход, который носит это название corpus-based language learning. В нашей методике преподавания как  РКИ так и других иностранных языков только сейчас совершаются  первые шаги в этом направлении.

 Кроме этого, разрабатываются ресурсы для изучения русского языка, основанные на корпусных технологиях.

Лингвистика 21 века — это лингвистика корпусов, считают ученые. Действительно, корпусные технологии кардинально изменили ход языковых исследований, предоставили ученым доступ к большим текстовым данным. 

А как корпуса повлияли на другую прикладную область лингвистики — преподавание языка? 

Далее предлагаю вам прочитать краткую  статью о корпусной лингвистике и об этом методе. Статью эту я нашла на сайте «Прикладная лингвистика» и ее автором является Соснина Е.П.

В настоящее время корпусы письменных и устных текстов успешно применяются при обучении иностранному языку и в лингвистической педагогике.

В статье рассматривается «корпусный подход» (Corpus-Based Approach) в задачах, связанных с обучением иностранным языкам, указываются основные характеристики метода, определяющие его надежность и достоверность.

Корпусный подход, или метод лингвистического исследования, основанный на корпусах текстов, ориентирован на прикладное изучение языка, его функционирование в реальных средах и текстах, что важно для преподавания языка.

 

Мировая практика развития этой области доказывает эффективность такого рода приложений, хотя в настоящее время возможности методов корпусной лингвистики в России пока не находят должной реализации в прикладной лингвистике, лингвистическом обучении, обучении родному и иностранному языку.

 

Определяются типы корпусов, которые возможно использовать в практике преподавания иностранных языков, приводятся примеры корпусов, доступных для рядового преподавателя иностранных языков.

В данной статье в качестве примера рассматривается практическое использование параллельных корпусов в обучении языку и переводу, а также учебных корпусов в исследованиях, связанных с проблемами освоения иностранного языка. В докладе также раскрывается эффективность использования такого компьютерного обеспечения корпусной лингвистики как программ-конкордансов в лингвистических задачах, в том числе в «автоматизированном обучении» иностранным языкам. В заключении отмечаются реальные приложения корпусной лингвистики, метода корпусного анализа в лингвистических исследованиях и практике преподавания иностранного языка.

Введение

   В настоящее время корпусы письменных и устных текстов успешно применяются при обучении иностранному языку и в лингвистической педагогике. На базе корпусов формируются списки активной лексики студентов, частотные списки терминов для использования в профессиональных курсах и т.п.

Разработчики академических словарей и учебных пособий опираются на аутентичные массивы текстов (Corpora).

Кроме того, коллекции, библиотеки и массивы текстов отражают реальное функционирование того или иного языка, а их перенос в компьютерные среды только активизировал их практическое и широкое использование в прикладной лингвистике [1].

   Корпусная лингвистика дает материал для различного рода исследований языка и его вариантов, и определяет основной метод анализа текстов на базе корпусов (Corpus-Based Approach) [3].

Корпусный подход, или метод лингвистического исследования, основанный на корпусах текстов, ориентирован на прикладное изучение языка, его функционирование в реальных средах и текстах, что важно для преподавания языка.

Например, лексикографический анализ на базе корпусов явно помогает раскрыть контекстное употребление тех или иных слов, особенно синонимичных (например, small/little, big/large), частотную сочетаемость их с другими словами, регулярность в тех или иных стилях, и четко определить их семантику.

  •    Основные характеристики метода, определяющие его надежность и достоверность, следующие:
  •    — является эмпирическим и анализирует реальные словоупотребления в естественной языковой среде,
  •    — использует достаточно большую, репрезентативную подборку текстов,
  •    — активно использует компьютеры и специальные программы-конкордансы для анализа в автоматическом и интерактивном режимах работы,
  •    — базируется на методах статистического и качественного анализа текста,

   — является целевым, т.е. должен быть ориентирован на реальное приложение и результаты.

   Одной из важных особенностей метода анализа на базе корпусов текстов является исследование не только чисто лингвистических явлений (грамматических или лексических функций слов, их связей с другими лексемами), но и таких явлений, как, например, частотности лексем или грамматических конструкций в тех или иных жанрах, диалектах.

   Электронные корпусы в языковом обучении

   Электронные корпусы предоставляют богатый лингвистический материал для учебных и исследовательских целей. В настоящее время в Internet представлено множество классических электронных корпусов на иностранных языках.

Наиболее известные из них Британский и Американский национальный корпусы английского языка, немецкоязычные корпуса LIMAS, COSMAS.

Из наиболее доступных для рядового пользователя-преподавателя иностранных языков являются Gutenberg Texts, British National Corpus Sampler, The Longman Corpus, LIMAS [4, 5, 6, 7, 8], корпусы новостей Рейтер, электронные архивы крупных газет (например, The Times).

  1.    Что касается типологии корпусов текстов, то в прикладной лингвистике возможно использование таких типов как:
  2. Исследовательские — для изучения различных аспектов функционирования языковой системы;
  3. Иллюстративные, в том числе учебные (Learner Corpus) — для подтверждения и обоснования лингвистических фактов;
  4. Мониторные — для исследования динамики языкового материала, проведения контент-анализа, например, корпус по публицистике;
  5. Статические — для исследования стилей, например, авторские корпусы или корпусы текстов писателей;
  6. Мультимедийные — текст + видео + аудио;

Корпусы параллельных текстов — для сопоставительного анализа текстов «оригинал-перевод» для обучения методам и приемам перевода. Существует две базовых формы организации таких корпусов: «оригинал-перевод/ы» (Unidirectional), «оригинал — перевод — обратный перевод» (Bidirectional or reciprocal), упорядоченные параллельно.

   В данной статье в качестве примера мы рассмотрим практическое использование параллельных корпусов в обучении языку и учебных корпусов в исследованиях, связанных с проблемами освоения иностранного языка.

   Параллельные корпусы в обучении языку и переводу

   В методике обучения языку (грамматико-переводной метод) и методике обучения переводу интересным приложением является разработка параллельных электронных корпусов текстов (Parallel Corpora) и использование программ-конкордансов параллельных текстов [11]. Такие разработки в России находятся в стадии развития, хотя параллельные тексты давно используются для сопоставительного перевода и обучения.

   В практическом смысле перевод должен ориентироваться на возможности постредактирования, сравнения и оценку различных стратегий и интерпретаций в рамках контекста. Переводчику (особенно начинающему) необходимы ресурсы, которые могли бы выступать эталонами перевода и оценке перевода в тех или иных «стандартных» условиях.

По некоторым данным около 50%, а на начальном этапе обучения до 80% времени перевода тратится на обращение к реферативной информации, например, словарям.

Читайте также:  Как избежать признания банкротом юридического лица

Электронные параллельные корпусы и лингвистические компьютерные технологии позволяют значительно сократить эти временные затраты и предоставляют образцы профессионального перевода при изучении приемов и способов перевода.

   В настоящее время особенно распространены корпусы (или параллельные тексты) художественной литературы [2], хотя для обучения переводу в вузе следует разрабатывать корпусы разных жанров и стилей и в первую очередь ориентироваться на научно-технические, публицистические и деловые тексты.

Учебные корпусы в исследованиях по освоению языка

   Под учебным корпусом (Learner Сorpus) понимается электронный корпус текстов группы лиц, изучающих иностранных язык. Основной целью организации учебных корпусов является их анализ на предмет выявления способов и эффективности освоения изучаемого языка (Language Acquisition).

   Такого рода корпусы, например, могут быть использованы для лингвистического анализа на предмет выявления лексических или синтаксических ошибок при освоении иностранного языка. Такой подход помогает установить частотность тех или иных типов языковых ошибок, характерные контексты, что необходимо для выработки планов и методических приемов для дальнейшей коррекции в обучении языку.

   Учебные корпусы наиболее распространены в Азии и Европе. Наиболее известным является международный англоязычный корпус ICLE (International Corpus of Learner English) эссе студентов продвинутого языкового уровня [10].

Этот корпус в основном используется для дискурсивного анализа и статистического анализа вокабуляра учеников, сопоставительных исследований.

Данный корпус является показательным примером эффективности разработок в области корпусной и прикладной лингвистики.

   Программы-конкордансы в прикладной лингвистике

   В области прикладного языковедения конкордансы (Concordances) получили особое признание лингвистов благодаря новым возможностям эффективного исследования языка и обработки лексического материала текстов различного рода. В последнее время компьютерные конкордансы стали активно использоваться при автоматизированном обучении иностранным языкам (или CALL — Computer Assisted Language Learning).

   Конкорданс-программа — это специальная программа обработки текста, которой ставится некоторая лингвистическая задача по поиску той или иной морфемы, слова или словосочетания в контексте.

Например, в случае английского языка — найти в данной группе текстов варианты использования неопределенных артиклей или всех слов, оканчивающихся на «-ing».

В результате работы программа-конкорданс выдаст все слова с данным окончанием вместе с контекстом, как правило — это строка текста.

   Таким образом, преподаватель получает множество примеров как грамматической, так и лексической формы слова (в нашем примере это отглагольные существительные, герундий, форма глагола — причастие I и т.д.). Студент в свою очередь получает естественные примеры демонстрации тех или иных грамматических или лексических явлений, может самостоятельно проводить лингвистические исследования, заниматься НИР.

   В разделе изучения грамматики иностранного языка студенту может предлагаться найти и проанализировать формы выражения и использования сложных врем?н (например, Perfect), модальные глаголы и их роль в предложении, место наречий в предложении, и т.п.

В разделе лексики — например, найти и объяснить на примерах такие часто вызывающие трудности при использовании слова как MAKE/DO, RISE/RAISE, TELL/SAY, LIE/LAY и т.п. В разделе синтаксиса — например, исследовать пунктуацию того или иного языка и определить различия по сравнению с родным языком.

Источниками для таких работ могут служить не только специальные корпусы электронных текстов, но и различные электронные издания, электронные библиотеки (например, в Internet).

   В настоящее время конкордансы являются современным эффективным инструментом анализа текста, которые следует активно применять в практике преподавания языка и в лингвистических задачах.

   Заключение

   Анализ корпусов текстов, методы и наработки корпусной лингвистики являются перспективным направлением в области преподавания иностранных языков [12, 13].

Мировая практика развития этой области доказывает эффективность такого рода приложений, хотя в настоящее время возможности методов корпусной лингвистики в России пока не находят должной реализации в прикладной лингвистике, лингвистическом обучении, обучении родному и иностранному языку.

На кафедре «Прикладная лингвистика» Ульяновского государственного технического университета проводятся исследования, связанные с разработкой учебного электронного корпуса письменных текстов начального уровня обучения иностранному языку, а также параллельного корпуса (англо-русского) газетных текстов для обучения переводу.

Компьютерные конкордансы уже несколько лет используются на кафедре в учебном процессе для подготовки и написания рефератов, курсовых работ по иностранным языкам, а также для НИР студентов-лингвистов.

Е.П.Соснина «Параллельные корпусы в обучении языку и переводу» | Language Bridge

В методике обучения языку и переводу интересным приложением является разработка и применение параллельных электронных корпусов текстов различных жанров. Такие разработки в России находятся в стадии развития, хотя параллельные тексты давно используются для сопоставительного анализа перевода.

В задачах обучения переводу параллельные корпусы текстов могут рассматриваться как реферативная информация и предоставлять образцы профессионального перевода при изучении приемов и способов перевода. В задачах обучения иностранному языку такие корпусы позволяют подобрать возможные эквиваленты изучаемой лексики, проследить ее значения и функции в тех или иных контекстах.

В работе рассматривается ряд методических приемов при использовании корпусов, методы их построения, типы корпусов, а также использование специальных программ-конкордансов параллельных текстов.

2. Параллельные корпусы и область их функционирования

Параллельный корпус (Parallel Corpora) — это электронный аналог параллельных переводных текстов, как правило состоящий из множества блоков «текст-оригинал и один/несколько его переводов». Электронные тексты в корпусе могут представлять собой целое оригинальное словесное произведение или какую-либо его часть.

  • В современной корпусной лингвистике выделяется два вида параллельных корпусов(1) :
  • 1) многоязычный, или Comparable (Мultilingual) Сorpora,
  • 2) переводной, или Translation Сorpora.
  • Структурная организация корпуса может быть самая разная, в зависимости от прагматических целей его создателя или пользователя:
  • в виде традиционного текста со ссылкой на перевод/ы,
  • в табличной «зеркальной» форме, что более удобно для восприятия и сравнения,
  • в виде базы данных.

Направления корпусной лингвистики, в том числе проекты электронных корпусов текстов, активно развиваются и имеют значительный прикладной потенциал в методике обучения иностранным языкам и переводу, а также в компьютерной лингвистике.

Вопросам обучения языку и переводу на базе параллельных корпусов уделено болSosnina E. Modeling of Dialogue Reasoning and Its ьшое внимание в работах таких ученых как М.

Барлоу, Маккенери, Бэйкера, Уилсона, Дэнилсон и Райдингс, Заннети, Аренберга, Бланка, Брауна, Черча и Гейла, Девиса, Фостера и многих других.

За последнее десятилетие в мире было создано множество двуязычных/многоязычных корпусов, из них:

  • EUROPARL — 20.000.000 словоупотреблений, открытый корпус Европарламента на 11 языках (автор Philipp Koehn) http://www.isi.edu/~koehn/publications/europarl/

Корпусная лингвистика — это… Что такое Корпусная лингвистика?

Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80-х способствовало развитие вычислительной техники.

Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

Целесообразность создания текстовых корпусов объясняется:

  • представлением лингвистических данных в реальном контексте;
  • достаточно большой представительностью данных (при большом объёме корпуса);
  • возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач, таких, как например, реализация графематического и лексико-грамматического анализа текста и др.[1]

История

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ.

 Brown Corpus, BC), который был создан в 1960-е годы в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году.

В результате он задал Стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках.

По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий).

Так, каждое из таких обыденных слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера.

В Великобритании такими проектами были Банк Английского (Bank of English) в Бирмингемском Университете и Британский Национальный Корпус (British National Corpus, BNC).

В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова.

Современное состояние

Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского, болгарского и других языков.

Национальный корпус русского языка, создаваемый при РАН, содержит на сегодняшний день более 300 млн словоупотреблений.[2]

Читайте также:  Если земля не в собственности, но я построил на ней дом как её делить после развода?

Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто Wall Street Journal и New York Times), новостные ленты (Рейтер), коллекции художественной литературы (Библиотека Мошкова или Проект Гутенберг).

Проблемы

Проблема представительности

Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объема текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса.

Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов.

В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.

Проблема разметки

К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:

  • токенизация (разбиение на орфографические слова)
  • лемматизация (приведение словоформ к словарной форме)
  • морфологический анализ

Проблема представления результатов

В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время.

Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.

Веб как корпус

Использование поисковых машин

корпусная лингвистика

I

Ко́рпусная
лингви́стика — раздел языкознания,
занимающийся разработкой, созданием и
использованием текстовых корпусов.
Термин введён в употребление в 1960-е годы
в связи с развитием практики создания
корпусов, которому начиная с 1980-х
способствовало развитие вычислительной
техники.

  • Целесообразность
    создания текстовых корпусов объясняется:
  • представлением
    лингвистических данных в реальном
    контексте;
  • достаточно
    большой представительностью данных
    (при большом объёме корпуса);
  • возможностью
    многократного использования единожды
    созданного корпуса для решения различных
    лингвистических задач, таких, как
    например, реализация графематического
    и лексико-грамматического анализа
    текста и др.[1]

Первым
большим компьютерным корпусом считается
Брауновский корпус (БК, англ. Brown Corpus,
BC), который был создан в 1960-е годы в
Университете Брауна и содержал 500
фрагментов текстов по 2 тысячи слов в
каждом, которые были опубликованы на
английском языке в США в 1961 году.

В
результате он задал стандарт в 1 млн
словоупотреблений для создания
представительных корпусов на других
языках.

По модели близкой к БК в 1970-е
годы был создан частотный словарь
русского языка Засориной, построенный
на основе корпуса текстов объёмом также
в 1 миллион слов и включавший примерно
в равной пропорции общественно-политические
тексты, художественную литературу,
научные и научно-популярные тексты из
разных областей и драматургию. По
аналогичной модели был построен и
русский корпус, созданный в 1980-е годы в
Университете Уппсалы, Швеция.

Размер
в один миллион слов достаточен для
лексикографического описания только
самых частотных слов, поскольку слова
и грамматические конструкции средней
частоты встречаются по несколько раз
на миллион слов (со статистической точки
зрения язык является большим набором
редких событий). Так, каждое из таких
обыденных слов, как англ. polite (вежливый)
или англ. sunshine (солнечный свет) встречается
в БК всего 7 раз, выражение англ. polite
letter лишь один раз, а такие устойчивые
выражения как англ. polite conversation, smile,
request ни разу.

По
этим причинам, а также в связи с ростом
компьютерных мощностей, способных
работать с большими объёмами текстов,
в 1980-е годы в мире было предпринято
несколько попыток создать корпуса
большего размера.

В Великобритании
такими проектами были Банк Английского
(Bank of English) в Бирмингемском Университете
и Британский Национальный Корпус
(British National Corpus, BNC).

В СССР таким проектом
был Машинный фонд русского языка,
создававшийся по инициативе А. П. Ершова.

Современное
состояние

Наличие
большого количества текстов в электронной
форме существенно облегчило задачу
создания больших представительных
корпусов размером в десятки и сотни
миллионов слов, но не ликвидировало
проблем: сбор тысяч текстов, снятие
проблем с авторскими правами, приведение
всех текстов в единую форму, балансировка
корпуса по темам и жанрам отнимают много
времени. Представительные корпуса
существуют (или разрабатываются) для
немецкого, польского, чешского,
словенского, финского, новогреческого,
армянского, китайского, японского,
болгарского и других языков.

  1. Национальный
    корпус русского языка, создаваемый при
    РАН, содержит на сегодняшний день более
    300 млн словоупотреблений[2].
  2. Наряду
    с представительными корпусами, которые
    охватывают большой набор жанров и
    функциональных стилей, в лингвистических
    исследованиях часто используются и
    оппортунистические коллекции текстов,
    например, газеты (часто Wall Street Journal и New
    York Times), новостные ленты (Рейтер), коллекции
    художественной литературы (Библиотека
    Мошкова или Проект Гутенберг).
  3. Проблемы
  4. Проблема
    представительности

Корпус
состоит из конечного числа текстов, но
он призван адекватно отражать
лексикограмматические феномены, типичные
для всего объёма текстов в соответствующем
языке (или подъязыке). Для представительности
важен как размер, так и структура корпуса.

Представительный размер зависит от
задачи, поскольку он определяется тем,
как много примеров может быть найдено
для исследуемых феноменов.

В связи с
тем, что со статистической точки зрения
язык содержит большое число относительно
редких слов (Закон Ципфа), для исследования
первых пяти тысяч наиболее частотных
слов (например, убыток, извиняться)
требуется корпус размером около 10-20
миллионов словоупотреблений, в то время
как для описания первых двадцати тысяч
слов (незатейливый, сердцебиение,
роиться) уже требуется корпус свыше ста
миллионов словоупотреблений.

  • Проблема
    разметки
  • К
    первичной разметке текстов относятся
    этапы, обязательные для каждого корпуса:
  • токенизация
    (разбиение на орфографические слова)
  • лемматизация
    (приведение словоформ к словарной форме)
  • морфологический
    анализ
  • Проблема
    представления результатов[править |
    править вики-текст]

В
больших корпусах возникает проблема,
которая ранее была неактуальной: поиск
по запросу может выдавать сотни и даже
тысячи результатов (контекстов
употребления), которые просто физически
невозможно просмотреть в ограниченное
время.

Для решения этой проблемы
разрабатываются системы, позволяющие
группировать результаты поиска и
автоматически разбивать их на подмножества
(кластеризация результатов поиска),
либо выдающие наиболее устойчивые
словосочетания (коллокации) со
статистической оценкой их значимости.

Веб
как корпус[править | править вики-текст]

Использование
поисковых машин[править | править
вики-текст]

Корпусная лингвистика

Корпусная лингвистика – это раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использованием лингвистических корпусов (корпусов текстов).

Одним из основных источников языкового материала, необходимого для проведения лингвистических и филологических исследований является текст, письменный или устный.

На основе анализа множества текстов можно сделать вывод об интересующем исследователя языковом явлении, например, о поведении грамматической конструкции, использования выразительных средств в языке и т.п.

Развитие вычислительной техники способствовало тому, что большое количество текстов стало доступно в электронном виде. Для того, чтобы можно было работать с такими объемами текстов, извлекая из них нужную информацию, во всем мире стали создаваться лингвистические корпусы, т.е.

коллекции текстов, специально отобранных, размеченных по различным лингвистическим параметрам и обеспеченных системой поиска. Увеличение объема материала исследования потребовало применения новых методов анализа лингвистических данных, включая их статистическую обработку.

Таким образом, корпусная лингвистика включает два аспекта: во-первых, создание и разметка (аннотирование) корпусов текстов и разработка средств поиска по ним и, во-вторых, собственно лингвистический — экспериментальные исследования на базе корпусов.

Это относительно молодое и активно развивающееся направление, тесно связанное с компьютерной лингвистикой и широко применяющее квантитативные методы.

↑Цели, задачи и основные направления корпусной лингвистики

Возможность пользоваться обширными электронными ресурсами значительно облегчила процесс сбора материала в лингвистических исследованиях.

Однако такая доступность языковых данных радикально изменила требования к доказательной базе лингвистических исследований: в наше время мало привести несколько экзотических примеров в подтверждение выдвигаемой концепции, необходимо представить достаточно полную выборку данных того или иного языка. Однако работать с мегабайтами «сырых» текстов не менее трудно, чем искать примеры вручную.

Необходимость и возможность обработки большого массива текстов для извлечения из них лингвистических, литературоведческих и др. данных обусловили бурный рост электронных ресурсов, включая лингвистически аннотированные корпуса текстов.

Корпусная лингвистика призвана ответить на следующие вопросы:

  • какие принципы лежат в основе устройства корпусов, как должна быть устроена стандартизованная разметка корпуса относительно различных языковых параметров (жанровая и стилевая разметка текстов, морфологическая разметка и т.п.)
  • какие лингвистические и литературоведческие задачи можно решать с помощью корпусов,
  • как пользоваться корпусами, включая специальные языки запросов к корпусам.

Использование корпусов текстов дает возможность наблюдать поведение интересующих исследователя языковых единиц (слов, словосочетаний, грамматических категорий, синтаксических конструкций и т.д.) в естественной языковой среде, т.е. в реально существующих, а не искусственно сконструированных контекстах.

Кроме того, корпусные исследования позволяют, используя статистические методы, сформулировать, подтвердить или опровергнуть некоторую гипотезу о том или ином языковом явлении на большом объеме материала.

При этом если исследователь пользуется уже существующим корпусом, он полностью минует долгий и трудоемкий этап сбора материала (опрос информантов, работа со словарными картотеками или письменными текстами и т.д.).

Для некоторых целей оказывается достаточным использование в качестве корпуса уже существующих электронных коллекций текстов, таких как виртуальные библиотеки, архивы электронных версий периодических изданий или новостных лент. Гигантским собранием текстов является весь Интернет. Существует даже такое направление исследований – Интернет как корпус.

Однако поскольку тексты в сети не систематизированы и не имеют лингвистической аннотации (разметка корпуса) – что относится и к прочим виртуальным коллекциям текстов,— дать точную статистическую оценку всего множества или некоторого подмножества текстов затруднительно, поэтому и возникает потребность в структурированных и аннотированных лингвистических корпусах.

Практически все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов (ср., например, словари издательства Collins, создаваемые на базе электронного языкового корпуса Bank of English, насчитывающего более 2,5 миллиарда слов).

Создание и лингвистическое аннотирование (лингвистическая разметка) корпусов играет основополагающую роль в развитии современных технологий автоматической обработки текстов на естественном языке. Такие корпуса служат большой экспериментальной базой для разработки различных модулей автоматического лингвистического анализа.

С одной стороны, наличие экспертной лингвистической разметки в корпусе позволяет оценить качество работы того или иного лингвистического модуля.

Например, используя корпус с морфологической разметкой, где каждому слову из текста приписана его исходная форма и грамматические характеристики, можно проверить, насколько точно работает система автоматического морфологического анализа.

Читайте также:  Материнский капитал: может ли мама которая бросила своих дочерей в детдоме получить материнский капитал

С другой стороны, в современных системах автоматического анализа текстов (морфологических и синтаксических анализаторах и др.) используются различные методы машинного обучения. Для того чтобы это стало возможным, необходим большой обучающий корпус, содержащий «эталонную» разметку.

Одним из приоритетных направлений корпусной лингвистики является создание и расширение универсальных национальных корпусов (корпусов того или иного естественного языка), представительных по отношению ко всему языку, которые могут служить для исследования самых разнообразных явлений этого языка. Большинство языков мира уже имеют свои национальные корпуса.

Общепризнанным образцом является, в частности, Британский национальный корпус (BNC). Среди корпусов славянских языков выделяется Чешский национальный корпус [1], созданный в Карловом университете Праги. Национальные корпуса существуют также для немецкого, китайского, финского и др. языков.

Для русского языка таким представительным корпусом является Национальный корпус русского языка (НКРЯ)[2].

По мере создания все большего количества корпусов и развития различных технологий обработки текстовой информации вырабатывались некоторые универсальные принципы и языки разметки лингвистической информации в корпусе, создавались специальные инструменты для работы с корпусом на любом языке так называемые корпусные менеджеры. Выработка универсальных стандартов и технологий сделало возможным создавать большие представительные корпуса за очень короткий срок.

Таким образом, предметом корпусной лингвистики являются «теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей»[3].

↑История и современность

Можно сказать, что первые корпуса и корпусные методы появились задолго до возникновения корпусной лингвистики как научного направления. По сути, любое лингвистическое исследование, основанное на сопоставлении и анализе контекстов, является корпусным.

Еще в конце XIX — начале XX в. в целях усовершенствования средств связи, а также в целях быстрого обучения языку создавались частотные словари. Частотность слов оценивалась по специальным выборкам текстов.

Первые корпуса в строгом смысле этого слова появились в 60-х гг. ХХ в. Прообразом для них послужили словарные картотеки – собрания фрагментов текстов, обычно в виде карточек, содержащих то или иное слово, и систематизированные относительно описываемого слова (в основном, по алфавиту).

В 1963 г. в Брауновском университете (США) для создания частотного словаря американского варианта английского языка был создан большой корпус на цифровом носителе (Brown Corpus), включающий 1 млн. слов.

При оценке частоты некоторого слова в языке возникает проблема «сбалансированности» выборки. В языке частотность многих слов обусловлена тематикой текстов. Так, например, слово переменная будет чрезвычайно частотно в математических текстах.

Вероятность же встретить данное слово в художественной литературе очень мала. Для обеспечения корректности данных относительно частоты употребления слов создатели корпуса (У. Френсис и Г.

Кучера) разработали строгую процедуру отбора текстов: в корпус вошли 500 фрагментов прозаических текстов, относящихся к 15 наиболее массовым жанрам и напечатанных в 1961г.

Возникновение корпусных методов связано с бурным развитием компьютерных технологий во второй половине ХХ в.

Возможность сканирования и распознавания текста (перевод в текстовый формат), появление баз данных и систем управления базами данных сделали возможным сбор, хранение и обработку огромных массивов текстовых данных.

Не последнюю роль в развитии корпусной лингвистики сыграла популяризация мировой сети Интернет, т.к. корпуса стали доступны широкому кругу пользователей, значительно расширились возможности их наполнения.

С тех пор накоплен значительный опыт разработки и применения корпусов. Ежегодно публикуется множество работ по данной тематике. Обсуждению проблем корпусной лингвистики посвящена специализированная электронная рассылка Corpora List и периодические издания International Journal of Corpus Linguistics, Corpora, Corpus Linguistics and Linguistic Theory, ICAME Journal.

В России разработкой и исследованием корпусов занимаются специалисты Центра лингвистической документации при Независимом московском университете, отдела экспериментальной лексикографии Института русского языка им. В. В.

Виноградова РАН, Института языкознания РАН, Института проблем передачи информации РАН, Всероссийского института научной и технической информации РАН, Института лингвистических исследований РАН в Санкт-Петербурге и др.

Теоретические и практические проблемы корпусной лингвистики обсуждаются на специализированных семинарах и в рамках научных конференций по прикладной и компьютерной лингвистике: ежегодная международная конференция по компьютерной лингвистике «Диалог», конференция Мегалинг, конференция «Корпусная лингвистика» при кафедре математической лингвистики СПбГУ. Компьютерной лингвистике посвящен раздел форума на сайте конференции «Диалог».

Важной вехой в развитии отечественной корпусной лингвистики явилось создание Национального корпуса русского языка. Работы по созданию Корпуса были начаты в 2001 году группой лингвистов из Москвы, Петербурга, Воронежа и других городов. В рамках развития проекта ведется работа по созданию новых ресурсов на базе корпуса.

↑Основные понятия корпусной лингвистики

Центральное понятие корпусной лингвистики – лингвистический корпус. Тексты в корпус выбираются не случайным образом, а в соответствии с проблемной областью, т.е. областью реализаций интересующих исследователя языковых явлений. Проблемная область имеет два аспекта: языковой и речевой.

Языковой аспект – это само изучаемое явление, а речевой – это множество контекстов, в которых это явление представлено. Проблемная область может быть как очень широкой (все произведения Достоевского Ф.М.), так и достаточно узкой (случаи согласования сказуемого с количественной группой по числу).

Одним из принципиальных вопросов является вопрос о том, какие тексты и в каком объеме необходимо отобрать в корпус. С одной стороны, хотелось бы, чтобы исследуемое явление, как бы оно ни было редко в языке, нашло отражение в корпусе. Одним из требований, предъявляемым к составу и структуре корпуса является требование полноты.

Данное требование входит в противоречие с другим важным принципом создания корпуса — требованием репрезентативности. Задача создателей корпуса – собрать как можно большее количество текстов, относящихся к тому подмножеству языка, для изучения которого корпус создается.

Каким бы специфичным ни был феномен, ни один корпус не может содержать все его реализации. Поэтому корпус – это всегда определенная выборка из проблемной области, которая осуществляется на основе некоторых критериев, устанавливаемых исследователем в зависимости от задачи.

Такая выборка должна отражать те или иные параметры исследуемого языкового явления в той же пропорции, что и в языке вообще или в некотором исследуемом подмножестве языка.

С точки зрения отбора текстов в корпус различают сбалансированные корпусы (см. также репрезентативность) и мониторные корпуса.

В сбалансированных корпусах в корпус включаются тексты, представляющие разные модусы дискурса (включая как письменные, так и устные тексты), разнообразные по жанрам, стилям и тематике.

При разработке корпуса устанавливаются пропорции, в которых должны быть представлены тексты разных жанров, стилей и т.п. Такие корпусы имеют фиксированный объем. Пополнение таких корпусов происходит только после тщательной процедуры отбора новых текстов.

Мониторные корпусы постоянно пополняются новыми текстами на данном языке, при этом баланс текстов разных модусов, стилей и жанров не соблюдается. Создатели мониторных корпусов считают, что «статистическая» обоснованность данных, полученных из корпуса, будет достигнута за счёт объема корпуса, исчисляемого в миллиардах слов.

Важным параметром корпуса является его объем.

Если первые корпусы достигали миллиона слов (точнее, словоупотреблений или текстоформ), то объем современных корпусов исчисляется сотнями миллионов (например, объем Национальный Корпус Русского языка на данный момент составляет около 140 млн. слов) или миллиардами (например, объем корпуса английского языка Bank of English превышает 2,5 миллиарда слов).

Как уже отмечалось, для решения различных лингвистических задач необходимо, чтобы тексты и отдельные языковые единицы внутри текстов содержали дополнительную лингвистическую и металингвистическую информацию — разметку (аннотацию).

В современных корпусах помимо метаразметки (отражающей различную экстралингвистическую информацию о тексте, включая его название, автора, жанровую принадлежность и т.п., подробнее см.

разметка корпуса), содержится разметка, соответствующая различным уровням лингвистического описания, — морфологическая, синтаксическая, фонетическая и др.

↑Компьютерная поддержка корпусов

Взаимодействия пользователя с корпусом: поиск в корпусе в соответствии с запросом пользователя обеспечивается с помощью специальных программ — корпусных менеджеров. Они обеспечивают сортировку результатов поиска, статистические подсчеты, составление конкордансов и словников (списков слов, систематизированных некоторым образом) на основе корпуса.

Большинство современных корпусных менеджеров позволяют осуществлять поиск различного рода информации: поиск конкретных словоформ; поиск словоформ по лемме (поиск всех форм одной и той же лексемы, встретившихся в тексте); поиск неразрывных и разрывных словосочетаний.

При наличии соответствующей разметки осуществляется поиск по набору морфологических признаков (например, поиск всех словосочетаний вида 'предлог по + существительное в предложном падеже') и др. информацию, соответствующую уровням лингвистической разметки, представленных в корпусе.

Благодаря наличию метаразметки пользователь имеет возможность создавать свой подкорпус текстов, отобранных по жанру, тематике, времени написания и т.п. Результат выдачи представляет собой конкорданс (множество контекстов, в котором встретилось запрашиваемое языковое выражение). Каждый из примеров снабжается информацией об источнике, откуда взят пример.

В ряде корпусов возможно также получить статистическую информацию о запрашиваемом языковом выражении: его относительную частоту по всему корпусу, распределение по жанрам или временным срезам, информацию о частоте его сочетаемости.

Корпусы, как правило, предназначены для многократного использования многими пользователями. Для унификации работы с разными корпусами, для обеспечения «независимости» корпусных данных от конкретной программной реализации интерфейса работы с корпусом разрабатываются стандарты разметки текстовых корпусов.

В настоящее время выработались стандарты представления метаданных, базирующиеся на описание текстов в рамках проекта Text Encoding Initiative (TEI) и на рекомендациях EAGLES (Expert Advisory Group on Language Engineering Standards).

В качестве языка разметки используются универсальные языки разметки данных, такие как, например, SGML и XML. 

↑Корпусная линвистика как альтернатива традиционной лингвистике

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *