Подкорпус устной речи русско-тюркских билингвов Южной Сибири: типологически релевантные признаки

Материал из НБ ТГУ
Перейти к: навигация, поиск

Лингвистические корпуса текстов как источники лингвистического исследования

Корпусная лингвистика, идеи которой были высказаны еще в 60-е гг. ХХ в., начала интенсивно развиваться с 80-х гг. с опорой на активно совершенствующиеся информационные технологии. В настоящее время лингвистические корпуса текстов (собрания текстов, отобранные и размеченные на основании теоретически обоснованных лингвистически релевантных принципов) играют все более значимую роль в качестве источников лингвистического исследования, конкурируя с традиционным источником – словарем. Так как лингвистический корпус, как правило, включает морфологическую, лексико-семантическую и стилистическую квалификацию слова, он в качестве источника лингвистического исследования соотносим с так называемыми аспектными словарями, включающими единицы и их квалификацию определенного типа. Вместе с тем основной особенностью корпуса как лингвистического источника является то, что он дает возможность извлечь информацию о широчайшем спектре контекстной реализации языковых единиц, их форм, вариантов. Принципиальное противопоставление принципов отбора единиц словаря и корпуса – словоцентричность и текстоцентричность – делают их взаимодополняемыми источниками, совместное использование которых способствует повышению эффективности лингвистического исследования.

В современной интенсивно развиваемой корпусной лингвистике все большее развитие получают корпуса текстов, собранные в качестве эмпирической основы разнообразных лингвистических проектов, что мотивирует разработку особых принципов разметки и метаразметки текстового материала, которые дополняют выработанные ранее стандарты его обработки.

Подкорпус русской речи билингвов

Подкорпус русской речи билингвов следует рассматривать как часть долгосрочного проекта создания лингвистического корпуса «Томский региональный текст», целью которого являлось собирание текстов регионального варианта русского языка во всей полноте его функциональной дифференциации [1]. В совокупности функционально обусловленных речевых вариантов реализации русского языка значительное место занимает билингвальная речь, формы которой обусловлены многими факторами, в том числе типом вступающих во взаимодействие языков и характером их контактирования, что, в свою очередь, зависит от действия значительного количества социолингвистических параметров коммуникации. Будучи частью крупного проекта, подкорпус речи билингвов, по замыслу авторов, наследовал основные принципы отбора текстов основного корпуса, его разметки и метаразметки, структура которых определялась стремлением отразить полноту функционального варьирования территориального варианта национального языка. К таким принципам мы относили: при отборе текстов – отражение устной и письменной речи всех функциональных стилей, стремление к жанровому и тематическому разнообразию, при планировании разметки – введение дискурсивно значимых маркеров (см. [2], [3], [4], [5]). Подкорпус речи билингвов закономерно дополнялся параметрами метаразметки, введением базовых показателей контактирующих языков в билингвальной речи, в аннотировании корпуса – введением системы тегов отклонений от речевого стандарта [1].

Концепция данного подкорпуса получила свое развитие в рамках крупного проекта по изучению языкового многообразия Южной Сибири, поддержанного грантом Правительства Российской Федерации. Значимую часть программы исследований составляют сбор, инвентаризация и исследование форм контактирования языков сквозь призму речевых структур русскоязычных билингвов с интерферентными проявлениями тюркских языков: татарского, хакасского, шорского.

Особенности и задачи исследования

В проекте предполагается лингвистическое, психолингвистическое и лингвокогнитивное исследование форм проявления билингвальной (мультилингвальной) интерференции. При решении комплекса данных задач формирование корпуса русскоязычной билингвальной речи имеет, во-первых, самостоятельную научную ценность, так как его результатом станет фиксация типов речевых отклонений на всех уровнях языковой системы в соотнесении с типами языкового контактирования. Во-вторых, мы рассматриваем сбор билингвальных текстов и их лингвистическую разметку в качестве основного источника при формировании материалов психолингвистических экспериментальных исследований механизмов контактирования языков в когнитивных структурах билингвов.

Корректировка формируемого подкорпуса

Данная фокусировка исследовательских задач обусловила необходимость корректировки архитектуры формируемого подкорпуса, расширения системы метаразметки и увеличения количества тегов его аннотирования, а также необходимость дальнейшего углубления структуры самого подкорпуса. В структуре основного подкорпуса русской речи билингвов мы выделяем: 1) на основании различий контактирующих языков – подкорпуса речи русско-татарских, русско-хакасских, русско-шорских билингвов; 2) в каждом из подкорпусов противопоставляются далее более частные подкорпуса по противопоставлению основных форм (модусов) речи – устной и письменной.

Большинство из существующих в настоящее время наиболее представительных корпусов национальных языков являются собранием, прежде всего, письменных текстов, к которым присоединяются подкорпуса устные или мультимедийные. В концепции теоретической направленности представляемого корпуса русской речи билингвов именно подкорпус устной речи является ядерным, так как только при формировании его текстовой основы можно максимально полно зафиксировать психолингвистически и социолингвистически значимые особенности билингва, что является необходимым при исследовании когнитивных эффектов билингвального взаимодействия. Весьма значимой является также возможность привлечь одних и тех же информантов в качестве как авторов текстов корпуса, так испытуемых при проведении поведенческих психолингвистических исследований билингвизма.

В данной статье характеризуются основные признаки создаваемых устных подкорпусов русско-татарских, русско-хакасских, русско-шорских билингвов, подходы к отбору текстового материала и общие принципы метаразметки, определяющие их место в типологии лингвистических корпусов.

Принципы отбора материала в формируемый подкорпус

Как справедливо отмечает М. Копотев, при отборе текстов корпуса «единственный критерий – задача, для которой собран корпус» [6. С. 33]. Далее мы охарактеризуем принципы отбора материала в формируемый корпус, сопоставляя его с другими вариантами селекции текстов. Отметим, что мы ориентировались на принятую в мировой практике корпусного проектирования типологию, разработанную в проекте EAGLES [7], однако характеризуем корпус только по параметрам, значимым для спецификации представляемого подкорпуса устной речи билингвов.

Лингвистические корпуса противопоставляются:

–	по языкам коллекций текстов: одноязычные vs многоязычные;
–	формам речи: устные vs письменные vs мультимодальные vs смешанные;
–	формам национального языка: литературный язык vs диалектный язык vs. недифференцированные по данному признаку;
–	дискурсивным и, реже, жанровым формам текстов, обычно современные глобальные проекты национальных корпусов стремятся к сбалансированности материалов, т.е. к отражению объемов жанровых и дискурсивных форм текстов пропорционально соотношению типов коммуникации на данном языке (см. обоснование таких принципов компоновки текстового массива в НКРЯ  [8], а также примеры таких корпусов в работах  [9],  [10],  [11],  [12],  [13]);
–	временной отнесенности текстов, по этому основанию противопоставляются корпуса современных текстов (временные границы при этом определяются в соответствии с выработанными в теоретической лингвистике положениями о темпах динамики национальных языков) и являющиеся собраниями текстов, созданных в другие эпохи (пример такого корпуса – лингвистически размеченное собрание агиографических текстов XV–XVII вв.  [14]);
–	типам соотношения языков, используемых автором текстов при их порождении.

Основным дифференциальным параметром, определяющим направленность отбора текстов для подкорпуса русско-тюркских билингвов Южной Сибири, является последний признак. По этому признаку корпуса делятся на тексты носителей языка, к которым относится абсолютное большинство создаваемых корпусов, и так называемые корпуса второго языка, которые являются собранием

«текстов не носителей языка». К последней группе относят учебные корпуса, корпуса билингвов и корпуса лингва франка [6. С. 103–107]. Определение «тексты не носителей языка» представляется нам не совсем удачным, более верное определение, на наш взгляд, – «тексты носителей нескольких языков», т.е. это тексты, которые порождаются билингвами с разным соотношением материнского (L1) и изучаемого или освоенного языка (L2). Так, наиболее представительный англоязычный The Cambridge Learner Corpus (CLC) включает к настоящему времени 40 млн текстоформ, записи речи более 200 тыс. студентов их 217 стран, говорящих на 148 родных языках [6. С. 105].

Национальный корпус русского языка

При этом язык, тексты на котором объединяет соответствующий корпус, может занимать функционально различное положение в коммуникации билингва. Например, в составе русскоязычных корпусов этого типа русский язык может быть материнским, испытывающим влияние других (другого) языка при эмиграции, это так называемые корпуса текстов эритажных (херитажных) носителей языка (использование данных такого корпуса см. в работе [15]). Целевой язык может быть и вторым, изучаемым языком, как, например, в учебных корпусах (русскоязычный учебный корпус RLC) [16].

В корпусе билингвов, являющемся подкорпусом национального корпуса болгарского языка, собраны тексты, написанные на болгарском языке, подъязыке русско-болгарских билингвов разного типа, проживающих в Болгарии, для которых русский язык является родным, материнским, а болгарский – осваиваемым (см. проект данного корпуса в статье К. Петровой [17]). В характеризуемом в статье подкорпусе собраны русскоязычные тексты, создаваемые людьми, для которых русский язык не является материнским, материнские языки контактирования – языки тюркской семьи: шорский, татарский, хакасский.

Целевая направленность отбора текстов для подкорпуса русско-тюркских билингвов Южной Сибири

При отмеченном выше типологическом сходстве учебных корпусов и корпусов речи билингвов, данные корпуса имеют значительные отличия в целевой направленности отбора текстов, как следствие – в типе преобладающих текстов. Ядро учебных корпусов составляют, как правило, письменные тексты – студенческие работы крупных учебных центров, во вторую очередь – транскрибированные устные тексты. В подкорпусе русско-тюркских билингвов Южной Сибири ядро корпуса составляют устные тексты.

Несомненна прикладная направленность создания учебных корпусов на выявление типичных отклонений в использовании языка носителями разноструктурных языков как основа коррекции методик преподавания языка. При этом данные корпусов широко используются и в типологических исследованиях.

Словацкий национальный корпус

Своеобразие представляемого в статье собрания текстов состоит в том, что русский язык, являясь вторым, не материнским, активно используется авторами текстов корпуса во многих сферах, прежде всего в институциональной коммуникации. Вследствие этого, мы полагаем, отклонения от норм использования русского языка могут носить более глубокий, неявный характер, нежели в ученических работах, и выявляются на основе концентрации значительного объема текстов. Корпус планируется как собрание текстов, являющееся основой типологических и психолингвистических исследований, однако его данные также могут быть использованы в практике преподавания русского языка в школах.

Особенности подкорпуса русско-тюркских билингвов Южной Сибири

Итак, подкорпус русско-тюркских билингвов Южной Сибири по названным выше признакам противопоставления может быть определен как собрание современных устных текстов, отбор которых проводится с ограничением по локальному принципу: авторы текстов являются носителями локального варианта русского языка, как литературной, так и нелитературной (диалектной, просторечной) форм. Подчеркнем фиксацию регионального характера собираемых текстов, так как полагаем, что тип языкового контактирования может отражать аспекты диалектного взаимовлияния, например сибирского варианта татарского языка и среднеобских говоров русского языка.

Создаваемый подкорпус устной речи, естественно, не может охватить всю палитру дискурсивных и жанровых форм коммуникации, в нем преимущественно будут собраны тексты устного бытового и, реже, публицистического общения. Дискурсивное, жанровое и тематическое ограничение текстов определяется преимущественным типом сбора материала – в практике интервьюирования, бесед собирателей текстов с информантами, самозаписи информантом разных форм обыденной коммуникации.

Коррекция системы метаразметки

Направленность на изучение языковой интерференции в речи билингва, на исследование отражения когнитивных процессов контактирования языков в сознании билингва определяет тип разметки и метаразметки подкорпуса. Проблема разметки (аннотирования) корпуса требует отдельного рассмотрения, далее охарактеризуем только принципы метаразметки корпуса, определяемые типом создаваемого подкорпуса.

Целевая направленность создаваемого корпуса потребовала коррекции системы метаразметки по отношению как к метаразметке НКРЯ, так и к учебным корпусам и корпусам ошибок. Метаразметка определяет структуру корпуса, помогает контролировать его наполняемость (репрезентативность и сбалансированность). При формировании параметров метаразметки мы также следовали принятым в корпусной практике принципам соответствия цели и принципу полноты, определяемому относительно цели.

По отношению к НКРЯ метаразметка корпуса устной речи билингвов отличается, с одной стороны, существенной редукцией, с другой стороны, введением дополнительных параметров. Как известно, метаразметка в НКРЯ включает 25 параметров, которые распределяются по трем группам: информация об авторе текста, информация о тексте и служебная информация (см. полное описание принципов метаразметки в НКРЯ в статье С.О. Савчук [18]). Значительное количество параметров метаразметки в НКРЯ мотивровано стремлением авторов корпуса соответствовать принципу полноты дискурсивных и жанровых форм репрезентации текстов в корпусе, что требует введения дополнительных признаков при параметризации устных и письменных текстов разной дискурсивной отнесенности и жанровой природы.

В представляемом устном подкорпусе речи билингвов ограничение жанров определяет и ограничение признаков текстов, включаемых в метаразметку; необходимость же отражения явлений интерферентных проявлений межъязыкового взаимодействия в корпусе требует маркирования социолингвистических и психолингвистических факторов, их определяющих. Вследствие этого в метаразметку включается не только обычная для большинства корпусов информация об авторах текстов (дата рождения, пол, образование, социальное положение), но также информация о языках, которыми владеет автор текста, и об их функциональном соотношении.

Использование социолингвистической и языковой анкеты

При метаразметке подкорпуса мы используем данные двух анкет, которые заполняет информант. Первая – социолингвистическая, разработанная в Институте языкознания РАН, основанная на анкетах О.А. Казакевич и используемая при исследовании языков малых народов Российской Федерации [19].

Социолингвистическая анкета включает 41 вопрос с более подробной детализацией информации об авторе текста: о времени и месте рождения, проживания, обучения, профессиональной деятельности, сведений о родственниках по разным типам родства, о способе приобретения и использования языков.

Международный корпус английского языка

Языковая анкета билингва, разработанная на основе анкеты языкового опыта и уровня владения языком Marian V., Blumenfeld H.K., Kaushanskaya M. [20], включает 14 блоков параметризации характера и типа владения билингвом взаимодействующими языками: языки ранжируются по мере активности их использования, порядку усвоения, количеству времени пользования языками во время интервьюирования, по предпочтению выбора языков при чтении и при коммуникации с другим человеком; также фиксируется информация об истории пользования языком – о времени изучения или вхождения в язык, о времени пребывания информанта в среде языка, о самооценке информантом уровня владения языком и факторов, стимулирующих изучение каждого из языков, которым владеет информант, о предпочитаемых темах и сферах коммуникации для говорения на каждом из языков.

Как видим, социолингвистическая и психолингвистическая информация двух анкет, заполняемых информантами корпуса, имеет пересекающиеся, хотя и нетождественные параметры, однако вследствие того, что эти анкеты имеют внутреннюю, присущую им системность, определяемую соотнесенными, но разными исследовательскими парадигмами, мы включаем в материалы корпуса обе анкеты. При этом в метаразметку корпуса вносятся только основные параметры, определяющие существенные аспекты взаимодействия языков в когнитивной и коммуникативной системе билингва. Данный фрагмент метаразметки мы структурируем относительно владения русским языком, на котором говорит информант, определяя его статус: является ли русский язык по самооценке информанта родным (материнским) или неродным; используется ли в период записи текста в разных формах коммуникации (активный vs пассивный), порядок усвоения языка (первый vs второй); сфера преимущественного использования (письменная vs устная; бытовая vs официальная vs эстетическая vs другие. По тем же параметрам оцениваются другие языки речевых практик билингва (полилингва).

Отметим, что через систему отсылок пользователь корпуса при необходимости может получить доступ к расширенному составу информации, полному содержанию анкет, за исключением фамилии, имени, отчества авторов, которые открыты только в качестве служебной информации, в пользовательской системе они представлены в закодированном виде.

Информация о тексте включает данные о времени и месте записи текста, его размере в словах.

Британский национальный корпус

Релевантные параметры текста

Далее следуют лингвистически релевантные параметры текста. Теоретическая нейтральность – ведущий принцип аннотирования текстов корпуса. Наиболее общий признак параметризации – форма (модус) текста, с базовой оппозицией письменной и устной форм, которая в настоящее время дополняется третьим видом – тексты мультимедийной коммуникации. Фундаментальность противопоставления данных типов (модусов) коммуникации обоснована и в психолингвистических исследованиях процессов порождения и восприятия речи [21. С. 270], и в дискурсивных исследованиях [22. С. 16–17].

Следующие параметры – тип коммуникации (монолог, диалог, полилог); тип дискурса (личностный – институциональный) и его конкретные виды – параметризируются в соответствии с традицией, сложившейся в зарубежной и российской практике социолингвистических исследований, см., например, работы [23], [24], [25].

Решая вопрос о жанровой принадлежности текстов, мы основываемся на типологическом членении, обоснованном Т.В. Шмелевой, выделяющей информативные, оценочные, этикетные, императивные жанры [26]. Конкретные виды жанров диагностируются по жанрообразующим признакам (рассказ, беседа, воспоминание, сообщение, разговор и др.). При разметке по данному признаку участники проекта получают инструкцию с описанием признаков идентификации речевого жанра. Завершается метаразметка указанием на тему текста: свадьба, встреча с друзьями, мои родители, учеба в школе, посещение театра (список открыт).

Раздел метаразметки «Служебная информация» включает условное название подкорпуса по соответствующему варианту билингвизма (русско-татарский, русско-шорский, русско-хакасский), по форме (модусу) речи (устный), а также указываются имена, отчества, фамилии лингвистов, ответственных исполнителей: тех, кто записывал аудиофайл, собирал анкеты, производил письменную расшифровку, метаразметку и автоматическое аннотирование, ручную разметку интерференции, проверку разметки после автоматической обработки при автоматической разметке текста. В настоящее время проводится тестирование системы разметки и метаразметки текста.

Заключение

Создаваемый корпус русской речи билингвов станет первым репрезентативным собранием текстов билингвальной речи данного типа: русскоязычной речи, испытывающей интерферентное влияние материнских языков тюркской группы, которые в настоящее время являются средством обыденного общения вследствие особенностей языковой ситуации региона, послужит ценным источником научных исследований в области социолингвистического, психолингвистиче- ского и когнитивного аспектов языкового взаимодействия.

З.И. Резанова (Исследование выполнено при поддержке гранта Министерства образования и науки РФ, договор №14Y26.31.00.14.)

Список литературы

  1. Резанова З.И., Веснина Г.Ю. Подкорпус русской речи билингвов лингвистического корпуса «Томский региональный текст»: принципы разметки и метаразметки корпуса // Вопросы лексикографии. 2016. № 1 (9). С. 29–39.
  2. Мишанкина Н.А. Лингвистический корпус «Томский региональный текст»: теоретико-методологическое обоснование проекта // Вестник Томского государственного университетата. 2014. № 389. C. 28–37.
  3. Резанова З.И. Лингвистический корпус «Томский региональный текст»: типологически релевантные параметры сбалансированности и репрезентативности // Вестник Томского государственного университета. Филология. 2015. № 1 (33). C. 38–50.
  4. Sologub O., Rezanova Z., Temnikova I. The Concept of the Tomsk Regional Corpus: Balance and Representativeness // The XXV annual international academic conference, Language and culture, 20–22 October 2014 / Procedia – Social and Behavioral Sciences, 154 (2014). P. 175–178.
  5. Мишанкина Н.А., Филь Ю.В. Лингвистический корпус «Томский региональный текст»: концепция и структура // Слово: Фольклорно-диалектологический альманах: Материалы научных экспедиций. Вып. 12. Благовещенск, 2015. С. 38–49.
  6. Копотев М. Введение в корпусную лингвистику. Прага, 2014. 194 с.
  7. Sinclair J. EAGLES. Preliminary recommendations on Corpus Typology. EAG-- TCWG--CTYP/P. Version of May, 1996.
  8. Национальный корпус русского языка.
  9. Līdzsvarots mūsdienu latviešu valodas tekstu korpuss.
  10. Британский национальный корпус British National Corpus.
  11. Международный корпус английского языка = International Corpus of English.
  12. национальный корпус.
  13. Чешский национальный корпус.
  14. St. Petersburg Corpora of hagiographic Texts XV–XVII centuries.
  15. [http://rakhilina.ru/files/34282785.pdf Полинская М., Рахилина Е.В., Выренкова А.С. Грамматика ошибок и грамматика конструкций: «эритажный» («унаследованный») русский язык // Вопросы языкознания. 2014. № 3. С. 3–19.
  16. The Russian Learner Corpus (RLC).
  17. Петрова К. Проект о создании корпуса устной речи русско-болгарских билингвов.
  18. Савчук С.О. Метатекстовая разметка в Национальном корпусе русского языка: базовые принципы и основные функции // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. М., 2005. С. 62–88.
  19. Социолингвистическая анкета.
  20. Marian V., Blumenfeld H.K., Kaushanskaya M. Language Experience and Proficiency Questionnaire (LEAP-Q) // Speech Language and Hearing Research, 50 (4). Р. 940– 967.
  21. Лурия А.Р. Язык и сознание. Ростов н/Д: Феникс, 1998. 319 с.
  22. Кибрик А.А. Анализ дискурса в когнитивной перспективе: дис. в виде науч. докл. …. д-ра филол. наук. М., 2003. 90 с.
  23. Фуко М. Воля к истине: по ту сторону знания, власти и сексуальности: Работы разных лет. М.: Касталь, 1996. 446 с.
  24. Макаров М.Л. Основы теории дискурса. М.: ИТДГК «Гнозис», 2003. 280 с.
  25. Карасик В.И. О типах дискурса // Языковая личность: институциональный и персональный дискурс. Волгоград, 2000. С. 5–20.
  26. Шмелева Т.В. Модель речевого жанра // Жанры речи. Саратов, 1997. Вып. 1. С. 88–99.