Корпус устной речи русско-тюрских билингвов Южной Сибири: разметка отклонений от речевого стандарта

Материал из НБ ТГУ
Перейти к: навигация, поиск

Корпус устной речи русско-тюркских билингвов Южной Сибири

В статье характеризуется система разметки (аннотирования) отклонений от речевого стандарта в Корпусе устной речи русско-тюркских билингвов Южной Сибири, создаваемого в рамках проекта «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур». Общие подходы к созданию корпуса, его структурные особенности и принципы мета-разметки были охарактеризованы в [1], [2]. Здесь мы представляем систему аннотирования элементов текстов корпуса.

Основной материал корпуса – записи устной спонтанной речи русско-тюркских билингвов, вследствие этого корпус является бимодальным, звучание речи синхронизируется с транскрипцией, что реализуется с использованием программы «ELAN».

Транскрипция проводится на основе использования принципов русской орфографии, дополнительно в записях фиксируются только значительные отклонения от произносительных норм также без применения знаков транскрибирования, например щас (сейчас), грит (говорит), мушшина (мужчина) и под.).

Особенности разметки корпуса. Система маркирования «ошибок»

Морфологическая разметка проводится автоматически на основе использования консольной программы компании «Яндекс» «Mystem» с дальнейшей ручной коррекцией. Морфологическое аннотирование, таким образом, соответствует системе, заложенной в данной программе, которая основывается на принципах, реализованных в «Грамматическом словаре русского языка» А.А. Зализняка [3].

Зализняк А.А. Грамматический словарь русского языка: Словоизменение. М.: Рус. яз., 1980. 880 с.

Так как целью корпуса является репрезентативное представление устной речи билингвов, содержащих, в соответствии с гипотезой авторов проекта, проявление интерференции материнских тюркских языков, наряду с традиционным морфологическим аннотированием в корпусе содержится разметка так называемых ошибок (error annotation). Такой тип разметки осуществляется в практике мировой корпусной лингвистики при создании корпусов «неносителей языка», включающих, как отмечает М. Копотев, многоуровневую разметку, тэги которой фиксируют ошибки в употреблении единиц разных языковых уровней, а также «источник ошибки: внутриязыковое, межъязыковое влияние» [4. С. 106].

При разработке системы аннотирования данного типа мы используем другой термин – «отклонения от речевого стандарта» (ОРС), так как в корпусе представлена речь носителей разных форм русского национального языка: литературной, диалектной просторечной, речевые практики которых соответствуют нормам соответствующих подсистем, не являясь «ошибками». В качестве стандарта приняты нормы русской письменной литературной речи, на основе которой формировались принципы грамматического описания языка в «Грамматическом словаре русского языка» А.А. Зализняка. На основе этих принципов как отмечалось, действует система автоматической морфологической разметки «Mystem». Корпус представляет собой записи устной речи, вследствие этого ряд отклонений от стандарта письменной речи обусловливается устным, спонтанным характером коммуникации. Фиксация таких отклонений, на наш взгляд, расширяет информативные возможности корпуса за счет аннотирования маркеров разговорности коммуникации.

При создании представляемого корпуса русскоязычной билингвальной речи применяются два вида маркирования «ошибок»: в соответствии с уровнями языковой системы и источниками ОРС.

При разработке системы маркирования отклонений от речевого стандарта мы ориентировались на существующую систему разметки в близких по направленности корпусах, среди которых назовем, прежде всего, Русский учебный корпус (RLC) [5], разрабатываемый членами Лаборатории по корпусным исследованиям НИУ ВШЭ под руководством Е. Рахилиной.

Земская Е.А., Китайгородская М.В., Ширяев Е.Н. Русская разговорная речь. Общие вопросы. Словообразование. Синтаксис. М.: Наука, 1981. 276 с.

Система разметки ошибок в RLC ориентирована на письменную речь, на анализ речевых практик прежде всего учебных билингвов, поэтому центральным термином является термин «речевая ошибка», так как привлекаются тексты, порождаемые в учебной деятельности и оцениваемые с точки зрения соответствия письменным нормам современного русского языка. В проекте разработана сложно организованная система тэгов, маркирующих ошибки в использовании единиц всех уровней письменной речи: морфологические, например Num – употребление слова в неверной числовой форме (несоответствующей контексту или аномальной для этого слова); синтаксические, например, Conj – ошибка в употреблении союза; лексические, например, Par – ошибки в использовании паронимов, а также орфографические и пунктуационные [5].

«Корпус контактно-обусловленной русской речи билингвов – носителей малых языков Севера Сибири и Дальнего Востока», создаваемый в рамках проекта «Динамика языковых контактов в циркумполярном регионе» (Н.М. Стойнова, П.С. Плешак, И.А. Хомченкова), более близок по направленности к разрабатываемому, однако как действующий корпус он еще не представлен, система тэгов также находится в состоянии разработки, приведем некоторые из них: number – нестандартное употребление числовой формы существительных, agr_adj – рассогласование по роду, числу, падежу: адъективы; calque – лексическая калька; pros – нестандартная интонация: потенциальная калька [6].

В Корпусе устной речи русско-тюркских билингвов Южной Сибири также принято поуровневое представление отклонений от речевого стандарта. При выборе системы тэгов мы ориентировались на вариант, представленный в RLC, по мере необходимости добавляя новые маркеры ОРС, действуя в той же логике обозначений.

Основное отличие в составе маркеров от RLC определяется различием фиксируемой формы речи: письменной – в RLC, устной – в корпусе речи билингвов, следствием чего является отсутствие тэгов орфографических и пунктуационных ошибок и введение помет, фиксирующих отклонения в области фонетики.

Отличия от представленного проекта разметки в Корпусе контактно-обусловленной русской речи содержатся в конкретных решениях размечаемых групп отклонений от речевого стандарта. Далее охарактеризуем тэги, их обоснование, а также фрагменты текстов с соответствующими тэгами.

Теги корпуса устной речи русско-тюркских билингвов Южной Сибири

Как и в RLC, в Корпусе устной речи русско-тюркских билингвов Южной Сибири используем сокращенные варианты англоязычных терминов: Phon – phonetics, фонетика; Synt – syntax, синтаксис, Morph – morphology, морфология, Lex – lexis, лексика; Der – derivation, деривация (словообразование); Disc – discurs, дискурс; Sem – semantics, семантика; Acc – accent, ударение, Iinfl – inflexion, окончание; Aff – affix, аффикс; Decl – declension, склонение, Agr – agreement, согласование; Gov – government, управление; Id – idiom, идиома (устойчивые сочетания разных типов); Prep – preposition, предлог; Gen – Gender, грамматический род, Num – number, грамматическое число, Сon – construction, конструкция, нарушения согласования в пределах простого и сложного предложения; Red – reduction, редукция и т.д. При этом принята система одного или двух уровней квалификации ОРС, в незначительном количестве случаев представлен третий уровень конкретизации, что мотивируется необходимостью отражения интерферентных явлений. На первом уровне маркируется уровень языковой системы, к которому относится частный вариант ОРС: Phon – фонетика, Morph – морфология, Synt – синтаксис, Lex – лексика, Disk – дискурс; на втором уровне – конкретное языковое явление: PhonAcc – фонетика, ударение; MorphInfl – морфология, флексия; SyntGov – син- таксис, управление и т.д. (базовый вариант отклонения дополнительно не маркируется, например, маркер Phon отмечает все варианты отклонений в произношении звуков, а маркер PhonAcc – фонетика, ударение). На третьем уровне отражаются варианты отклонений при использовании единиц конкретного языкового уровня, их форм: SyntAgrGen – отклонения от речевого стандарта в согласовании по роду.

В качестве явлений фонетического уровня маркируются особенности произношения отдельных слов, позиционно обусловленные особенности произношения звуков, характерные для формы национального языка, редукция звуковой оболочки слов – нормы разговорной речи, особенности ударения и др. Морфологическими тэгами маркируются отклонения от норм грамматической категоризации слов и форм слова, отклонения от норм литературного письменного языка в выборе вариантов морфологических аффиксов, синонимическая замена морфологических формантов, варианты образования и использования маркеров определенной грамматической категории и под.

К деривационным явлениям относим отклонения от норм образования конкретных слов, образование слов по синонимичной словообразовательной модели, использование вариантных форм деривационных аффиксов и под.

В качестве синтаксических явлений маркируем отклонение от норм литературной письменной речи в выборе форм согласования, управления, порядка слов, синтаксических связей в составе простого и сложного предложения.

К лексическим явлениям относим использование в речи диалектных, просторечных, других региональных межсистемных синонимов, в том числе заимствований из материнских языков, проявление интерферентных явлений. К лексическому уровню в соответствии со сложившейся традицией относим также особенности употребления фразеологизмов, вариантные формы, идиомы-диалектизмы и пр.

В качестве дискурсивных явлений отмечается использование различного рода маркеров дискурсивной связности, заполнителей пауз, особенностей ритмической организации речи.

Таблица 1. Образцы тэгов, маркирующих ОРС на разных языковых уровнях

В табл. 1 представлены образцы тэгов, маркирующих ОРС на разных языковых уровнях.

Таблица 1. Образцы тэгов, маркирующих ОРС на разных языковых уровнях

В речи билингвов при использовании слов и построении высказываний могут быть проявлены отклонения от речевого стандарта на нескольких языковых уровнях, репрезентированных в одной языковой единице, в таком случае используется комбинация тэгов. Примеры сочетания тэгов представлены в табл. 2.

Таблица 2. Примеры сочетания тэгов

Как было отмечено ранее, аннотирование отклонений от речевого стандарта включает также тэги источника отклонения, в корпусе маркируется внутриязыковое и межъязыковое влияние. Данный тип маркирования обусловлен направленностью создаваемого корпуса на фиксацию речевых практик билингвов, на выявление факторов, определяющих характер и степень проявления интерференции на всех языковых уровнях.

Маркировка отклонений от речевого стандарта

Носители билингвизма, речевые практики которых представлены в корпусе устной речи русско-тюркских билингвов Южной Сибири, принадлежат к разным возрастным и социальным группам, имеют различное образование и являются носителями разных вариантов русского языка: литературного, диалектного, диалектно-просторечного, просторечного.

Русские говоры Среднего Приобья. Ч. 2 / под ред. В.В. Палагиной. Томск: Изд-во Том. ун-та, 1989. 323 с.

При классификации ОРС в данном аспекте мы ориентировались на работы, в которых содержится анализ особенностей русской разговорной речи на всех уровнях языка ( [7], [8], [9] и др.), русских сибирских говоров и городского просторечия ( [10], [11], [12], [13], [14] и др.); на работы по теории интерференции и типологии тюркских языков ( [15], [16], [17], [18] и др.) и работы по языковому контактированию исследуемого региона ( [19], [20], [21] и др.).

Отклонения от речевого стандарта, являющиеся проявлением регионального варианта современного русского языка, маркируются тэгом [Reg] – regional, региональный, который объединяет все проявления региональных вариантов – сибирские говоры, сибирский вариант городского просторечия, региональные варианты литературного языка. Как было отмечено ранее, заключение о внутрисистемном источнике отклонений от стандарта литературного языка выносится на основе данных, зафиксированных в работах, посвященных описанию рассматриваемых подсистем русского языка.

Решение не дифференцировать в разметке, является ли отклонение отражением диалектной, диалектно-просторечной, просторечной речи или проявлением регионального варианта русского литературного языка, определяется тем, что в настоящее время границы между первыми тремя формами существования языка размыты, тем, что некоторые черты диалектной речи могут проникать и в речевые практики носителей литературного языка, например, так называемое чёканье произношение: чё, чё-то и под.

Отклонения от речевого стандарта, проявления влияния структурных особенностей материнского языка билингва обозначаем тэгом [Int] – interference, интерференция. Однако в том случае, когда характер таких влияний не представляется очевидным, данный тип тэга пропускается. Отражения общих закономерностей устной спонтанной разговорной речи в корпусе дополнительными тэгами не маркируются.

Примеры аннотирования с использованием двух типов тэгов представлены в табл. 3.

Таблица 3. Примеры сочетания тэгов двух типов в аннотировании

На рис. 1 представлен вариант совмещения фонетического трека, записанного текста, его морфологической разметки и разметки ОРС, реализованный в программу ELAN.

Рис. 1. Фрагмент размеченного корпуса устной речи русско-тюркских билингвов Южной Сибири

Заключение

Таким образом, морфологическое аннотирование и разметка отклонений от речевого стандарта определяют широкий диапазон поисковой системы корпуса, возможность использования его данных при исследовании единиц разных уровней языковой системы, проявленных в регионально ограниченной речи носителей русско-тюркского билингвизма. Соединение с системой метаразметки, принятой в корпусе [1], [2], расширяет возможности анализа за счет соотнесения типов отклонения с типами билингвизма, социокультурными типами говорящих.

З.И. Резанова

Список литературы

  1. Резанова З.И. Подкорпус устной речи русско-тюркских билингвов Южной Сибири: типологически релевантные признаки // Вопросы лексикографии. 2017.№ 11. C. 105–118.
  2. Резанова З.И., Некрасова Е.Д., Миклашевский А.А. Исследование психолингвистических и когнитивных аспектов языкового контактирования в проекте «Языковое и этнокультурное разнообразие Южной Сибири в синхронии и диахронии: взаимодействие языков и культур» // Русин. 2018. № 2 (52). С. 107–117.
  3. Зализняк А.А. Грамматический словарь русского языка: Словоизменение. М.: Рус. яз., 1980. 880 с.
  4. Копотев М. Введение в корпусную лингвистику. Praha : Animedia Company, 2014. 195 с.
  5. RLC. Русский учебный корпус.
  6. Корпус контактно-обусловленной русской речи.
  7. Земская Е.А., Китайгородская М.В., Ширяев Е.Н. Русская разговорная речь. Общие вопросы. Словообразование. Синтаксис. М.: Наука, 1981. 276 с.
  8. Русская разговорная речь / отв. ред. Е.А. Земская. М. : Наука, 1973. 485 с.
  9. Русская разговорная речь. Фонетика. Морфология. Лексика. Жест / отв. ред. Е.А. Земская. М.: Наука, 1983. 239 с.
  10. Русские говоры Среднего Приобья. Ч. 1 / под ред. В.В. Палагиной. Томск: Изд-во Том. ун-та, 1984. 201 с.
  11. Русские говоры Среднего Приобья. Ч. 2 / под ред. В.В. Палагиной. Томск: Изд-во Том. ун-та, 1989. 323 с.
  12. Араева Л.А. Говоры Кузбасса в их современном состоянии // Координационное совещание по проблемам изучения сибирских говоров кафедр русского языка вузов Сибири, Урала и Дальнего Востока. Красноярск, 1991. С. 38–65.
  13. Банкова Т.Б. Лексика томского городского просторечия (типология описания) : дис канд. филол. наук. Томск, 1987. 164 с.
  14. Блинова О.И. Просторечная лексика в системе местного диалекта // Лексикологический сборник. Барнаул, 1977. С. 68–83.
  15. Bacanlı E. Inflectional suppletion in Turkic languages // Folia Linguistica Historica. 2011. № 32. P. 1–42.
  16. Будренюк Г.М., Григоревский В.М. Языковая интерференция и методы ее выявления. Кишинев: Штиинца, 1978. 126 с.
  17. Сравнительно-историческая грамматика тюркских языков. Лексика. М. :Наука, 2001. 288 с.
  18. Сравнительно-историческая грамматика тюркских языков. Морфология. М.: Наука, 1988. 557 с.
  19. Гордеева О.И. Некоторые закономерности влияния родного языка на усваиваемый язык в процессе становления двуязычия (на материале русского и татарского сибирских говоров): дис канд. филол. наук. Томск, 1965. 239 с.
  20. Гордеева О.И. Об освоении татарами грамматической категории рода существительных в условиях русского старожильческого окружения // Лингвистический сборник. Томск, 1962. С. 29–34.
  21. Абдрахманов М.А. К вопросу о закономерностях диалектноязыкового смешения (на материале тюркского говора дер. Эушта Томского района: дис. ...канд. филол. наук. Томск, 1960. 261 с.