Томский диалектный корпус

Материал из НБ ТГУ
Перейти к: навигация, поиск

Томский диалектный корпус как электронный лингвистический ресурс

Томский диалектный корпус
]

Томский диалектный корпус (ТДК) – электронный ресурс, целью которого является оптимизация процесса работы с материалами диалектологических экспедиций за счёт разметки текстов и автоматизации поиска. Корпус создаётся на основе записей речи сельских жителей, сделанных в сибирском регионе по среднему течению р. Оби (Томская и частично Кемеровская области) на протяжении 70 лет: с 40-х годов ХХ века до настоящего времени. Концепция Томского диалектного корпуса была предложена Е.А. Юриной в 2010 г. Центральное положение занимала морфологическая разметка, наряду с ней планировались и другие виды разметки – экстралингвистическая, тематическая, жанровая [12], однако данный проект не был реализован. Несколько изменённая концепция с акцентом на дискурсивной специфике диалекта была предложена Е.В. Иванцовой [8]. В соответствии с ней в сентябре 2017 г. была создана база данных MySQL с системой управления контентом (CMS) Drupal, представленная на сайте Лаборатории общей и сибирской лексикографии. С этого времени пополнение корпуса и развитие его концепции осуществляется под руководством С.С. Земичевой (консультант – Е.В. Иванцова) [3–8].

Архив, на базе которого создается ТДК

ТДК включает материалы двух регионов (Томская и Кемеровская область).

Материалы архива, использованного для создания ТДК, включают записи, сделанные в диалектологических экспедициях сотрудниками и студентами кафедры русского языка ТГУ с 1947 по 2018 гг.

Первая часть архива (1947–2004) представлена в виде рукописных тетрадей (более 1000); вторая (2008–2018) – в виде цифровых аудиозаписей (200 часов звучания) и их электронных расшифровок. К вводу в корпус подготовлено (набрано, выверено) 40% рукописных записей и 50% расшифровок последних лет. Введено в корпус (размечено) 15% рукописей и 40% расшифровок.

В связи с ориентацией корпуса на дискурсивное моделирование диалектной речи приоритет отдавался связным текстам устной речи, т.е. более новым записям. В результате соотношение «новой» (2008–2018) и «старой» частей архива по числу словоупотреблений к настоящему моменту составляет примерно 40% и 60% соответственно (468 347 словоупотреблений и 742385). Объём текстового архива в целом насчитывает более 6 000 000 словоупотреблений.

Кроме того, материалы архива включают некоторые свидетельства использования диалектных слов в письменных текстах (выписки из протоколов колхозных собраний, а также из школьных тетрадей), которые в перспективе также могут пополнить корпус.

ТДК ежегодно пополняется по результатам диалектологических экспедиций.

На данный момент (май 2019 г.) внесены записи из 60 населённых пунктов, сделанные на протяжении 70-летнего периода; представлено более 1000 информантов, более 70 часов звучания.

Если архивные материалы в целом сбалансированы, то в корпус они вводятся по мере набора, при этом приоритет отдаётся связным текстам. В результате цифры указывают на возрастание количества записей с каждым десятилетием: на период записи 50-х гг. приходится 75 текстов, период 60-х гг – 163 текста, период 70х гг – 257, 80-х – 349, 90-х – 35, 2000-х –110. При этом тексты, записанные в последние десятилетие, очень велики по объёму по сравнению с остальными. Слабее всего представлены материалы 90-х годов, когда диалектологические экспедиции проводились нерегулярно.

ТДК как особый диалектный корпусный ресурс

ТДК как электронный ресурс, обладающий особыми техническими характеристиками и особым образом отражающий структурную специфику диалектной речи

Чаще всего корпуса ориентированы на передачу структурных особенностей диалектной речи и маркирование отличий диалекта от литературного языка.

Как правило, центральной является морфологическая разметка, реже – фонетическая или синтаксическая.

Технические особенности позволяют выделить 3 типа электронных ресурсов, представляющих диалектную речь: «библиотека текстов», база данных, собственно корпус.

Цель создания «библиотеки текстов» – репрезентация текстов народно-речевой культуры. Основной возможностью является прослушивание аудиозаписей и/или чтение текстовых расшифровок. Они появились одними из первых. Яркими примерами являются «Электронная библиотека русских народных говоров», корпус английских диалектов Британии, собранный в г. Хельсинки, корпус устной сельской речи Испании и корпус польских диалектов.

База данных даёт возможность приписывать тексту экстралингвистические параметры (год, место записи и т.п.), осуществлять текстовую разметку (тема, жанр), а также производить поиск конкретной словоформы на всём массиве текстов. В то же время в таких корпусах, как правило, отсутствует лемматизация, а также часто не выявляется общий объём корпуса, что значительно затрудняет работу с ним. Электронный ресурс такого типа позволяет «осуществлять поиск с помощью запросов к базе данных, без необходимости разрабатывать программное обеспечение специально для анализа корпуса» [9, с. 186]. Примером является корпус лингвокультуры Северного Приангарья.

Собственно корпус (в узком смысле) отличает 1) лемматизация; 2) лингвистическая – фонетическая, морфологическая или синтаксическая – разметка, а также 3) статистические подсчёты. Эти возможности обеспечиваются специальной поисковой системой – корпусным менеджером (или корпус-менеджером) (англ. corpus manager). [2, с. 55–56]. Наличие лингвистической разметки позволяет исследовать диалектную фонетику и грамматику, осуществлять поиск по фонетическим/грамматическим/синтаксическим категориям, статистический аппарат – быстро обновлять и получать по запросу пользователя информацию об общем объёме корпуса, количестве вхождений в него той или иной единицы.

Относительно автономной, хотя и значимой технической характеристикой диалектного корпуса является мультимедийность. Чаще всего в состав корпуса включаются аудиозаписи, что отражает естественную форму существования диалекта как устной разновидности языка; кроме того, мультимедийная информация в корпусе может быть представлена фотографиями, видеозаписями. Элементом мультимедиа также является карта, позволяющая визуализировать географическую разметку. Все эти структурные элементы корпуса имеются в зарубежных испанском и болгарском диалектных корпусах, в России – в корпусе лингвокультуры Северного Приангарья. Мультимедийные данные могут быть представлены и в случае библиотеки текстов, и в базе данных, и в «собственно корпусе».

ТДК на сегодняшний день занимает промежуточное положение между базой данных и собственно корпусом: включает возможность лемматизации и количественных подсчётов, но не содержит морфологической разметки. При условии развития ТДК может стать корпусом «универсального» типа. Место ТДК в системе русских диалектных корпусов и баз данных по типам разметки, поисковым возможностям и количественным параметрам отражено в Таблице 1.

Таблица 1. Сравнительная характеристика русских диалектных корпусов и баз данных по типам разметки, поисковым возможностям и количественным параметрам

Возможности / Корпус Диалектный подкорпус НКРЯ корпус Северного Приангарья корпус говоров р. Устья ТДК
Тип доступа открытый открытый частично открытый закрытый (открыта демоверсия)
Поиск по экстралингвистическим данным + + +
Пословный поиск (точная форма слова) + + + +
Поиск по лемме + + +
Морфологическая разметка + +
Тематическая разметка + + +
Жанровая разметка + +
Подсчёт количества словоупотреблений при поиске + + +
Фотографии + +
Карта +–

ТДК как электронный ресурс, особым образом отражающий территориальную специфику диалектной речи

ТДК как электронный ресурс, особым образом отражающий территориальную специфику диалектной речи

Территориальная специфика диалекта отражается через разметку и возможность поиска по определённому региону. Такая разметка значима для сводных корпусов, представляющих материалы, собранные в разных регионах. Так, в диалектном подкорпусе НКРЯ (далее ДиалНКРЯ) представлено 22 региона России. Основная часть – северные: Архангельская, Вологодская области, респ. Карелия; центр: Тверская, Тульская, Ивановская обл., южные: Тамбовская, Рязанская обл.; Поволжье: Самарская, Саратовская, Волгоградская обл.). Почти не представлены: Урал (только Кировская обл.), Сибирь (только Забайкальский край), юг России, Кавказ.

В корпусах одного региона, к которым относится ТДК, территориальная разметка также может присутствовать.

ТДК является сбалансированным по территориальному признаку: разные группы говоров, выделенные в среднеобском диалекте (приобские, прикетские, притомские, нарымские) представлены достаточно равномерно, лишь группа причулымских говоров отражена несколько слабее остальных.

В ТДК отсутствует собственно разметка по типу говора, её роль выполняет географическая разметка. Так, нарымским говорам соответствует территория Парабельского и Каргасокского районов; прикетским говорам – Верхнекетский и Колпашевский районы; территория бытования приобских говоров приблизительно совпадает с границами Молчановского, Кривошеинского, Шегарского районов; граница притомских говоров – с Томский районом Томской области и северными районами Кемеровской области; причулымские говоры распространены в Асиновском, Зырянском, Тегульдетском. Туганском районах (по административному делению 1957 г.) [11, с. 30–31].

ТДК как электронный ресурс, особым образом отражающий социолингвистическую специфику диалектной речи

Диалектные корпуса, в отличие от региональных, обычно слабо сбалансированы по социолингвистическим параметрам, т.к. информанты относятся, в основном, к социальной группе жителей села пенсионного возраста (преимущественно женщин). Не является исключением и ТДК. В корпусе преобладают информанты старшего поколения, хотя эпизодически отражена речь представителей других возрастных групп. 2/3 информантов – женщины, 1/3 – мужчины. Основная часть материала – речь сибирских старожилов, носителей среднеобских говоров, в меньшей степени отражается речь переселенцев, новосёлов. В то же время достаточно сильно варьируется уровень образования информантов: от полностью неграмотных (записи 60-х гг) до людей с высшим образованием (новейшие записи).

ТДК как электронный ресурс, особым образом отражающий лингвокультурную специфику диалектной речи

ТДК как электронный ресурс, особым образом отражающий лингвокультурную специфику диалектной речи

Разработка концепции корпуса, нацеленного на отражение лингвокультурной специфики диалекта, принятой в ТДК, начата саратовскими лингвистами в полемике с создателями диалектного подкорпуса НКРЯ. Ее основные положения: 1) диалектный корпус должен быть полнотекстовым; 2) тексты диалектного корпуса должны сопровождаться энциклопедическими и лингвокультурологическими комментариями, которые сделают их понятными для пользователей корпуса, принадлежащим к иной культурной среде [10, с. 362–363]; 3) в диалектном корпусе должна быть реализована разметка по теме и жанру, отражающая специфику диалектной коммуникации.

В ТДК, как и почти во всех созданных или проектируемых диалектных корпусах русского языка, присутствует тематическая разметка. В диалектных корпусах она является значительно более детализированной по сравнению с разметкой НКРЯ. Так, в НКРЯ выделено 27 общих тем, 55 – с учётом «подтем», в Диалектном подкорпусе НКРЯ – 14 общих тем, 58 – с учётом подтем. При этом списки тем в НКРЯ и его диалектном подкорпусе совпадают лишь частично: 9 тем можно считать совпадающими полностью: армия и вооружённые конфликты (в формулировке диалектного подкорпуса – война), досуг, здоровье и медицина, культура (различаются формулировки: Искусство и культура – Духовная культура), криминал, образование, политика и общественная жизнь, природа, частная жизнь (в формулировке диалектного подкорпуса – Быт. Жизнь); 7 тем совпадает частично: например, теме Религия в НКРЯ в диалектном подкорпусе частично соответствует Народное православие; 13 тем не совпадает, при этом бо'льшая часть из них представлена в НКРЯ и отсутствует в диалектном подкорпусе: администрация и управление; бизнес, коммерция, экономика, финансы; путешествия; спорт; философия; наука и технологии и др. Соответствующие им сферы жизни не актуальны для диалектной коммуникации. Совпадающие темы различаются по степени детализации. В НКРЯ наиболее детализированы темы, связанные с наукой, в диалектном подкорпусе НКРЯ и ТДК более дробно представлены темы природа, духовная культура, что отражает как специфику текстов, включённых в состав корпусов, так и различия в теоретических подходах их составителей к тематической разметке.

Как правило, тематическая разметка при создании корпуса проектируется одной из первых. Идея особой тематической разметки диалектного корпуса была предложена саратовскими лингвистами. Специфика такой разметки, по мнению исследователей, заключается в том, что единицей тематической разметки должен служить фрагмент текста, в то время как единицей выдачи – текст в целом [1].

Тематическая разметка в ТДК является на данный момент центральной. В первоначальной концепции корпуса перечень тем включал 52 пункта: Семья. Односельчане. Любовные связи. Чужие (буряты, хакасы, татары, ссыльные, городские и т. д.). История села. Город. Дом. Постройки. Труд. Колхоз. Орудия труда. Профессия. Огород. Сенокос. Картофель. Лён. Животноводство. Пчеловодство. Кедровый промысел. Рыбалка. Охота. Лесозаготовка. Строительство. Ремесло. Ягоды. Грибы. Цветы и травы. Болезни и лечение. Еда. Посуда. Одежда. Пьянство. Церковь. Колдовство и суеверия. Приметы. Обряды. Сватовство. Свадьба. Похороны. Крестины. Праздники. Развлечения. Погода. Природа. Политика. Исторические личности. Война. Революция. Коллективизация. Происшествия. Оценка современности. Оценка человека [12, с. 61].

Принципы тематической разметки ТДК были более подробно разработаны Е.В. Иванцовой [8], первоначальный список был значительно скорректирован. Исключены «приметы», «оценка современности» и «оценка человека»; устранён ряд частных тем, таких как «Картофель», «Ягоды», «Грибы», «Постройки», «Посуда»; сформирован иерархический список макротем, включающий разделы РАБОТА, БЫТ, ЧЕЛОВЕК ДУХОВНЫЙ и др.; часть тем переименована – приведена в соответствие лексикону диалектоносителей (например: «Животноводство» –> «Выращивание животных»), а также чтобы включать новое содержание (например, «Сенокос» –> «Заготовка кормов», т.к. «кормом» может быть сено и силос; «Семья» –> «Семья и родственники»; «Любовные связи» -> «Межличностные отношения», что предполагает также описание дружбы, конфликтов, вражды).

В ходе работы в 2017–2018 гг. под руководством С.С. Земичевой перечень тем был скорректирован ещё раз. Основным принципом стала детализация ряда тем в соответствии с запросами пользователей. В частности, в макротему «Работа» добавлена тема «Профессия», в макротеме «Человек духовный» выделена тема «Характер человека». Значительно детализирована макротема «Природа»: добавлены микротемы «Рельеф», «Вода в природе», «Домашние животные», «Дикие животные», «Гнус». Эти изменения, с нашей точки зрения, сделают поиск по теме более эффективным, помогая быстрее найти нужные фрагменты.

Принципы работы также были скорректированы на основе проведённой апробации. Она сводятся к следующему:

  1. тема маркируется на уровне отдельного текстового фрагмента, а не текста в целом; тема всего текста не маркируется;
  2. разметка сплошная; при невозможности определить тему фрагмента он помечается как «атематический»;
  3. темы маркируются вручную на основе заранее составленного перечня;
  4. список тем иерархичен, насчитывает 3 уровня обобщения: макротема – тема – микротема;
  5. выделено 16 макротем, общий список тем включает 72 наименования;
  6. используется «мягкая» разметка с возможностью присвоения одному и тому же фрагменту нескольких тематических меток;
  7. есть возможность дополнения списка, разметка циклична: от текстов – к списку, от списка – к текстам;
  8. содержание текстов в рамках конкретной темы уточняется в ходе разметки корпуса;
  9. хронотоп (место и время описываемых событий) является частью тематической разметки;
  10. при разработке перечня учитывается совмещение с другими типами поиска (например, не маркируются темы, фрагменты которых можно найти по ключевым словам);
  11. на странице текста представлен перечень затронутых в нём тем (в порядке их появления), при выборе конкретной темы из списка соответствующий фрагмент целостного текста будет подсвечен;
  12. при поиске находятся все тексты, где есть данная тема.

С.С. Земичева

Литература и источники

  1. Гольдин В.Е., Крючкова О.Ю. Тематическая разметка и тематический анализ диалектного текстового корпуса // Языковая личность – текст – дискурс: теоретические и прикладные аспекты исследования: материалы международной научной конференции: в 2 ч. Самара, 2006. Ч. 1. С. 71–80.
  2. Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. Иркутск: ИГЛУ, 2011. 161 с.
  3. Земичева C.C. Томский диалектный корпус: актуальная форма представления традиционного материала // Естественнонаучные методы в цифровой гуманитарной среде: Материалы Всероссийской научной конференции с международным участием (г. Пермь, 15–18 мая 2018 г.). Пермь, 2018. С. 88–90.
  4. Земичева С.С. Взаимосвязь тематики диалектного текста и пола говорящего (на материале Томского диалектного корпуса) // Актуальные проблемы и перспективы русистики (Материалы по итогам Международной конференции русистов в Барселонском университете, 20-22 июня 2018). Barcelona: Trialba Ediciones, 2018. С. 491–500.
  5. Земичева С.С. Томский диалектный корпус: сбалансированность и репрезентативность // Материалы студенческой сессии междунар. конференции «Диалог». Москва, 2018.
  6. Земичева С.С. Томский диалектный корпус: проблемы и перспективы // Материалы междунар. конференции «Диалог». Москва, 2019.
  7. Земичева С.С., Иванцова Е.В. Проект создания Томского диалектного корпуса в свете тенденций развития корпусной лингвистики / С.С. Земичева, // Сибирский филологический журнал. № 3. – 2018. С. 192–205.
  8. Иванцова Е.В. Томский диалектный корпус: обоснование концепции и перспективы развития // Вопросы лексикографии. 2017. № 11. С. 54–70.
  9. Копотев М.В. Введение в корпусную лингвистику. Учебное пособие для студентов филологических и лингвистических специальностей университетов / М. В. Копотев. Прага, 2014. 195 с.
  10. Крючкова О.Ю., Гольдин В.Е. Корпус русской диалектной речи: концепция и параметры оценки // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Бекасово, 25–29 мая 2011 г. М., 2011. Вып. 10 (17). С. 359–367.
  11. Русские говоры Среднего Приобья / под ред. В.В. Палагиной. Томск: Изд-во Том. ун-та, 1984. Ч. 1. 208 с.
  12. Юрина Е.А. Томский диалектный корпус: в начале пути // Вестник Томского государственного университета. Филология. 2011. № 2 (14). С. 58–63.