Томский диалектный корпус
Содержание
- 1 Томский диалектный корпус как электронный лингвистический ресурс
- 2 Архив, на базе которого создается ТДК
- 3 ТДК как особый диалектный корпусный ресурс
- 3.1 ТДК как электронный ресурс, обладающий особыми техническими характеристиками и особым образом отражающий структурную специфику диалектной речи
- 3.2 ТДК как электронный ресурс, особым образом отражающий территориальную специфику диалектной речи
- 3.3 ТДК как электронный ресурс, особым образом отражающий социолингвистическую специфику диалектной речи
- 3.4 ТДК как электронный ресурс, особым образом отражающий лингвокультурную специфику диалектной речи
- 4 Литература и источники
Томский диалектный корпус как электронный лингвистический ресурс
]Томский диалектный корпус (ТДК) – электронный ресурс, целью которого является оптимизация процесса работы с материалами диалектологических экспедиций за счёт разметки текстов и автоматизации поиска. Корпус создаётся на основе записей речи сельских жителей, сделанных в сибирском регионе по среднему течению р. Оби (Томская и частично Кемеровская области) на протяжении 70 лет: с 40-х годов ХХ века до настоящего времени. Концепция Томского диалектного корпуса была предложена Е.А. Юриной в 2010 г. Центральное положение занимала морфологическая разметка, наряду с ней планировались и другие виды разметки – экстралингвистическая, тематическая, жанровая [12], однако данный проект не был реализован. Несколько изменённая концепция с акцентом на дискурсивной специфике диалекта была предложена Е.В. Иванцовой [8]. В соответствии с ней в сентябре 2017 г. была создана база данных MySQL с системой управления контентом (CMS) Drupal, представленная на сайте Лаборатории общей и сибирской лексикографии. С этого времени пополнение корпуса и развитие его концепции осуществляется под руководством С.С. Земичевой (консультант – Е.В. Иванцова) [3–8].
Архив, на базе которого создается ТДК
ТДК включает материалы двух регионов (Томская и Кемеровская область).
Материалы архива, использованного для создания ТДК, включают записи, сделанные в диалектологических экспедициях сотрудниками и студентами кафедры русского языка ТГУ с 1947 по 2018 гг.
Первая часть архива (1947–2004) представлена в виде рукописных тетрадей (более 1000); вторая (2008–2018) – в виде цифровых аудиозаписей (200 часов звучания) и их электронных расшифровок. К вводу в корпус подготовлено (набрано, выверено) 40% рукописных записей и 50% расшифровок последних лет. Введено в корпус (размечено) 15% рукописей и 40% расшифровок.
В связи с ориентацией корпуса на дискурсивное моделирование диалектной речи приоритет отдавался связным текстам устной речи, т.е. более новым записям. В результате соотношение «новой» (2008–2018) и «старой» частей архива по числу словоупотреблений к настоящему моменту составляет примерно 40% и 60% соответственно (468 347 словоупотреблений и 742385). Объём текстового архива в целом насчитывает более 6 000 000 словоупотреблений.
Кроме того, материалы архива включают некоторые свидетельства использования диалектных слов в письменных текстах (выписки из протоколов колхозных собраний, а также из школьных тетрадей), которые в перспективе также могут пополнить корпус.
ТДК ежегодно пополняется по результатам диалектологических экспедиций.
На данный момент (май 2019 г.) внесены записи из 60 населённых пунктов, сделанные на протяжении 70-летнего периода; представлено более 1000 информантов, более 70 часов звучания.
Если архивные материалы в целом сбалансированы, то в корпус они вводятся по мере набора, при этом приоритет отдаётся связным текстам. В результате цифры указывают на возрастание количества записей с каждым десятилетием: на период записи 50-х гг. приходится 75 текстов, период 60-х гг – 163 текста, период 70х гг – 257, 80-х – 349, 90-х – 35, 2000-х –110. При этом тексты, записанные в последние десятилетие, очень велики по объёму по сравнению с остальными. Слабее всего представлены материалы 90-х годов, когда диалектологические экспедиции проводились нерегулярно.
ТДК как особый диалектный корпусный ресурс
ТДК как электронный ресурс, обладающий особыми техническими характеристиками и особым образом отражающий структурную специфику диалектной речи
Чаще всего корпуса ориентированы на передачу структурных особенностей диалектной речи и маркирование отличий диалекта от литературного языка.
Как правило, центральной является морфологическая разметка, реже – фонетическая или синтаксическая.
Технические особенности позволяют выделить 3 типа электронных ресурсов, представляющих диалектную речь: «библиотека текстов», база данных, собственно корпус.
Цель создания «библиотеки текстов» – репрезентация текстов народно-речевой культуры. Основной возможностью является прослушивание аудиозаписей и/или чтение текстовых расшифровок. Они появились одними из первых. Яркими примерами являются «Электронная библиотека русских народных говоров», корпус английских диалектов Британии, собранный в г. Хельсинки, корпус устной сельской речи Испании и корпус польских диалектов.
База данных даёт возможность приписывать тексту экстралингвистические параметры (год, место записи и т.п.), осуществлять текстовую разметку (тема, жанр), а также производить поиск конкретной словоформы на всём массиве текстов. В то же время в таких корпусах, как правило, отсутствует лемматизация, а также часто не выявляется общий объём корпуса, что значительно затрудняет работу с ним. Электронный ресурс такого типа позволяет «осуществлять поиск с помощью запросов к базе данных, без необходимости разрабатывать программное обеспечение специально для анализа корпуса» [9, с. 186]. Примером является корпус лингвокультуры Северного Приангарья.
Собственно корпус (в узком смысле) отличает 1) лемматизация; 2) лингвистическая – фонетическая, морфологическая или синтаксическая – разметка, а также 3) статистические подсчёты. Эти возможности обеспечиваются специальной поисковой системой – корпусным менеджером (или корпус-менеджером) (англ. corpus manager). [2, с. 55–56]. Наличие лингвистической разметки позволяет исследовать диалектную фонетику и грамматику, осуществлять поиск по фонетическим/грамматическим/синтаксическим категориям, статистический аппарат – быстро обновлять и получать по запросу пользователя информацию об общем объёме корпуса, количестве вхождений в него той или иной единицы.
Относительно автономной, хотя и значимой технической характеристикой диалектного корпуса является мультимедийность. Чаще всего в состав корпуса включаются аудиозаписи, что отражает естественную форму существования диалекта как устной разновидности языка; кроме того, мультимедийная информация в корпусе может быть представлена фотографиями, видеозаписями. Элементом мультимедиа также является карта, позволяющая визуализировать географическую разметку. Все эти структурные элементы корпуса имеются в зарубежных испанском и болгарском диалектных корпусах, в России – в корпусе лингвокультуры Северного Приангарья. Мультимедийные данные могут быть представлены и в случае библиотеки текстов, и в базе данных, и в «собственно корпусе».
ТДК на сегодняшний день занимает промежуточное положение между базой данных и собственно корпусом: включает возможность лемматизации и количественных подсчётов, но не содержит морфологической разметки. При условии развития ТДК может стать корпусом «универсального» типа. Место ТДК в системе русских диалектных корпусов и баз данных по типам разметки, поисковым возможностям и количественным параметрам отражено в Таблице 1.
Таблица 1. Сравнительная характеристика русских диалектных корпусов и баз данных по типам разметки, поисковым возможностям и количественным параметрам
Возможности / Корпус | Диалектный подкорпус НКРЯ | корпус Северного Приангарья | корпус говоров р. Устья | ТДК |
Тип доступа | открытый | открытый | частично открытый | закрытый (открыта демоверсия) |
Поиск по экстралингвистическим данным | + | + | – | + |
Пословный поиск (точная форма слова) | + | + | + | + |
Поиск по лемме | + | – | + | + |
Морфологическая разметка | + | – | + | – |
Тематическая разметка | + | + | – | + |
Жанровая разметка | + | + | – | – |
Подсчёт количества словоупотреблений при поиске | + | – | + | + |
Фотографии | – | + | – | + |
Карта | – | – | – | +– |
ТДК как электронный ресурс, особым образом отражающий территориальную специфику диалектной речи
Территориальная специфика диалекта отражается через разметку и возможность поиска по определённому региону. Такая разметка значима для сводных корпусов, представляющих материалы, собранные в разных регионах. Так, в диалектном подкорпусе НКРЯ (далее ДиалНКРЯ) представлено 22 региона России. Основная часть – северные: Архангельская, Вологодская области, респ. Карелия; центр: Тверская, Тульская, Ивановская обл., южные: Тамбовская, Рязанская обл.; Поволжье: Самарская, Саратовская, Волгоградская обл.). Почти не представлены: Урал (только Кировская обл.), Сибирь (только Забайкальский край), юг России, Кавказ.
В корпусах одного региона, к которым относится ТДК, территориальная разметка также может присутствовать.
ТДК является сбалансированным по территориальному признаку: разные группы говоров, выделенные в среднеобском диалекте (приобские, прикетские, притомские, нарымские) представлены достаточно равномерно, лишь группа причулымских говоров отражена несколько слабее остальных.
В ТДК отсутствует собственно разметка по типу говора, её роль выполняет географическая разметка. Так, нарымским говорам соответствует территория Парабельского и Каргасокского районов; прикетским говорам – Верхнекетский и Колпашевский районы; территория бытования приобских говоров приблизительно совпадает с границами Молчановского, Кривошеинского, Шегарского районов; граница притомских говоров – с Томский районом Томской области и северными районами Кемеровской области; причулымские говоры распространены в Асиновском, Зырянском, Тегульдетском. Туганском районах (по административному делению 1957 г.) [11, с. 30–31].
ТДК как электронный ресурс, особым образом отражающий социолингвистическую специфику диалектной речи
Диалектные корпуса, в отличие от региональных, обычно слабо сбалансированы по социолингвистическим параметрам, т.к. информанты относятся, в основном, к социальной группе жителей села пенсионного возраста (преимущественно женщин). Не является исключением и ТДК. В корпусе преобладают информанты старшего поколения, хотя эпизодически отражена речь представителей других возрастных групп. 2/3 информантов – женщины, 1/3 – мужчины. Основная часть материала – речь сибирских старожилов, носителей среднеобских говоров, в меньшей степени отражается речь переселенцев, новосёлов. В то же время достаточно сильно варьируется уровень образования информантов: от полностью неграмотных (записи 60-х гг) до людей с высшим образованием (новейшие записи).
ТДК как электронный ресурс, особым образом отражающий лингвокультурную специфику диалектной речи
Разработка концепции корпуса, нацеленного на отражение лингвокультурной специфики диалекта, принятой в ТДК, начата саратовскими лингвистами в полемике с создателями диалектного подкорпуса НКРЯ. Ее основные положения: 1) диалектный корпус должен быть полнотекстовым; 2) тексты диалектного корпуса должны сопровождаться энциклопедическими и лингвокультурологическими комментариями, которые сделают их понятными для пользователей корпуса, принадлежащим к иной культурной среде [10, с. 362–363]; 3) в диалектном корпусе должна быть реализована разметка по теме и жанру, отражающая специфику диалектной коммуникации.
В ТДК, как и почти во всех созданных или проектируемых диалектных корпусах русского языка, присутствует тематическая разметка. В диалектных корпусах она является значительно более детализированной по сравнению с разметкой НКРЯ. Так, в НКРЯ выделено 27 общих тем, 55 – с учётом «подтем», в Диалектном подкорпусе НКРЯ – 14 общих тем, 58 – с учётом подтем. При этом списки тем в НКРЯ и его диалектном подкорпусе совпадают лишь частично: 9 тем можно считать совпадающими полностью: армия и вооружённые конфликты (в формулировке диалектного подкорпуса – война), досуг, здоровье и медицина, культура (различаются формулировки: Искусство и культура – Духовная культура), криминал, образование, политика и общественная жизнь, природа, частная жизнь (в формулировке диалектного подкорпуса – Быт. Жизнь); 7 тем совпадает частично: например, теме Религия в НКРЯ в диалектном подкорпусе частично соответствует Народное православие; 13 тем не совпадает, при этом бо'льшая часть из них представлена в НКРЯ и отсутствует в диалектном подкорпусе: администрация и управление; бизнес, коммерция, экономика, финансы; путешествия; спорт; философия; наука и технологии и др. Соответствующие им сферы жизни не актуальны для диалектной коммуникации. Совпадающие темы различаются по степени детализации. В НКРЯ наиболее детализированы темы, связанные с наукой, в диалектном подкорпусе НКРЯ и ТДК более дробно представлены темы природа, духовная культура, что отражает как специфику текстов, включённых в состав корпусов, так и различия в теоретических подходах их составителей к тематической разметке.
Как правило, тематическая разметка при создании корпуса проектируется одной из первых. Идея особой тематической разметки диалектного корпуса была предложена саратовскими лингвистами. Специфика такой разметки, по мнению исследователей, заключается в том, что единицей тематической разметки должен служить фрагмент текста, в то время как единицей выдачи – текст в целом [1].
Тематическая разметка в ТДК является на данный момент центральной. В первоначальной концепции корпуса перечень тем включал 52 пункта: Семья. Односельчане. Любовные связи. Чужие (буряты, хакасы, татары, ссыльные, городские и т. д.). История села. Город. Дом. Постройки. Труд. Колхоз. Орудия труда. Профессия. Огород. Сенокос. Картофель. Лён. Животноводство. Пчеловодство. Кедровый промысел. Рыбалка. Охота. Лесозаготовка. Строительство. Ремесло. Ягоды. Грибы. Цветы и травы. Болезни и лечение. Еда. Посуда. Одежда. Пьянство. Церковь. Колдовство и суеверия. Приметы. Обряды. Сватовство. Свадьба. Похороны. Крестины. Праздники. Развлечения. Погода. Природа. Политика. Исторические личности. Война. Революция. Коллективизация. Происшествия. Оценка современности. Оценка человека [12, с. 61].
Принципы тематической разметки ТДК были более подробно разработаны Е.В. Иванцовой [8], первоначальный список был значительно скорректирован. Исключены «приметы», «оценка современности» и «оценка человека»; устранён ряд частных тем, таких как «Картофель», «Ягоды», «Грибы», «Постройки», «Посуда»; сформирован иерархический список макротем, включающий разделы РАБОТА, БЫТ, ЧЕЛОВЕК ДУХОВНЫЙ и др.; часть тем переименована – приведена в соответствие лексикону диалектоносителей (например: «Животноводство» –> «Выращивание животных»), а также чтобы включать новое содержание (например, «Сенокос» –> «Заготовка кормов», т.к. «кормом» может быть сено и силос; «Семья» –> «Семья и родственники»; «Любовные связи» -> «Межличностные отношения», что предполагает также описание дружбы, конфликтов, вражды).
В ходе работы в 2017–2018 гг. под руководством С.С. Земичевой перечень тем был скорректирован ещё раз. Основным принципом стала детализация ряда тем в соответствии с запросами пользователей. В частности, в макротему «Работа» добавлена тема «Профессия», в макротеме «Человек духовный» выделена тема «Характер человека». Значительно детализирована макротема «Природа»: добавлены микротемы «Рельеф», «Вода в природе», «Домашние животные», «Дикие животные», «Гнус». Эти изменения, с нашей точки зрения, сделают поиск по теме более эффективным, помогая быстрее найти нужные фрагменты.
Принципы работы также были скорректированы на основе проведённой апробации. Она сводятся к следующему:
- тема маркируется на уровне отдельного текстового фрагмента, а не текста в целом; тема всего текста не маркируется;
- разметка сплошная; при невозможности определить тему фрагмента он помечается как «атематический»;
- темы маркируются вручную на основе заранее составленного перечня;
- список тем иерархичен, насчитывает 3 уровня обобщения: макротема – тема – микротема;
- выделено 16 макротем, общий список тем включает 72 наименования;
- используется «мягкая» разметка с возможностью присвоения одному и тому же фрагменту нескольких тематических меток;
- есть возможность дополнения списка, разметка циклична: от текстов – к списку, от списка – к текстам;
- содержание текстов в рамках конкретной темы уточняется в ходе разметки корпуса;
- хронотоп (место и время описываемых событий) является частью тематической разметки;
- при разработке перечня учитывается совмещение с другими типами поиска (например, не маркируются темы, фрагменты которых можно найти по ключевым словам);
- на странице текста представлен перечень затронутых в нём тем (в порядке их появления), при выборе конкретной темы из списка соответствующий фрагмент целостного текста будет подсвечен;
- при поиске находятся все тексты, где есть данная тема.
С.С. Земичева
Литература и источники
- Гольдин В.Е., Крючкова О.Ю. Тематическая разметка и тематический анализ диалектного текстового корпуса // Языковая личность – текст – дискурс: теоретические и прикладные аспекты исследования: материалы международной научной конференции: в 2 ч. Самара, 2006. Ч. 1. С. 71–80.
- Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. Иркутск: ИГЛУ, 2011. 161 с.
- Земичева C.C. Томский диалектный корпус: актуальная форма представления традиционного материала // Естественнонаучные методы в цифровой гуманитарной среде: Материалы Всероссийской научной конференции с международным участием (г. Пермь, 15–18 мая 2018 г.). Пермь, 2018. С. 88–90.
- Земичева С.С. Взаимосвязь тематики диалектного текста и пола говорящего (на материале Томского диалектного корпуса) // Актуальные проблемы и перспективы русистики (Материалы по итогам Международной конференции русистов в Барселонском университете, 20-22 июня 2018). Barcelona: Trialba Ediciones, 2018. С. 491–500.
- Земичева С.С. Томский диалектный корпус: сбалансированность и репрезентативность // Материалы студенческой сессии междунар. конференции «Диалог». Москва, 2018.
- Земичева С.С. Томский диалектный корпус: проблемы и перспективы // Материалы междунар. конференции «Диалог». Москва, 2019.
- Земичева С.С., Иванцова Е.В. Проект создания Томского диалектного корпуса в свете тенденций развития корпусной лингвистики / С.С. Земичева, // Сибирский филологический журнал. № 3. – 2018. С. 192–205.
- Иванцова Е.В. Томский диалектный корпус: обоснование концепции и перспективы развития // Вопросы лексикографии. 2017. № 11. С. 54–70.
- Копотев М.В. Введение в корпусную лингвистику. Учебное пособие для студентов филологических и лингвистических специальностей университетов / М. В. Копотев. Прага, 2014. 195 с.
- Крючкова О.Ю., Гольдин В.Е. Корпус русской диалектной речи: концепция и параметры оценки // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Бекасово, 25–29 мая 2011 г. М., 2011. Вып. 10 (17). С. 359–367.
- Русские говоры Среднего Приобья / под ред. В.В. Палагиной. Томск: Изд-во Том. ун-та, 1984. Ч. 1. 208 с.
- Юрина Е.А. Томский диалектный корпус: в начале пути // Вестник Томского государственного университета. Филология. 2011. № 2 (14). С. 58–63.