Область, в которой я работаю, рождается прямо на глазах

Системный Блокъ

Андрей Кутузов, основатель сайта RusVectōrēs, постдок и сотрудник группы языковых технологий в университете Осло — о диахронических семантических сдвигах, вооруженных конфликтах, меняющих значения слов и возникновении новой области знаний.
Предмет исследований: как слова меняют значения

В широком смысле я занимаюсь репрезентацией семантики естественного языка. Но этим сейчас заняты 90% всех компьютерных лингвистов, поэтому тут ничего удивительного нет. А в более узком смысле — диахроническими семантическими сдвигами и их автоматическим детектированием. Для того чтобы проверить, как с течением времени меняется значение слов, по каким законам это происходит, или определить, что у слова появилось новое значение, используются мощные дистрибутивные семантические модели типа суперпопулярных word2vec или fastText.

Классический пример — слово «cell», которое сначала означало только «тюремную камеру», потом постепенно начало появляться в значении «биологическая клетка», а вот в конце 90-х — начале 2000-х письменные тексты захлестнула волна использования слова «cell» в значении «сотовый телефон». И в русском происходят подобные процессы: можно вспомнить слово «поезд», которое еще в XIX веке было равно «процессии», например — «погребальный поезд» или «царский поезд», в то время как современный «поезд» ездит по железной дороге. Все это — примеры долгосрочных семантических сдвигов, которые происходят десятилетиями, даже веками.

Бывают и краткосрочные семантические сдвиги: когда у слова буквально в пределах десятилетия меняется значение или сопровождающие его типичные ассоциации. Недавно в своей статье со студентами Вышки мы показали, как менялись значения слов в русскоязычных новостных текстах в 2000-е и в начале 2010-х годов. Например, что произошло с типичными ассоциациями для прилагательного «приемный»? После 2013 года с принятием «закона подлецов» у этого слова произошел резкий сдвиг: от старого — «приемная депутата», в сторону — «приемные дети». Потом, когда повестка изменилась, через год или два, прежнее значение вернулось обратно. И вот такие краткосрочные сдвиги сложнее детектировать, потому что они тоньше. С другой стороны их выявление полезно с практической точки зрения, потому что оно может сильно помочь в извлечении из текстов знаний о каких-то событиях, которые происходили в мире.

«Чистая» лингвистика?

В лингвистике считается, что диахронические семантические сдвиги могут быть вызваны чисто лингвистическими причинами, а могут ― социокультурными факторами. Конечно, когда мы констатируем, что у слова «приемный» изменились типичные ассоциаты, то сложно говорить, что к этому привел исключительно лингвистический процесс ― речь идет об экстралингвистических факторах. При этом то, как происходит изменение значения и как оно манифестируется в текстах, — в сущности, как изменяются типичные контексты для слова «приемный», — вот это как раз, я считаю, предмет для изучения. У меня не было публикаций с культурологами, может, это и упущение. Сейчас, если с кем-то работаю, то это скорее специалисты по NLP — компьютерные лингвисты, им задача интересна с практической точки зрения.

Как война меняет ассоциации

Изначально в своей PhD-диссертации я планировал изучить, как в новостных текстах освещаются вооруженные конфликты. Когда в какой-либо стране начинается война, то о ней начинают писать как-то «по-другому», слово «война» начинает употребляться в специальном контексте. Так у слова «Сирия» в условиях войны изменяются дистрибутивные вектора. Конечно, это не значит, что значение меняется в лексикографическом смысле, оно остается тем же самым, но вот как раз привычные ассоциаты ― да. Подобные находки бывают крайне полезны социальным исследователям, которые занимаются изучением вооруженных конфликтов, ― конфликтологам.

В Осло есть специальный институт ― Peace Research Institute, а в Уппсале работает большая команда Uppsala Conflict Data Program (Уппсальская программа данных о конфликтах). Это такие хардкорные социологи, которые уже лет тридцать собирают вручную данные о вооруженных конфликтах. У них есть огромная база данных, доступная в сети, в ней можно посмотреть, что происходило в мире: как интенсивность вооруженных конфликтов увеличивалась или уменьшалась.

Изначально они вышли на NLP-группу в университете Осло с вопросом: «Нельзя ли как-то автоматизировать процесс, чтобы новостные тексты не надо было размечать вручную, фиксируя ― о конфликте они или нет». Естественно, так просто это сделать не получилось. Но удалось выявить закономерности, ответить на вопросы о том, как изменяются дистрибутивные вектора у слов, обозначающих, например, страны, в которых происходят вооруженные конфликты, или вооруженные группы, принимающие участие в конфликтах.

Эти исследователи предоставили нам огромный датасет, в котором расписано, когда, в какой стране, какая война началась. И теперь мы можем использовать эти данные как источник. Интуитивно кажется, что наши исследования должны обладать какой-то предсказательной силой: ведь война не начинается сразу, просто так, из ниоткуда, ей предшествует какое-то бурление. Если мы будем отслеживать эти все изменения в дистрибутивных векторах слов, то увидим, как постепенно меняется ситуация.

О понятийных пропорциях

В своих исследованиях мы часто ограничены английским языком. И тем не менее, мы все равно можем получать довольно интересные результаты. Знакомым с word2vec известен пример «отношения» слов друг к другу: «король» относится к «королеве», как «мужчина» ― к «женщине». Точно так же, как выяснилось, можно строить такие же пропорции, апеллируя к странам и вооруженным группам в этих странах. То есть, условно говоря, можно сказать на основе дистрибутивной модели, что «ХАМАС» относится к «Израилю» как «наксалиты» ― к «Индии», например. Это действительно был неожиданный для нас результат: я вообще не думал, что простые дистрибутивные модели способны схватывать настолько тонкие семантические отношения. Оказывается, могут.

Рождение новой научной области

Безусловно, компьютерным лингвистам приходится лезть и внутрь алгоритмов, иначе было бы скучно. Чтобы добиться каких-то внушительных результатов, отличающихся от результатов коллег, приходится что-то менять в существующих моделях: крайне редко бывает так, что готовая модель сразу выдает то, что нужно. Если бы это было так, то и никакие исследования не понадобились бы. А так, область, в которой я работаю, рождается прямо на глазах.

Первые публикации, сделанные на основе исследования диахронических семантических сдвигов методами дистрибутивной семантики, появились где-то в районе 2010 года, их стало существенно больше лишь в 2016-м, и только в 2019 году на конференции ACLпрошел первый воркшоп по изменениям в языке в исторической перспективе. А в этом году пройдет первое соревнование по автоматическому определению семантических сдвигов.

Интервью: Даниил Скоринкин, Герман Пальчиков
Редакторы: Маргарита Чубукова, Вусале Агасиева
Иллюстратор: Анна Руденко