Демидовцы зарегистрировали научно-исследовательскую программу, позволяющую различать тональность текста, в Роспатенте Как машине обнаружить в тексте эмоции и настроения автора? Понять, любит или не любит, осуждает или поддерживает? Определить тональность предложения на русском языке? Этими и многими другими вопросами последние полтора года занимается группа ученых ЯрГУ. Специалисты Демидовского вместе с сотрудниками лаборатории Ассоциации Открытых Инноваций FRUCT под руководством доцента кафедры компьютерных сетей ЯрГУ Ильи Парамонова задались целью научить компьютер определять отношение автора предложения (иначе называемое тональностью) к его теме, машинально выявлять в текстах эмоции, мнения и настроения.
- Плоды наших открытий с нетерпением ждут крупнейшие отечественные и
зарубежные компании, чья прибыль и эффективность во многом зависят от
тщательного управления PR и цифрового «положения» в обществе, -
подчеркивает автор патента Анатолий Полетаев. - Трудно сегодня
представить построение рекомендательных систем, анализа имиджа,
маркетинговых стратегий любой современной крупной организации в соцмедиа
без определения тональности публикуемого и презентуемого контента.
По словам ученого, разработка - важный шаг к тому, чтобы научить
компьютер лучше понимать человека. Анализ тональности сложен, поскольку
язык, на котором мы разговариваем, многогранен, изменчив и противоречив,
нарушает собственные правила. Самому человеку в нем порой трудно
разобраться, однако это может быть под силу машине. При правильном
построении алгоритмов, она способна упускать в разы меньше, чем человек и
облегчить его труд.
- Например, предложения «Это местечковый колорит» и «Это местечковая
знаменитость» по своей структуре очень схожи, но автор первого, скорее,
хвалит, а второго — ругает, - приводит пример молодой ученый. - И, на
мой взгляд, чтобы компьютер мог хотя бы в части случаев правильно решать
задачу анализа тональности, исследователь должен сам достаточно хорошо
разобраться, как устроен язык.
2021 год стал прорывным для исследования. Ученые ЯрГУ адаптировали
подход с определенным набором правил к анализу тональности для русского
языка. Изначально его опробовали на английском языке и получили хорошие
результаты. По установленным разработчиками правилам программа смогла
обнаружить в предложении эмоции – те самые единицы тональности, с
помощью которых автор выразил своё отношение к теме.
- Сложность адаптации заключалась в том, что эти правила
предполагали, что в языке имеет строгий порядок слов, - обратил внимание
Анатолий. - В ходе работы мы пришли к пониманию, что для русского
языка нужно использовать синтаксические деревья — специальные структуры
данных, отражающие связи слов в предложении. Правила для алгоритма мы
построили с их помощью. Адаптированный алгоритм мы проверили на
предложениях из различных отзывов о гостиницах, и пришли к выводу, что
он достаточно хорошо справляется со своей задачей.
Синтаксические деревья стали своего рода ключом к разгадке тайны
улавливания машиной эмоций в тексте. Ученые продолжают успешно
пользоваться этим инструментом для более точного анализа русского
языка.
В будущем исследователи ЯрГУ планируют работать не только с отзывами,
но и с литературными или публицистическими текстами, чего, насколько
известно, пока никто для русского языка ещё не делал. Задача
амбициозней предыдущей, поскольку в таких текстах гораздо больше сложных
предложений, чем в простых отзывах и комментариях.
Источник: ЯрГУ им. П.Г. Демидова