«ВКонтакте» включил фильтр враждебных высказываний
Эксперимент по борьбе с оскорблениями и травлей прошел в День народного единства
Соцсеть «ВКонтакте» протестировала две функции, направленные против
нетерпимости, — фильтр враждебных высказываний и автоматический поиск признаков
оскорблений в тексте комментария.
Эксперимент был запущен в День народного единства, его цель — борьба с угрозами
и с травлей, в первую очередь по национальному признаку и на почве религиозной
принадлежности. В основе обоих инструментов лежат алгоритмы.
Фильтр враждебных высказываний могли включить администраторы сообществ «ВКонтакте». В данном случае нейросеть удаляла комментарии, в которых содержались угрозы, — например, пожелания смерти или обещания причинить вред здоровью. При этом администратор мог увидеть все комментарии, которые отсеял фильтр, и восстановить их или отправить автора в черный список. Соцсеть планирует использовать результаты эксперимента для дальнейшего обучения нейросети и доработки фильтра.
Вторая функция является продолжением прошлогоднего эксперимента, в рамках которого алгоритмы определяют признаки оскорблений на этапе написания текста комментария. В этом случае автор получает совет не тратить время на агрессию и отказаться от обидной реплики. В прошлом году благодаря такому предупреждению «ВКонтакте» удалось сократить количество оскорблений в комментариях на 36% за сутки.
Расширив эксперимент, компания обучила алгоритмы определять более широкий спектр оскорблений и угроз. Среди них — проявления нетерпимости по национальному признаку, а также враждебные высказывания на почве религиозной принадлежности, возраста, пола и других характеристик. 4 ноября предупреждение видели все пользователи, а позже стартует долгосрочный тест, рассчитанный на часть аудитории. По результатам эксперимента команда «ВКонтакте» примет решение о дальнейшем использовании функции.