16 апреля 2015 г.
Трое американских исследователей из Корнельского и Стэнфордского университетов разработали компьютерный алгоритм, который позволяет идентифицировать антисоциальное поведение в разделах веб-сайтов с комментариями. В своей научной работе, опубликованной пока на сайте препринтов arXiv.org, они описывают процесс создания алгоритма, а также планы по улучшению его точности.
В интернет-пространстве людей, разжигающих антисоциальные дискуссии в комментариях под веб-контентом, именуют троллями. Они постоянно нарушают этику сетевого взаимодействия и становятся источником раздражения для большинства мирных пользователей.
Многие известные сайты (в том числе CNN) сотрудничают с учёными в поисках способов выявления троллей и их бана прежде, чем они доставят слишком много неприятностей. Руководители авторитетных сайтов давно заметили, что многие посетители, подвергшиеся нападкам троллей, начинают избегать интернет-ресурсов, где их могут унизить или постоянно провоцировать на споры и взаимные оскорбления.
В попытке автоматизации борьбы с троллингом Джастин Чен (Justin Cheng), Кристиан Данеску-Никулеску-Мизил (Cristian Danescu-Niculescu-Mizil) и Джур Лесковец (Jure Leskovec) создали алгоритм, анализирующий типичное поведение троллей (данные были предоставлены сайтами cnn.com, breitbart.com и ign.com). У исследователей ушло 18 месяцев на изучение более 10 тысяч комментариев: они сравнивали поведение забаненных пользователей с теми, кто никогда в бан-лист не попадал.
Учёным удалось выявить некоторые закономерности в комментариях, оставленных забаненными пользователями (они обозначили их как FBUS–Future Banned Users). Во-первых, они заметили, что в среднем сообщения троллей отличались меньшей ясностью и грамотностью, нежели сообщения нормальных пользователей. При этом чем они больше писали комментариев, тем менее грамотно они выражались.
Также оказалось, что другие пользователи первоначально терпеливо относились к троллям, однако когда их терпение заканчивалось, почти моментально следовал бан.
Исследователи сообщили, что обнаружить будущих забаненных пользователей оказалось относительно легко. Американцы создали алгоритм, основанный на так называемом автоматизированном индексе читаемости. С таким алгоритмом команда была в состоянии определить будущего забаненного юзера с точностью 80% после всего лишь 10 комментариев.
Несмотря на то, что показатели пока ещё далеки от 100%-ной точности, разработчики надеются, что их алгоритм существенно упростит жизнь модераторов сайтов.
Маргарита Паймакова