Исследователи из технологического инкубатора Jigsaw, находящегося под управлением Alphabet, совместно с Wikimedia Foundation, изучили более 100 000 комментариев в англоязычной части Wikipedia, с целью выявления троллинга, буллинга, перехода на личности и других неприятных вещей. В результате исследователям удалось понять, кто из пользователей чаще всего переходит грань и почему. Подробный доклад можно найти здесь (PDF).
Изучая поведение пользователей, аналитики стремились подготовить почву для создания автоматизированной системы, которая поможет «снизить количество токсичных дискуссий» в Wikipedia. Исследователи сосредоточились на так называемых ad hominem, а проще говоря, комментариях, в которых пользователи переходят на личности. Исследователи разделили такие атаки на категории: направленные непосредственно на комментирующего («ты идиот»); направленные на третьих лиц («Билл идиот»); атаки с цитированием («Билл говорит, что Генри идиот»); а также «другие типы атак и оскорблений».
Для анализа комментариев пришлось прибегнуть к помощи сервиса Crowdflower: более 4000 наемных работников анализировали 100 000 комментариев из Wikipedia за 2004-2015 годы. В итоге каждому отдельному комментарию дали оценку десять разных человек, определив, присутствует в комментарии атака, или же нет. К полученным данным исследователи применили алгоритм логистической регрессии, таким образом научив его распознавать различную агрессию пользователей. Затем алгоритм «спустили с поводка», позволив ему изучить все комментарии, оставленные в Wikipedia за 2015 год. При этом сами аналитики постоянно перепроверяли работу алгоритма. На выходе получилась очень интересная статистика.
Оказалось, что незарегистрированные, анонимные пользователи оставляют порядка 43% оскорбительных комментариев, но большинство из них делают это однократно. Зарегистрированные пользователи Wikipedia, в свою очередь, оставляют комментарии на сайте в 20 раз чаще. И хотя анонимы оскорбляют других пользователей в шесть раз активнее, в конечном счете, они ответственны менее чем за половину всех переходов на личности, то есть львиную долю таких атак осуществляют именно зарегистрированные посетители ресурса. Так, 30% атак исходят от зарегистрированных пользователей, на счету которых более 100 правок. То есть это постоянные редакторы Wikipedia.
Отдельно рассматривая переходы на личности, исследователи установили, что каждый десятый комментарий такого рода исходит от высокоактивных пользователей, чей уровень активности равняется 20+. Более тщательный анализ показал, что всего 34 «высокотоксичных пользователя» из категории 20+ ответственны за 9% всех переходов на личности на сайте. Еще порядка 80% атак исходят от 9000 зарегистрированных пользователей, у каждого из которых в среднем насчитывается по пять подобных комментариев.
Кроме того, алгоритм помог заметить интересный эффект, который исследователи назвали pile-on («свара»): неприятные комментарии появляются рядом с уже опубликованными оскорбительными комментариями в 22 раза чаще. «Переходы на личности обычно сгруппированы вместе по времени. Вероятно, потому что один человек провоцирует другого», — пишут специалисты.
Еще одно интересное, но неприятное открытие, сделанное в ходе данного эксперимента, гласит, что нападки на других пользователей лишь в 17,9% случаев приводят к вынесению предупреждения или бану агрессивного юзера. Так, лишь 7,7% атак спровоцировали предупреждения от модераторов, и только 7% атак окончились баном.
Аналитики выражают надежду, что их исследование поможет Wikipedia построить более эффективную систему мониторинга комментариев и позволит отслеживать наиболее агрессивных пользователей. «Можно добиться значительного прогресса, просто присматривая за сравнительно небольшим количеством постоянных нарушителей», — пишут исследователи.
Так как дамп всех комментариев из Wikipedia за 2004-2015 годы свободно доступен на Figshare, специалисты Jigsaw и Wikimedia Foundation призывают других исследователей провести собственный анализ и продолжить изучение данной проблемы.