Интернет знает, чего я хочу: как так получилось

28 Апреля 2018

Сегодня стоит только зайти на любимый сайт и прочитать статью, и следом ресурс предлагает еще несколько материалов, которые интересны пользователю, почти всегда попадая «в точку» по пользовательским предпочтениям. О том, как рекомендательные сервисы работали раньше и какие алгоритмы используются сейчас, рассказывает команда myWidget.

От человека к человеку

Именно так: первые рекомендации собирались вручную специально обученными редакторами. Например, Amazon, который продавал книги, предоставлял рекомендации, собираемые людьми, хорошо разбирающимися в литературе. YouTube, last.fm, IMDb — все эти ресурсы быстро поняли, что пользователю недостаточно просто показать контент один раз, далее его нужно удержать на сайте. Надо ли говорить, что такой алгоритм построения рекомендаций занимал массу времени и тратил бесценные человеческие ресурсы.

В начале «нулевых» на радио Pandora применили контентный метод рекомендаций: имея огромную базу размеченной музыки, сервис учился рекомендовать новые треки с точки зрения их атрибутов, а не на основе коллаборативной фильтрации. Например, пользователю показывались треки с похожим темпом, ритмом, наличием или отсутствием вокала или определенных музыкальных инструментов и т. д.

Deus ex machina

Основной вехой начала развития сервисов рекомендаций стоит отметить конкурс Netflix Prize, который компания провела в 2006 году, выложив в открытый доступ около 100 миллионов оценок контента по пятибалльной шкале, при этом указывая ID пользователя, который поставил оценку. Желающим предлагалось улучшить этот результат. Победители конкурса получали миллион долларов, а сам Netflix Prize привлек внимание к проблеме развития сегмента рекомендательных сервисов. На этом рынке появилось много молодых стартапов.

Одним из примитивных методов использования рекомендательных сервисов можно считать поисковые выдачи на основе пола, возраста и геолокации. Например, находясь в Москве, пользователь вводит запрос «купить аквариум для рыбок» и результат получает сначала по Москве. То же самое, например, про возраст.

А вот первопроходцем рекомендательных сервисов в России можно считать «Имхонет», запущенный в 2007 году. Эта площадка, в отличие от большинства других сервисов того времени, работала с разными видами контента: «Имхонет» рекомендовал пользователю литературу, кино, компьютерные игры, вина и т. д. Для формирования рекомендаций использовались разные данные: оценки, история потребления контента, результаты тестов и ответы на различные вопросы.

В 2009 году Last.fm внедрили себе hadoop, который позволил им обрабатывать данные гораздо быстрее: всю базу пользователей и их оценок они обрабатывали раз в день и таким образом регулярно перестраивали рекомендации на основе полученной статистики.

Социальные сети тоже начинают рекомендовать контент, правда, на начальном этапе используя простейшие алгоритмы. Например, Facebook начал показывать пользователю записи, которые понравились большинству его друзей. Алгоритм имел и слабые стороны, так как юзер видел лишь то, что в тренде, но мог пропустить важные личные события (например, свадьбу лучшего друга).

Все, что происходит с рекомендательными сервисами дальше,— это улучшение алгоритмов рекомендаций и более четкое сегментирование аудитории.

Люди делятся на N типов

К контентной рекомендации добавляется алгоритм коллаборативной фильтрации: пользователю показывается тот контент, который понравился другим юзерам с похожими интересами. Такой подход еще больше ускоряет обработку данных. Теперь рекомендательные сервисы нацеливаются не только на точность сегментирования аудитории, но и на количество контента, который можно рекомендовать — чем его больше, тем лучше.

Еще один параметр, который появляется для разделения аудитории на категории,— это соцдем (пол и возраст пользователей). Зная эти данные, а также, например, город проживания, можно более точно рекомендовать контент юзеру, и в этом сегменте побеждает тот сервис, у которого больше всего знаний о пользователях интернета. (Так или иначе все мы «следим» в вебе — заходим на сайты, заполняем анкеты, регистрируемся в соцсетях и т. п.).

C-c-c-combo!

Изучив более чем пятнадцатилетнюю эволюцию рекомендаций, сейчас сервисы стараются объединить эти знания. Используются и коллаборативные фильтрации, и контекст, и соцдем в зависимости от ситуации. Все полученные данные объединяет в себе, например, технология NeuroClick, которая, накапливая информацию, с огромной скоростью обрабатывает данные и умеет перестраивать рекомендации примерно раз в пять минут для каждой категории пользователей.

Благодаря NeuroClick теперь можно рекомендовать любой контент: статьи, новости, видео, стримы, товары и услуги; при этом на обработку всех этих данных тратятся считаные минуты, и все идет к тому, что скоро считать статистику мы начнем в реальном времени. Кроме того, нейросеть умеет отфильтровывать изображения, например, не пропускать в рекомендации статьи, иллюстрации к которым содержат «обнаженку».

Анализ изображений с помощью нейросетей использует Netflix. Пользователю показывается, например, сериал, на обложке которого изображен его любимый актер. Другому пользователю покажут тот же самый сериал, но обложка будет уже с режиссером — то есть разным пользователям на основе их предпочтений показываются разные обложки одного и того же контента.

Таким образом, сейчас наступает эпоха, когда каждый пользователь интернета получает «свой личный веб», именно с тем содержимым, которое будет ему полезно и интересно. Иными словами, контент теперь не надо искать, он сам находит пользователя, и вот это — и есть будущее.

Диктор: Маша Георгиевская

Другие подкасты