YouTube раскрыл алгоритмы персонализации контента
Система анализирует 80 млрд «сигналов», среди которых клики, длительность просмотра, результаты опросов, отметки «Нравится» и «Не нравится»
Видеосервис YouTube рассказал об алгоритмах составления индивидуальных рекомендаций роликов для пользователей.
Критерии оценки контента
При формировании персонализированной ленты программа ориентируется на 80 млрд информационных объектов, так называемых «сигналов», к которым относятся стандартные критерии (нажатия, время просмотра, ссылки на контент, отметки «Нравится» и «Не нравится»), а также результаты опросов.
Опросы помогают определить «ценное время просмотра» — время, которое пользователи сами оценивают как проведенное с пользой. «“Ценное время просмотра” мы определяем с помощью опросов, где пользователь ставит видео оценку по шкале от одного до пяти. Так мы можем понять, доволен ли зритель контентом. Если пользователь ставит видео одну или две звезды, мы спрашиваем, что ему не понравилось, а если четыре или пять — что оказалось полезным. При подсчете ценного времени просмотра учитываются только те ролики, которым вы поставили четыре или пять звезд», — говорится в блоге компании.
На основе полученных ответов машинного обучения предсказывает возможные оценки. Чтобы проверить точность этих прогнозов, YouTube исключает из задания для обучения часть уже выставленных пользователями оценок. Это позволяет проверить, насколько полученные с помощью системы данные соответствуют реальным ответам.
Значимость каждого сигнала зависит от пользователя. Если он делится всеми просмотренными видео, даже теми, которым поставил одну или две звезды, система не учтет отправленные ссылки на контент при подборе рекомендаций. «Наши алгоритмы не базируются на четких правилах, а адаптируются к вашему поведению», — подчеркивают в компании.
Информационный контент
Перечисленные алгоритмы больше подходят для музыки и развлекательного контента. В случае с новостями и информационными видео подключаются дополнительные инструменты. В частности, фактчекинг. Проверенный контент от «пограничного» платформа отделяет с помощью классификаторов. Качество информации оценивают специалисты со всего мира, обучающиеся по подробным общедоступным правилам видеосервиса. Также YouTube обращается к сертифицированным экспертам.
Чтобы определить авторитетность контента, специалисты по оценке отвечают на несколько ключевых вопросов: «Материалы отвечают заявленной цели?», «Какой уровень квалификации требуется, чтобы понять смысл видео?», «Какая репутация у выступающего в ролике человека и канала, на котором оно опубликовано?», «Какая основная тематика видео?», «Контент задуман как сатирический?». Ответы определяют, насколько видео заслуживает доверия. Чем выше оценка, тем активнее ролик продвигается в рамках новостного и информационного контента.
Чтобы определить пограничные видео, специалисты по оценке отмечают факт присутствия неточного, вводящего в заблуждение, оскорбительного, нетолерантного, реально или потенциально вредоносного контента и другие. На основании общих результатов определяется вероятность, что ролик содержит вредоносную информацию или пограничный контент. Видео, которые классифицируются как пограничный контент, удаляются из рекомендаций.
В прошлом году РКН обратил внимание на то, что в «тренды» YouTube перестали попадать ролики YouTube-канала «Соловьев LIVE». В ведомстве посчитали, что это попытка «ограничить распространение материалов популярного автора, воспрепятствовать росту его аудитории».