Работа с данными: зачем, почему и что изменилось
В новой статье мы попробуем разобраться, как сегодня бизнес работает с данными пользователей и какими они бывают, почему проблема с утечками остается актуальной и что с ней делать всем участникам цепочки, а также какая информация на самом деле важна для маркетинга в мобильных приложениях и на сайте. О том, что делать всем участникам процесса и где искать компромисс, — читайте в материале

Мы проводим в интернете каждый день: что-то гуглим, загружаем, отправляем и получаем. Таким образом, оставляем цифровые следы — уникальный набор действий пользователя онлайн.
Цифровые следы делятся на активные и пассивные. Хранятся они по-разному: в офлайн-средах или в онлайн-базах. Активный цифровой след мы оставляем в сети сами, когда загружаем фото или видео. Пассивный сохраняется без нашего ведома. Это могут быть поисковые запросы, истории сайтов и так далее. Как правило, он формируется с помощью cookie, IP-адреса и данных из мобильных приложений.
Из цифровых следов формируется Big Data — огромный массив разнородной информации, который постоянно пополняется. Только в 2020 году один землянин генерировал 1,7 МБ информации в секунду. Для сравнения: 1 МБ данных равен примерно получению 50 сообщений (без вложений) или загрузке трех фото в соцсети. Неплохо для одной секунды? Кстати, вся книга «Война и мир» весит примерно 5–7 МБ. Но это так, к слову.
Большая часть мирового трафика данных приходится на видео (53,72%). На втором месте соцсети — 12,69%. На третьем — игры (9,86%). Также в пятерку категорий входят веб-сайты — 5,67% и обмен сообщениями — 5,35%. Информация также активно распространяется через имейлы, поисковики, мессенджеры и прочее.
Данные бывают персональными и неперсональными (в законодательстве — только первые). Персональные — те, которые позволяют определить вас как личность. Например, если вас зовут Василий, то выделить вас среди других нельзя. Однако если к имени добавить номер телефона, то вы становитесь вполне конкретным Васей.
По неперсональным данным определить вас как личность невозможно, как и связать конкретно с вами статистику повышения сайта или IP-адрес.
Какие данные собирают компании и зачем
Обычно информацию о пользователях собирают через first-party data, second-party data и third-party data.
First-party data — собственные данные рекламодателя, которые собираются напрямую от клиентов через форму на сайте, программы лояльности, приложения и обратную связь.
Second-party data — данные рекламных активностей компании. Например, клики и просмотры посадочных страниц, целевые действия и социальная активность аудитории (лайки, репосты и так далее).
Third-party data — базы данных третьих лиц, которые создаются на внешних платформах и агрегируются с других сайтов. К ним относят cookie (кука — небольшой фрагмент данных, отправленный сервером для хранения браузером пользователя), Pixel tag (программа-пиксель, встроенная в страницу или имейл рекламным сервером для отслеживания действий).
Приведенные технологии — лишь небольшой список инструментов. У госструктур, банковского сектора, ретейлеров, операторов фискальных данных и телеком-операторов есть свои источники.
В маркетинге компании собирают данные для адаптации к потребностям и интересам клиента, повышения эффективности рекламы, прогнозирования поведения клиентов и, конечно, увеличения маржинальности бизнеса. Исследования Magna и IPG Media Lab подтверждают, что персонализация может увеличить CTR (коэффициент кликабельности) рекламы на 90%.
Еще в 1995 году Amazon решил фиксировать действия пользователей на своем сайте.
Компания смотрела:
-
какие книги просматривали;
-
какие добавляли в корзину;
-
что покупали;
-
что искали, но не купили.
Такой подход позволил Amazon создать Collaborative Filtering — систему рекомендаций, которая анализировала покупки пользователей и предлагала им товары на основе предпочтений покупателей с похожим поведением. Подобная система лежит в основе всех современных крупных e-com-площадок.
Интересно, что такой обмен выглядит равноценным: бизнес получает прибыль, а клиент — персональное обслуживание. Как сообщает Super Office, 86% клиентов готовы платить больше за улучшение клиентского опыта, а почти 50% согласны с тем, что покупали спонтанно после комфортного (персонализированного) взаимодействия с брендом.
Дмитрий Изместьев, исполнительный
директор CleverData (входит в ИТ-холдинг LANSOFT):
«Давайте зададим вопрос: а для чего вообще собираются данные клиентов? Основная цель — персонализация. Но, сколько электронных писем в вашем почтовом ящике действительно носят персональный характер? По данным Segment и Salesforce, 85% компаний считают, что они персонализируют общение с клиентами, и только 15% компаний полагают, что уделяют недостаточное внимание персонализации.
При этом со стороны опрошенных клиентов картина совсем другая: только 34% клиентов считают, что компании, которые с ними взаимодействуют, персонализируют общение. Это звучит печально, ведь согласно исследованию McKinsey, 71% клиентов ожидают от брендов индивидуального подхода и персонализированных сообщений.
И вот есть небольшой совет компаниям от меня: сделайте наконец персонализацию такой, какой ее хотят получать ваши клиенты и тогда они сами будут отдавать вам данные. Ведь для меня и для всех других клиентов компаний важно получить именно тот товар или услугу, которую мы ждем и нам не нужно приглашение на мероприятие, которое мы никогда в жизни не посетим».
Что касается мобильных приложений, то по словам Александра Клишева, CEO Think Mobile, большинство издателей используют рекламную монетизацию, когда внутри приложений показывается реклама сторонних приложений и сайтов. Такие рекламные кампании запускаются через различные OEM- и DSP-каналы. Рекламные платформы видят только те данные, которые разрешает передавать пользователь, чаще всего это технические характеристики устройства, которые передаются устройством в приложение, где показывается реклама.
Как отмечает эксперт, в эти характеристики включаются такие данные, как IP-адрес, модель устройства, версия операционной системы, гео, тип используемого подключения к сети интернет. Демография и уровень дохода доступны для таргетинга только в том случае, если платформа использует сторонние источники данных. На основании собранных данных пользователю демонстрируются более персонализированные объявления, повышающие качество взаимодействия с рекламным объявлением.
Александр Клишев, CEO Think Mobile:
«Если пользователь разрешает отслеживать свою геопозицию или дает разрешение на отслеживание данных (для iOS), в цепочке появляется его Device ID и Advertising ID, по которому можно сопоставлять данные в аналитических системах. Это помогает точнее отслеживать статистику, оценивать эффективность рекламных кампаний и показывать пользователям релевантную целевую рекламу.
Важно отметить, что конфиденциальная информация пользователей не собирается рекламными источниками ни на одном из этапов и не может быть использована в таргетированной рекламе».
Что не нравится пользователям
Россия входит в тройку стран — лидеров по количеству утечек конфиденциальной информации. В сеть только за 2024 год слили 710 млн записей о пользователях. В 2023 году население страны составило 143,8 млн человек. То есть в среднем на каждого россиянина пришлось 4,9 утечки данных. Подсчет, конечно, грубый, но суть передает. Получается, что вопрос не в том, попадут ли ваши данные в сеть, а в том — в каком объеме и когда это произойдет.
Утечка данных может стать неприятным опытом не только для людей, но и для целых организаций. Согласно статистике «СерчИнформ», украденные данные можно разделить на несколько типов. 30% — личная информация, 62% — информация о клиентах и транзакциях, 28% — финансовая информация и 25% техническая документация.
Если говорить о мобильных приложениях, то они уязвимы перед утечками именно из-за хранения пользовательских данных в открытом или плохо зашифрованном виде. Эксперты Positive Technologies обнаружили проблемы с хранением данных в 20 парах приложений для iOS и Android — в основном банковских.
Также приложения могут злоупотреблять расширениями и запросом данных. Центра цифровой экспертизы тестировал 70 Android-приложений категории «Будильники» и выяснил, что 49% всех изученных программ злоупотребляют разрешениями. При установке приложение хотело получить доступ к данным о местоположении, просмотру местной Wi-Fi-сети и списку контактов.
На вопрос о том, почему многие приложения ставят перед пользователем выбор «все или ничего» и могут не давать управлять расширениями сразу, ответил Даниил Крашенинников, диджитал-директор «Мобио».
Даниил
Крашенинников, диджитал-директор «Мобио»:
«Во-первых, это упрощает пользовательский интерфейс и делает процесс принятия решений более понятным для пользователей. Разработчики стремятся минимизировать сложность интерфейса, чтобы не перегружать пользователей множеством настроек и опций, которые могут вызвать путаницу или привести к неправильной конфигурации приложения.
Во-вторых, предоставление детализированного контроля над сбором данных требует значительных ресурсов на разработку и тестирование. Это может увеличить затраты на разработку и усложнить поддержку приложения».
«В трекинг-системах из “коробки” собираются обезличенные данные: внешний ID устройства (gaid/idfa/idfv), модель и марка телефона, версия ОС, IP, геолокация, user agent.
Внутри приложения разработчики могут собирать уже личную информацию. Это зависит от политики конкретного приложения: внутренний ID пользователя, телефоны, почты, путь пользователя, его предпочтения и история. Все эти данные важны, и их можно использовать как в благих целях (персонализация контента), так и в корыстных (перепродажа данных)», — отмечает Крашенников.
Как пишет Forbes, данные — самый популярный объект купли-продажи среди киберпреступников в дарквебе: доля объявлений, связанных с их продажей (или даже бесплатной раздачей), составляет 83%, а стоимость данных в дарквебе сейчас редко превышает $1000.
Что не так с бизнесом
Поскольку компании собирают информацию на сайтах и в приложениях, любые изменения вынуждают перестраивать процессы и искать альтернативные решения. Так, несколько лет назад браузеры объявили, что отказываются от поддержки сторонних файлов куки. Речь идет как раз о 3d-party cookies, которые используются для отслеживания пользователей на сторонних сайтах. Обновление связано с тем, что пользователи беспокоятся о неправомерном распространении информации о себе.
В июле 2024 года Google передумал «убивать» куки. Вместо этого компания решила позволить пользователям «делать осознанный выбор». Однако текущие ограничения в области куки привели к ограничению возможности таргетирования и персонализации рекламы.
Решить проблему нехватки данных должна была инициатива Privacy Sandbox, в рамках которой компания развивала несколько технологий.
Мария
Петриди, руководитель департамента разработки MEDIADESK:
«Эпоха cookieless пока не наступила, ее приближение заставило игроков рынка искать альтернативные возможности таргетирования. Выросла роль собственных данных, которые можно собрать с сайта, приложения или CRM. Проблема этих данных заключается в их ограниченности.
На рынке закрепились альтернативные идентификаторы. Например, StableID, который позволяет без привязки к cookie получить доступ к большому пласту аудитории. Однако эти данные стоят денег. Объем cookie, пригодный для использования в DMP стал меньше на 10–12%.
Возник тренд на более детальное изучение поведенческих паттернов аудитории и улучшение работы предикторов. С этой задачей успешно справляются нейросети. В необходимости матчинга нескольких типов пользовательских ID и внедрении нейросетей мы видим тренд в профилировании».
В ноябре 2024 года президент РФ подписал Федеральный закон № 420, большинство положений которого посвящено разным видам правонарушений и ужесточению административной ответственности. Он вступит в силу 30 мая 2025 года. Также появилась ответственность за неуведомление Роскомнадзора об утечке персональных данных.
Денис
Рубинштейн, генеральный директор Webit:
«Ключевые вызовы, с которыми сталкивается бизнес сегодня: рост регуляторных требований, запрос на конфиденциальность и необходимость переосмыслить сбор данных.
Как IT-компания, мы видим, что будущее — за гибридными решениями, где first-party-данные дополняются AI-аналитикой и обезличенными идентификаторами (Stable ID). Это позволяет сохранить персонализацию, не нарушая доверия пользователей.
Сейчас наибольшая проблема в работе с данными — сочетать их эффективное использование с соблюдением конфиденциальности и регуляторных требований. После отказа от 3rd-party cookies, роста утечек данных и ужесточения законов бизнесу сложно агрегировать и структурировать данные из разрозненных источников, сохраняя доверие пользователей.
Решение требует перехода на first-party-данные, борьбы с фродом и прозрачного ценностного обмена, чтобы данные оставались и полезными, и безопасными».
Дмитрий Изместьев, исполнительный
директор CleverData (входит в ИТ-холдинг LANSOFT):
«Данные сегодня активно продаются и покупаются — и это уже хороший шаг вперед. С ужесточением наказаний за утечки компании все больше переживают из-за передачи информации.
Поэтому безопаснее делать это не напрямую, а через третью сторону с использованием современных технологий. Данные передаются в зашифрованном виде, а посредник помогает найти соответствия между продавцом и покупателем, не раскрывая лишнего. Это гарантирует безопасность и исключает риски утечки».
Что делать
Рекомендации для бизнеса
Безопасность клиента — область, где ответственность лежит как на пользователе, так и на бизнесе. Компании важно обеспечить безопасное и защищенное взаимодействие пользователей с системой и контролировать перемещение, использование и хранение данных.
Дмитрий Изместьев, исполнительный директор CleverData (входит в
ИТ-холдинг LANSOFT):
«Например, если бизнес хочет купить данные у другой компании, чтобы обогатить клиентские профили, поставщик передает информацию посреднику в зашифрованном виде. Третья сторона помогает дополнить профили дополнительными параметрами и передает их покупателю, сохраняя полную конфиденциальность.
В этом процессе посредник — не лишнее звено, а гарантия безопасности: ни поставщик, ни покупатель не раскрывают ничего лишнего.
Возникает вопрос: а сколько такая работа стоит? В мировой практике уже есть механизмы оценки данных, и в России этот процесс также набирает обороты — все больше компаний и экспертов работают над объективными критериями их стоимости».
По опыту Дениса Рубинштейна, генерального директора Webit, инвестиции в CDP-платформы и кибербезопасность не просто снижают риски утечек, но и становятся конкурентным преимуществом. Клиенты готовы делиться данными, если видят прозрачность и получают ценность — будь то индивидуальные предложения или упрощение сервиса.
Эксперт уверен, что ужесточение законов, вроде № 420-ФЗ, — не барьер, а стимул для инноваций. Главное — не бояться меняться и открыто говорить с аудиторией о том, как и зачем вы используете их данные. В этом и есть новая этика цифрового мира.
Как считает Андрей Финк, технический директор ArrowMedia, для успешного сбора данных компаниям следует выстраивать доверительные отношения с клиентами через ценностный обмен. Что касается каналов получения, к перспективным можно отнести программы лояльности с накопительными баллами, поскольку они мотивируют предоставлять персональные данные ради выгоды.
Андрей Финк, технический
директор ArrowMedia:
«Не стоит запрашивать лишнюю информацию, сохраняйте фокус на действительно необходимом. При этом важно гарантировать безопасность данных и регулярно информировать клиентов о том, как они используются. И конечно, соблюдайте все требования законодательства о персональных данных, чтобы защитить репутацию компании.
Сочетание тщательно продуманных каналов взаимодействия, прозрачности процесса и реальной ценности для клиента позволит эффективно собирать данные, даже в условиях повышенного внимания к конфиденциальности».
Интерактивные чат-боты дают полезный контент и одновременно собирают информацию в процессе общения, а персонализированные опросы и анкеты с обратной связью позволяют лучше понять потребности клиентов. Стоит обратить внимание и на офлайн-точки присутствия с интеграцией цифровых технологий, такие как терминалы самообслуживания или интерактивные стенды.
По мнению Финка, для построения здорового обмена нужно понятно объяснить, какие данные необходимы и как они используются. «Предлагайте конкретные преимущества — от эксклюзивного контента до персонализированных рекомендаций и специальных акций. Также обеспечивайте возможность контроля, включая отписку, удобные настройки приватности и выбор канала получения информации (e-mail, мессенджер, СМС)», — сообщает эксперт.
Рекомендации для пользователей
Скорее всего вы хоть раз читали 10–15–20 советов о том, как защитить свои личные данные онлайн. Может быть, даже изучали и анализировали 100 страниц о правильной работе в интернете на английском языке (и в конце уснули). На 100% защититься от утечек невозможно, но сделать несколько шагов на пути к безопасности можно самостоятельно.
Мы оставили несколько универсальных рекомендаций.
1. Оцените сервис с точки зрения его работы над своей защищенностью. Были ли у него инциденты с кибератаками? Как компания на них реагировала?
2. Не ставьте слабые пароли и одинаковые пароли. Да, это помогает в считанные секунды подобрать нужный вариант и зайти на сайт. Однако безопасность персональных или банковских данных важнее легкого доступа. Использзуйте многофакторную аутентификацию.
3. Будьте внимательны со ссылками, скачиваемыми файлами, установщиками и так далее.
4. Не пренебрегайте приватностью аккаунта в соцсетях.
5. Проверяйте запрашиваемые приложениями разрешения перед установкой. Ознакомьтесь с политикой и условиями конфиденциальности, а также с отзывами пользователей на странице загрузки.
6. Обезопасьте свои гаджеты: телефон может потеряться, а в компьютер — заглянуть кто угодно. Используйте пароль длиной не менее восьми символов и меняйте его раз в 42 дня (рекомендация Microsoft).
7. Не оставляйте о себе слишком много информации. Оставайтесь в защищенных аккаунтах.
8. Выключайте компьютер :)