Откуда Yandex узнает возраст и пол посетителей сайта?

Осенью 2011 года Яндекс запустил технологию «Крипта» (на основе самообучающегося алгоритма Матрикснет), которая отслеживает поведение пользователя и по собранным данным относит его к той или иной целевой группе. Это позволяет более точно таргетировать поисковую выдачу, сервисы и рекламу.

 

Технология Крипта

Источник: https://yandex.ru/company/technologies/crypta/

Благодаря Крипте каждый из миллионов людей, которые заходят на сайты сервисов Яндекса и его партнёров, видит на их страницах предложения, которые могут быть актуальны именно для него. Другими словами, эта технология даёт рекламодателям возможность показывать свои объявления только тем, на кого они рассчитаны, например людям определенного возраста, дохода и привычек, которые живут в конкретном районе города. Выяснить, принадлежит ли пользователь к такому сегменту, Крипта может по его поведению в интернете.
Система специально устроена так, что Крипта не получает личной информации о людях и тем более не передаёт её рекламодателям. Каждый пользователь для неё — это набор идентификаторов. Крипта может с высокой вероятностью предположить, что пользователю с таким-то идентификатором может быть интересно такое-то предложение, — но кто этот человек, как его зовут и тому подобное, она не знает.

Возможности Крипты

Построение профиля пользователя
Крипта работает на основе различных методов машинного обучения. Чтобы установить признаки, по которым человека можно отнести к какой-либо группе, она исследует сетевое поведение её типичных представителей

: какие слова они используют в запросах, сколько запросов задают за сессию, какие сайты посещают, в какое время суток выходят в интернет и т. д. — всего около 300 факторов.

Затем Крипта рассчитывает значимость каждого фактора для конкретного сегмента пользователей. В итоге получается формула, с помощью которой вычисляется вероятность принадлежности пользователя к данной группе. Эти данные пересчитываются каждый день, чтобы успевать реагировать на изменения в интересах людей. Например, если переход в другую возрастную группу требует времени, то стать автолюбителем можно очень быстро. Сама формула тоже время от времени проверяется и, если нужно, корректируется.
«Склейка» профиля из идентификаторов браузеров и устройств
Как уже было сказано выше, пользователь для Крипты — это не человек с именем и фамилией, а набор идентификаторов. Но почему набор? Дело в том, что каждое устройство и браузер, которым человек пользуется для выхода в сеть, имеет свой уникальный идентификатор — файл cookie, который сайты используют, чтобы узнавать пользователя и, например, не спрашивать каждый раз пароль для входа. Свои идентификаторы есть и у приложений — если приложение (например, Карты или Навигатор) отправляет данные на сервера Яндекса, информацию из его идентификатора Крипта тоже учитывает.
Крипта умеет определять, что все эти идентификаторы принадлежат одному пользователю. В результате их «склейки»; можно получить более полный портрет человека и распределять рекламные сообщения между его устройствами и приложениями. Например, человеку, который со своего домашнего компьютера часто ищет что-то про средиземноморскую кухню, можно в Навигаторе показать рекламу греческого ресторана, когда он будет проезжать неподалёку.
Для «склейки» применяются два метода — вероятностный и факторный. Первый позволяет предположить, что два устройства принадлежат одному человеку, если поведение их пользователей очень похоже. Второй работает с более явными свидетельствами — например, фактором для «склейки» идентификаторов устройств может быть использование одного и того же логина на каком-нибудь сервисе. Правда, даже такой фактор нельзя трактовать однозначно, ведь одним логином часто пользуются несколько человек, члены семьи или коллеги. Поэтому на последнем этапе «склейки» производится обратный процесс, «расклейка» — устранение лишних и ненадёжных связей.

Применение

Данные Крипты о социально-демографических характеристиках аудитории учитываются при отборе контекстных объявлений, которые показываются на сайтах Рекламной сети Яндекса. В медийной рекламе Крипта применяется для показа баннеров людям определенного пола и возраста или, например, только тем, кто почти не смотрит телевизор.
Крипта применяется и в других инструментах для рекламодателей. С её помощью бизнес может показывать свои предложения пользователям, которые похожи на людей, уже ставших его клиентами, и выделять другие сложные сегменты пользователей — для кампаний в Директе, а также в каналах персональной коммуникации. Кроме того, Крипта умеет определять актуальные координаты — их можно использовать для таргетирования кампаний на конкретные районы или, например, для показа рекламы магазина людям, которые оказались рядом с ним.