Анонимизация данных не делает вас анонимным. Вот почему.

Когда компании заявляют, что ваши личные данные анонимизированы, это звучит так, будто ваши личные данные в онлайне стерты навсегда. Ваша информация становится просто шумом в наборе данных, поэтому вы можете расслабиться. Что ж, не совсем так.

Анонимизированные данные — это данные, из которых были удалены самые очевидные идентификаторы личности, такие как имя или домашний адрес. Но в мире взаимосвязанных баз данных достаточно лишь нескольких, казалось бы, не связанных друг с другом деталей, чтобы выследить человека.

Исследование(новое окно) показало, что необходимо всего 15 информационных точек, чтобы идентифицировать 99,98 % людей в наборе данных из миллионов записей. А когда ИИ сопоставляет факты о вашей активности в онлайне, разрыв между «анонимным» и «идентифицированным» сокращается.

Давайте разберемся, что на самом деле означает анонимизация данных и что вы можете сделать, чтобы лучше защитить свою конфиденциальность.

Что такое анонимизация данных?
Анонимизация или псевдонимизация
Распространенные методы анонимизации данных
Как компании используют анонимизированные данные
Деанонимизация, или почему анонимизированные данные не являются по-настоящему анонимными
ИИ делает деанонимизацию быстрее и дешевле
Защитите свою конфиденциальность путем минимизации и шифрования данных
Анонимизация не является гарантией конфиденциальности

Что такое анонимизация данных?

Анонимизация данных — это необратимый процесс удаления любых персональных идентификаторов из точек данных, таких как ваше имя, адрес электронной почты, контактный номер или дата рождения. Цель состоит в том, чтобы максимально разорвать связь между записью и человеком.

Однако после анонимизации данные по-прежнему включают косвенные зацепки, такие как ваше примерное местоположение, привычки просмотра страниц и возрастной диапазон. По отдельности эта информация довольно безобидна, но все вместе эти данные формируют шаблон, указывающий на вас.

Диаграмма, объясняющая принцип работы анонимизации

Некоторые типы данных, например биометрические, особенно трудно (или даже невозможно) по-настоящему анонимизировать. Вы можете создать безопасное имя пользователя, но не можете изменить лицо человека, его отпечаток пальца или рисунок радужной оболочки глаза.

Когда данные по-настоящему анонимизированы, они больше не считаются персональными в соответствии с законами о конфиденциальности, такими как GDPR. Это означает, что компании могут использовать их без согласия и соблюдения требований к защите, которые применяются к персональным данным.

Но в пункте 26 преамбулы GDPR(новое окно) установлена высокая планка: данные не должны больше идентифицировать личность, даже с учетом другой информации и методов, которые могут быть обоснованно использованы для их повторной идентификации. Таким образом, удаления имен или адресов электронной почты недостаточно, если остальные данные все еще указывают на кого-то.

Анонимизация или псевдонимизация

В то время как анонимизация навсегда удаляет идентифицирующую информацию, чтобы гарантировать невозможность отследить ее до конкретного лица, псевдонимизация заменяет эти данные ярлыком, токеном или кодом. Настоящие личные данные хранятся отдельно с использованием безопасного ключа или таблицы поиска, но при наличии соответствующего доступа этот ярлык можно снова связать с реальным человеком.

Примером псевдонимизации являются медицинские исследования, в которых имена пациентов заменяются кодами. Исследователи могут продолжать отслеживать данные, но только уполномоченный персонал, имеющий ключ, может повторно связать их с конкретным лицом.

Это различие простое, но важное. Псевдонимизация считается обработкой персональных данных в соответствии с такими правовыми нормами, как GDPR, поскольку данные все еще можно связать с кем-либо. Анонимизированные данные, напротив, не подпадают под эти обязательства только тогда, когда повторная идентификация становится обоснованно невозможной.

Распространенные методы анонимизации данных

Компании используют различные методы анонимизации в зависимости от того, как они планируют использовать данные. Вот некоторые из наиболее распространенных способов:

Маскировка данных заменяет информацию вымышленными данными, например, заменяя номер телефона на фиктивный.

Обобщение делает данные менее конкретными, например, путем использования возрастных диапазонов вместо точного возраста.

Перестановка данных перемешивает информацию между записями так, что они больше не соответствуют исходному человеку.

Пертурбация данных скрывает отдельные детали, сохраняя общие тенденции данных, например, изменяя данные путем округления чисел.

Синтетические данные основываются на искусственных данных, которые имитируют закономерности исходного набора данных без прямого использования реальных записей.

Эти методы могут снизить риски для конфиденциальности, но их эффективность полностью зависит от того, насколько качественно вы их примените. Даже в этом случае они могут не удалить все зацепки, которые позволяют идентифицировать личность.

Как компании используют анонимизированные данные

Анонимизированные данные ценны тем, что компании могут законно использовать их по своему усмотрению без вашего согласия. Стандартные способы использования включают:

Аналитика и разработка: компании изучают поведение пользователей для улучшения продуктов, измерения тенденций и принятия бизнес-решений.

Реклама: история просмотров и покупок может использоваться для создания сегментов аудитории для таргетированной рекламы даже без привязки к вашему имени.

Брокеры данных: часть данных агрегируется, упаковывается и перепродается брокерами данных. Эти компании объединяют информацию из приложений, веб-сайтов, государственных реестров, данные об остатках на счетах и многое другое для создания подробных профилей, которые продаются любому желающему при минимальном юридическом надзоре.

Обучение моделей ИИ: большие наборы данных часто используются для обучения систем ИИ, включая данные о действиях пользователей, купленные наборы данных, а также общедоступные или собранные из открытых источников сведения.

Медицинские исследования: в некоторых странах(новое окно) анонимизированные медицинские данные могут продаваться фармацевтическим компаниям или передаваться исследователям.

Анонимизированные данные могут приносить пользу, например, для улучшения услуг или поддержки исследований. Проблема в том, что это создает сильный коммерческий стимул для брокеров данных и рекламодателей собирать, объединять, делиться, переупаковывать и продавать информацию о людях, часто такими способами, которые они не до конца понимают или на которые не дают осознанного согласия. Тем, кто позже решит отказаться от этого, будет непросто удалить свои данные.

Регулятор конфиденциальности Калифорнии создал систему DROP(новое окно), поскольку удаление данных у сотен брокеров данных исторически было сложным процессом для обычных людей. С данными для обучения ИИ это гораздо сложнее, так как после того, как данные повлияли на обученную модель, их удаление может потребовать методов «машинного разучивания»(новое окно), к которым компании ИИ не проявляют интереса(новое окно).

Реидентификация данных, или почему анонимизированные данные не являются по-настоящему анонимными

Если кто-то скажет вы, что ищет мужчину лет 30, который водит белую машину и живет в вашем районе, вы, возможно, уже догадаетесь, о ком идет речь. Ни одна из этих деталей сама по себе не идентифицирует личность, но вместе они помогают сузить круг возможностей, исключая всех остальных. Анонимизированные данные работают так же: даже если имена и контактная информация удалены, оставшаяся информация все равно может стать разоблачающей при объединении достаточного количества деталей.

Когда эти закономерности сопоставляются с другими источниками, такими как социальные сети или государственные реестры, становится возможным подключить якобы анонимные данные к конкретному человеку. Это называется реидентификацией, и зачастую это проще, чем вы ожидаете.

Диаграмма, объясняющая принцип работы реидентификации

Исследователь Латанья Суини за 50 долларов приобрела набор данных из больницы(новое окно), который содержал косвенные идентификаторы, такие как демографические данные, диагнозы и информация о счетах. Раскрывающие личность сведения, такие как имена, не были включены. Сопоставив эту информацию с местными новостями о госпитализациях, она смогла соотнести 43% пациентов с их записями, включая полную историю болезни пациента, попавшего в аварию на мотоцикле.

ИИ делает деанонимизацию быстрее и дешевле

Если единственной защитой от реидентификации на основе анонимных данных являются время, терпение и сопоставление вручную, то с появлением ИИ эта косвенная защита разрушается.

Исследования показывают, что большие языковые модели (LLM) могут анализировать посты человека на разных платформах, сопоставлять их с общедоступной информацией и идентифицировать анонимных пользователей с невероятной точностью. В одном исследовании по широкомасштабной деанонимизации(новое окно) методы на основе LLM идентифицировали до 68% людей, и в случае совпадения они оказывались верны в 90% случаев.

Суини заплатила всего 50 долларов за набор данных из сотен тысяч записей. Сегодня LLM могут деанонимизировать профили по цене 1–4 доллара за каждый и выполнять эту работу автоматически. Им также не нужны чистые структурированные файлы — они могут находить закономерности в обычных постах и комментариях.

Как говорит один из исследователей:

«Спросите себя: может ли группа опытных специалистов по расследованию узнать вашу личность по вашим постам? Если да, то LLM-агенты, скорее всего, справятся с этим не хуже, а затраты на такие действия постоянно снижаются».

Защитите свою конфиденциальность путем минимизации и шифрования данных

Анонимизации данных недостаточно, так как деанонимизация возможна при сопоставлении разрозненных фактов. Лучший способ защитить себя — это минимизировать свой цифровой след, затрудняя вашу идентификацию.

Вам не обязательно полностью исчезать из сети, но стоит более осознанно подходить к тому, чем и как вы делитесь. Вот несколько практических советов:

Разделяйте свои личные данные, чтобы защититься от сопоставления информации

Когда вы используете одну и ту же электронную почту и имя пользователя на всех платформах, ваши данные легко объединить. С помощью генератора можно легко создать разные имена пользователей для разных аккаунтов, но использование уникальных адресов электронной почты для каждого сервиса может стать кошмаром, если вы не используете псевдонимы электронной почты.

Псевдонимы позволяют создавать отдельные адреса, которые пересылают сообщения в ваш основной почтовый ящик, не раскрывая ваш реальный адрес электронной почты и личные данные. Если вы используете уникальный псевдоним электронной почты для каждого сервиса, вы сможете понять, откуда произошла утечка или продажа данных.

Например, если вы создадите один псевдоним только для компании А, а позже получите на него письмо от компании Б, вы поймете, что компания А поделилась вашим адресом, продала его, допустила утечку или потеряла над ним контроль. После этого вы сможете просто отключить этот псевдоним, что не затронет ваш основной почтовый ящик или другие псевдонимы.

Избегайте единообразия, чтобы защититься от выявления закономерностей

Чем более единообразна ваша информация на разных платформах, тем проще составить ваш уникальный профиль. По возможности избегайте предоставления лишних сведений.

Например, указывайте регион вместо точного города, округляйте свой возраст и пропускайте необязательные поля. Также стоит вносить небольшие изменения в стиль письма — например, использовать разные повторяющиеся фразы, знаки препинания или типичные опечатки, чтобы ограничить возможности автоматической идентификации.

Ограничьте свой цифровой след, чтобы защититься от анализа с помощью ИИ

LLM-модели могут идентифицировать людей, находя закономерности в их постах и стиле письма. Чем меньше в открытом доступе контента, связанного с вашими личными данными, тем меньше материала для анализа. Задумайтесь, сколько личной информации вы раскрываете в своих публикациях — это не только факты, но и привычки, мнения и повторяющиеся темы, которые выделяют вас. Обязательно откажитесь от обучения ИИ на как можно большем количестве платформ.

Пользуйтесь сервисами со сквозным шифрованием для защиты от сбора данных

Шифрование не просто защищает данные от хакеров, но и в принципе ограничивает то, что можно прочитать. Провайдер электронной почты, который не может прочитать ваши сообщения, не сможет сканировать их для рекламы, использовать для обучения ИИ или делиться сведениями о вас с брокерами данных.

Используйте электронную почту со сквозным шифрованием для конфиденциального общения, защищенное облачное хранилище для безопасного хранения файлов и обмена ими, а также VPN(новое окно) без журналов активности для шифрования ваших действий в сети — всё это уменьшает объем данных, которые вы раскрываете не по своей воле.

Откажитесь от сбора данных для защиты от брокеров

Вы можете удалить личную информацию из интернета, даже у брокеров данных, но для этого потребуется настойчивость. Это не остановит сбор данных в будущем, но позволит начать с чистого листа. В дальнейшем минимизация цифрового следа и шифрование данных помогут ограничить объем собираемой информации.

Схема, объясняющая, как стать более анонимным

Анонимизация не является гарантией конфиденциальности

Главный вывод заключается в том, что «анонимизированный» не всегда означает безопасный, постоянный или не поддающийся отслеживанию. Чем меньше личной информации вы сообщаете, чем меньше вы последовательны в своих данных на разных платформах и чем больше контроля вы сохраняете над своими аккаунтами и псевдонимами, тем меньше остается зацепок, позволяющих выйти на вас.

Ваши данные могут считаться анонимными на бумаге, но ваша самая надежная защита начинается гораздо раньше: с того, чем и где вы решили поделиться, и насколько легко это связать с остальной частью вашей цифровой жизни. Это также подразумевает осознанный выбор сервисов, которыми вы пользуетесь каждый день, и компаний, которые ими владеют.

Приложения Proton имеют открытый исходный код, не содержат рекламы и разработаны так, чтобы исключить отслеживание и обучение ИИ на ваших данных. Благодаря сквозному шифрованию, шифрованию с нулевым доступом и бизнес-модели, финансируемой исключительно за счет сообщества платных подписчиков, нам не нужно эксплуатировать ваши данные, мы не можем прочитать большую их часть — и не хотим этого.