AI и персональные данные: что можно и что нельзя без штрафов

2026-05-24 · Sintaris · ai, gdpr, 152-fz, dpia, rag, privacy, on-prem

AI и персональные данные: что можно и что нельзя без штрафов

TL;DR. Если ваш AI-проект касается данных людей в EU — это GDPR. Если данных людей в России — это 152-ФЗ. Если и тех, и других — оба закона одновременно. В большинстве случаев это решается не «выбрать правильное облако», а архитектурой пайплайна: где документ, где векторы, где промпт, куда уходит запрос к LLM, кто видит логи. Ниже — практический разбор того, какие шаблоны проходят аудит, а какие нет, на основе того, как SINTARIS внедряет RAG-системы в EU и СНГ.

1. Конфликт: «давайте подключим ChatGPT к нашей CRM»

Запрос приходит почти в каждом первом проекте. Внутри компании уже сидит CRM с фамилиями клиентов, телефонами, иногда — медицинскими или финансовыми деталями. Кто-то увидел демо ChatGPT, и появляется задача «сделайте, чтобы менеджер мог спросить — а оно ответило».

Технически это два дня работы. Юридически — это потенциальный штраф до 4% от мирового оборота по GDPR (Article 83) и/или до 18 миллионов рублей по обновлённому 152-ФЗ (статья 13.11 КоАП РФ в редакции 2024 года). И речь не о теоретической угрозе — Roskomnadzor и европейские DPA (BfDI в Германии, Garante в Италии) уже выписывают такие штрафы за «отправили персональные данные стороннему вендору без правового основания».

Цель этой статьи — показать, что граница не там, где её обычно рисуют («OpenAI = плохо, локальная LLM = хорошо»). Граница — в том, как именно данные движутся через систему, какие из них становятся вашим обработчиком, какие — субпроцессором, и где у вас должно быть зафиксированное правовое основание.

2. Кому это касается

Малому и среднему бизнесу, где есть клиентские данные: клиники, школы, юристы, агентства, B2B-продажи, любые e-commerce.
Стартапам, которые «прикрутили GPT» к продукту, а юридический ревью отложили на потом.
Руководителям ИТ-отделов, которым «бизнес» приносит идею AI-ассистента и спрашивает: «когда внедрим?».
Соло-консультантам и экспертам, монетизирующим свою экспертизу через AI-бота с подпиской.

Если в вашем сценарии нет ни одного имени клиента, ни одного email-а, ни одного номера счёта или диагноза — эта статья вам не нужна. Если есть хоть что-то из перечисленного — нужна.

3. Распространённый неправильный подход

Шаблон, который мы видели десятки раз:

Берём CRM-экспорт в CSV.
Закидываем в RAG-индекс через стандартный n8n-workflow.
Подключаем сверху вызов gpt-4o через OpenAI API.
Менеджер пишет в Telegram: «Что мы обсуждали с Ивановым в прошлом месяце?» — бот отвечает.
Всё работает, демо удалось, заказчик доволен.

Почему это неприемлемо с точки зрения регуляторов:

Передача персональных данных третьему лицу без правового основания. OpenAI становится субпроцессором, но без DPA (Data Processing Agreement) и без анализа: где физически находятся серверы, как долго хранятся запросы (по умолчанию — да, хранятся), кто к ним имеет доступ.
Цель обработки не определена и не зафиксирована. GDPR требует, чтобы для каждой категории данных была явная и зафиксированная цель. «Удобнее менеджеру» — не цель.
Принцип минимизации нарушен. В индекс ушло гораздо больше, чем нужно для ответа на конкретный класс вопросов.
DPIA (Data Protection Impact Assessment) не проводилась, хотя для «систематической автоматической обработки больших объёмов персональных данных» — обязательна (GDPR Article 35).

В России: статья 9 152-ФЗ требует согласия в письменной форме для обработки специальных категорий (здоровье, политические взгляды и т.п.). Никакого согласия на «передачу истории общения с менеджером в OpenAI» клиент не давал.

4. Инженерный подход: где провести границу

Ключевая идея, которую мы повторяем в каждом аудите: граница персональных данных в AI-системе должна быть видна на схеме архитектуры. Если её не видно — её нет.

Базовая модель, которую мы применяем:

flowchart LR
  subgraph Внутренний периметр заказчика
    CRM[(CRM с PII)]
    KB[(База знаний RAG)]
    LLM_LOCAL[Локальная LLM<br/>Ollama / llama.cpp]
    APP[Приложение / Бот]
  end
  subgraph Внешние сервисы
    LLM_CLOUD[Cloud LLM<br/>OpenAI / Anthropic]
  end

  CRM -- санитизация --> KB
  APP -- вопрос пользователя --> KB
  KB -- топ-K чанков<br/>БЕЗ имён --> LLM_LOCAL
  KB -. опционально, без PII .-> LLM_CLOUD

Два правила:

PII не пересекает периметр. Документы в RAG-индексе — это либо обезличенные тексты, либо тексты с метками (<CLIENT_ID:42> вместо «Иванов Иван»). Пересборка имени происходит на стороне приложения после ответа LLM, через look-up в защищённой таблице.
Облачная LLM — опциональна и аудируема. Если она вообще нужна, к ней уходит только обезличенный фрагмент, и каждый такой вызов логируется. Если регулятор приходит — у вас есть журнал.

Шаги, чтобы это построить:

Классификация документов перед ингестом: помечаем поля как PII / sensitive / public. Делается один раз скриптом на регулярных выражениях + ручной review.
Маскирование имён, email-ов, телефонов, дат рождения, номеров полисов — на этапе чанкирования. Реальные значения остаются в crm.contacts(id, value).
Локальная LLM по умолчанию. Для большинства SMB-сценариев llama3.1:8b-instruct через Ollama выдаёт качество, которого достаточно. Для нагрузок повыше — qwen2.5:14b.
Диспетчер моделей с правилами. Полит if has_pii then refuse_cloud_provider. Это не «надёжность через дисциплину», это конфиг файла, проверяемый автотестами.

5. Диаграмма + таблица: что куда уходит

Сводная таблица того, какие данные допустимо отправлять каким моделям при разных правовых основаниях:

Категория данных	Локальная LLM (Ollama, ваш сервер)	EU-located cloud LLM (Azure OpenAI EU, Mistral)	US cloud LLM (OpenAI, Anthropic)	RU-located cloud LLM (YandexGPT, GigaChat)
Публичные документы (регламенты, каталоги)	Да	Да	Да	Да
Внутренние SOPs без PII	Да	Да	Да, при наличии DPA	Да
Email-переписка с клиентами	Да	Да, при наличии DPA + согласия	Только обезличенно	Только обезличенно
ФИО + контакты клиентов	Да	Только в обезличенном виде	Нет	Только при российском резидентстве данных
Медицинские данные / спец. категории	Да, с DPIA	Только с явным согласием + DPIA	Нет	Нет, без отдельного основания
Финансовые/банковские	Да, с DPIA	Только обезличенно	Нет	Нет

Это упрощение. Реальная матрица для конкретного проекта строится в рамках DPIA, но эта таблица — хорошая стартовая точка.

6. Sintaris mini-case

Продукты Maria — clinic appointment notifier и Clinic assistant — пример этого подхода на практике. Задача: пациент должен через Telegram уточнить часы работы, перенести запись, получить копию рецепта. Стандартный соблазн — взять gpt-4o-mini, скормить ему всю PostgreSQL CRM, готово.

Техническая реализация:

LLM в системе используется только для классификации интента (confirm / reschedule / cancel / question / emergency).
В промпт уходит: тип сообщения (текст / голос → транскрипт) + первое имя пациента (а не полное ФИО) + город. Никаких диагнозов, никаких рецептов, никаких номеров полисов.
Само бронирование — детерминированный код, который читает свободные слоты из календаря и пишет в CRM напрямую.
Передача рецепта — отдельный воркфлоу: пациент авторизуется через одноразовый код, документ отдаётся через защищённый канал, событие пишется в аудит-лог.

Результат: стоимость LLM — около 2 евро в месяц (классификация — это короткие запросы), число звонков в регистратуру упало на 40–50%, и юридическая часть — на одной странице, потому что персональные данные физически не выходят за периметр.

Подробности архитектуры — в KB-главе Clinic assistant § 9 «Security & data boundary».

7. Чек-лист (15 пунктов) перед запуском AI-пилота с персональными данными

Определена и записана цель обработки для каждой категории данных.
Выбрано и задокументировано правовое основание (согласие / договор / законный интерес / иное).
Проведена DPIA, если объём систематический.
Заключён DPA с каждым субпроцессором (включая LLM-провайдеров, если используются).
Подписаны SCC / standard contractual clauses при трансфере вне EEA.
Реестр обработки (Article 30 GDPR) обновлён.
PII не попадает в эмбеддинги напрямую — маскирование на стадии ингеста.
Документы в индексе классифицированы по чувствительности.
Диспетчер моделей имеет правило «sensitive → local-only», проверяемое автотестом.
Логи запросов к LLM не содержат PII (или хранятся отдельно и недолго).
Audit log действий пользователя и системы — есть и хранится не меньше требуемого срока.
Механизм DSAR (право доступа) — отрабатывается на тестовом запросе раз в квартал.
Механизм удаления (right to erasure) — каскадно удаляет из индекса, эмбеддингов, истории.
Согласие пользователя — фиксируется с timestamp + версия policy + IP.
Privacy Policy опубликована, актуальна, переведена на все языки сайта.

8. Риски

Регуляторный. Штраф + предписание остановить обработку. Реалистичный диапазон для EU SMB: 5–50 тыс. евро на первом инциденте, кратно выше при повторе.
Репутационный. «Слив данных через AI» — заголовок, который не хочется на себе видеть.
Технический. Vendor lock-in: миграция между LLM-провайдерами без архитектуры диспетчера — болезненная.
Командный. Без выписанной политики разработчики «срежут угол» — отправят PII в облако «для тестов» и забудут.

9. Что делать дальше

Если у вас уже есть AI-пилот с реальными клиентскими данными — начните с аудита по чек-листу выше. Если только планируете — заложите в архитектуру два правила: «PII не пересекает периметр» и «диспетчер моделей с политикой». Это два архитектурных решения, которые потом нельзя дёшево добавить — но дёшево включить с самого начала.

Если хочется чужими руками — у SINTARIS есть продуктизированный AI Audit, внутри которого DPIA-light + архитектурный план приватности входит по умолчанию. Это не реклама ради рекламы — это просто пакет, который мы делаем достаточно часто, чтобы он стоил фиксированных денег.

10. Источники

Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv:2005.11401.
Cormack, G., Clarke, C., Buettcher, S. (2009). Reciprocal Rank Fusion outperforms Condorcet and individual rank learning methods. SIGIR '09.
Регламент (ЕС) 2016/679 (GDPR), статьи 5, 6, 30, 35, 83.
Федеральный закон от 27.07.2006 № 152-ФЗ «О персональных данных» (в редакции 2024 г.).
Roskomnadzor — методические рекомендации по обработке ПДн (открытые материалы 2023–2025).
BfDI (Germany), Garante (Italy) — обзоры решений по AI-инцидентам, 2023–2025.
Внутренняя KB SINTARIS: Taris § 9 Security & data boundary, Architecture patterns § 9 Local-first default.

Sintaris делает аудиты процессов и AI-пилоты для бизнеса в EU и СНГ. Скидка −25% на пакеты «Audit» и «Pilot» для словенских компаний — с 1 по 30 июня 2026 года.