AI и персональные данные: что можно и что нельзя без штрафов

2026-05-24 · Sintaris · ai, gdpr, 152-fz, dpia, rag, privacy, on-prem

AI и персональные данные: что можно и что нельзя без штрафов

TL;DR. Если ваш AI-проект касается данных людей в EU — это GDPR. Если данных людей в России — это 152-ФЗ. Если и тех, и других — оба закона одновременно. В большинстве случаев это решается не «выбрать правильное облако», а архитектурой пайплайна: где документ, где векторы, где промпт, куда уходит запрос к LLM, кто видит логи. Ниже — практический разбор того, какие шаблоны проходят аудит, а какие нет, на основе того, как SINTARIS внедряет RAG-системы в EU и СНГ.

1. Конфликт: «давайте подключим ChatGPT к нашей CRM»

Запрос приходит почти в каждом первом проекте. Внутри компании уже сидит CRM с фамилиями клиентов, телефонами, иногда — медицинскими или финансовыми деталями. Кто-то увидел демо ChatGPT, и появляется задача «сделайте, чтобы менеджер мог спросить — а оно ответило».

Технически это два дня работы. Юридически — это потенциальный штраф до 4% от мирового оборота по GDPR (Article 83) и/или до 18 миллионов рублей по обновлённому 152-ФЗ (статья 13.11 КоАП РФ в редакции 2024 года). И речь не о теоретической угрозе — Roskomnadzor и европейские DPA (BfDI в Германии, Garante в Италии) уже выписывают такие штрафы за «отправили персональные данные стороннему вендору без правового основания».

Цель этой статьи — показать, что граница не там, где её обычно рисуют («OpenAI = плохо, локальная LLM = хорошо»). Граница — в том, как именно данные движутся через систему, какие из них становятся вашим обработчиком, какие — субпроцессором, и где у вас должно быть зафиксированное правовое основание.

2. Кому это касается

Если в вашем сценарии нет ни одного имени клиента, ни одного email-а, ни одного номера счёта или диагноза — эта статья вам не нужна. Если есть хоть что-то из перечисленного — нужна.

3. Распространённый неправильный подход

Шаблон, который мы видели десятки раз:

  1. Берём CRM-экспорт в CSV.
  2. Закидываем в RAG-индекс через стандартный n8n-workflow.
  3. Подключаем сверху вызов gpt-4o через OpenAI API.
  4. Менеджер пишет в Telegram: «Что мы обсуждали с Ивановым в прошлом месяце?» — бот отвечает.
  5. Всё работает, демо удалось, заказчик доволен.

Почему это неприемлемо с точки зрения регуляторов:

В России: статья 9 152-ФЗ требует согласия в письменной форме для обработки специальных категорий (здоровье, политические взгляды и т.п.). Никакого согласия на «передачу истории общения с менеджером в OpenAI» клиент не давал.

4. Инженерный подход: где провести границу

Ключевая идея, которую мы повторяем в каждом аудите: граница персональных данных в AI-системе должна быть видна на схеме архитектуры. Если её не видно — её нет.

Базовая модель, которую мы применяем:

flowchart LR
  subgraph Внутренний периметр заказчика
    CRM[(CRM с PII)]
    KB[(База знаний RAG)]
    LLM_LOCAL[Локальная LLM<br/>Ollama / llama.cpp]
    APP[Приложение / Бот]
  end
  subgraph Внешние сервисы
    LLM_CLOUD[Cloud LLM<br/>OpenAI / Anthropic]
  end

  CRM -- санитизация --> KB
  APP -- вопрос пользователя --> KB
  KB -- топ-K чанков<br/>БЕЗ имён --> LLM_LOCAL
  KB -. опционально, без PII .-> LLM_CLOUD

Два правила:

  1. PII не пересекает периметр. Документы в RAG-индексе — это либо обезличенные тексты, либо тексты с метками (<CLIENT_ID:42> вместо «Иванов Иван»). Пересборка имени происходит на стороне приложения после ответа LLM, через look-up в защищённой таблице.
  2. Облачная LLM — опциональна и аудируема. Если она вообще нужна, к ней уходит только обезличенный фрагмент, и каждый такой вызов логируется. Если регулятор приходит — у вас есть журнал.

Шаги, чтобы это построить:

5. Диаграмма + таблица: что куда уходит

Сводная таблица того, какие данные допустимо отправлять каким моделям при разных правовых основаниях:

Категория данных Локальная LLM (Ollama, ваш сервер) EU-located cloud LLM (Azure OpenAI EU, Mistral) US cloud LLM (OpenAI, Anthropic) RU-located cloud LLM (YandexGPT, GigaChat)
Публичные документы (регламенты, каталоги) Да Да Да Да
Внутренние SOPs без PII Да Да Да, при наличии DPA Да
Email-переписка с клиентами Да Да, при наличии DPA + согласия Только обезличенно Только обезличенно
ФИО + контакты клиентов Да Только в обезличенном виде Нет Только при российском резидентстве данных
Медицинские данные / спец. категории Да, с DPIA Только с явным согласием + DPIA Нет Нет, без отдельного основания
Финансовые/банковские Да, с DPIA Только обезличенно Нет Нет

Это упрощение. Реальная матрица для конкретного проекта строится в рамках DPIA, но эта таблица — хорошая стартовая точка.

6. Sintaris mini-case

Продукты Maria — clinic appointment notifier и Clinic assistant — пример этого подхода на практике. Задача: пациент должен через Telegram уточнить часы работы, перенести запись, получить копию рецепта. Стандартный соблазн — взять gpt-4o-mini, скормить ему всю PostgreSQL CRM, готово.

Техническая реализация:

Результат: стоимость LLM — около 2 евро в месяц (классификация — это короткие запросы), число звонков в регистратуру упало на 40–50%, и юридическая часть — на одной странице, потому что персональные данные физически не выходят за периметр.

Подробности архитектуры — в KB-главе Clinic assistant § 9 «Security & data boundary».

7. Чек-лист (15 пунктов) перед запуском AI-пилота с персональными данными

  1. Определена и записана цель обработки для каждой категории данных.
  2. Выбрано и задокументировано правовое основание (согласие / договор / законный интерес / иное).
  3. Проведена DPIA, если объём систематический.
  4. Заключён DPA с каждым субпроцессором (включая LLM-провайдеров, если используются).
  5. Подписаны SCC / standard contractual clauses при трансфере вне EEA.
  6. Реестр обработки (Article 30 GDPR) обновлён.
  7. PII не попадает в эмбеддинги напрямую — маскирование на стадии ингеста.
  8. Документы в индексе классифицированы по чувствительности.
  9. Диспетчер моделей имеет правило «sensitive → local-only», проверяемое автотестом.
  10. Логи запросов к LLM не содержат PII (или хранятся отдельно и недолго).
  11. Audit log действий пользователя и системы — есть и хранится не меньше требуемого срока.
  12. Механизм DSAR (право доступа) — отрабатывается на тестовом запросе раз в квартал.
  13. Механизм удаления (right to erasure) — каскадно удаляет из индекса, эмбеддингов, истории.
  14. Согласие пользователя — фиксируется с timestamp + версия policy + IP.
  15. Privacy Policy опубликована, актуальна, переведена на все языки сайта.

8. Риски

9. Что делать дальше

Если у вас уже есть AI-пилот с реальными клиентскими данными — начните с аудита по чек-листу выше. Если только планируете — заложите в архитектуру два правила: «PII не пересекает периметр» и «диспетчер моделей с политикой». Это два архитектурных решения, которые потом нельзя дёшево добавить — но дёшево включить с самого начала.

Если хочется чужими руками — у SINTARIS есть продуктизированный AI Audit, внутри которого DPIA-light + архитектурный план приватности входит по умолчанию. Это не реклама ради рекламы — это просто пакет, который мы делаем достаточно часто, чтобы он стоил фиксированных денег.

10. Источники


Sintaris делает аудиты процессов и AI-пилоты для бизнеса в EU и СНГ. Скидка −25% на пакеты «Audit» и «Pilot» для словенских компаний — с 1 по 30 июня 2026 года.