🩺 Приватный анализ медицинских документов (OCR + LLM)

Автоматическое извлечение данных из анализов крови с соблюдением врачебной тайны

🎯 Проблема

Врачам приходится обрабатывать сотни результатов анализов, которые пациенты приносят в виде фотографий:

  • Низкое качество снимков: фото на телефон, с экрана, с поворотом и засветами
  • Ручной ввод данных: врачи тратят время на перепечатывание цифр вместо работы с пациентами
  • Запрет на передачу данных: закон запрещает отправлять персональные данные пациентов внешним провайдерам (OpenAI, Yandex и др.)
  • Риск ошибок: человеческий фактор при ручном вводе может привести к неверному диагнозу

Результат: потеря времени, ошибки в данных, нарушение конфиденциальности.

💡 Решение

Система автоматического распознавания и структурирования медицинских анализов с полной локальной обработкой:

✅ 100% локальная обработка ✅ Точность извлечения >90% ✅ Структурированный JSON ✅ Проверка данных перед сохранением

🔧 Как это работает

Этап Что происходит Результат
1. Загрузка Врач загружает фото или PDF с результатом анализа через локальный интерфейс Файл сохраняется в защищённой папке
2. Предобработка Коррекция геометрии, улучшение контраста, устранение засветов и поворотов Изображение готово к распознаванию
3. OCR Распознавание текста и цифр. Поддержка трёх OCR-моделей (EasyOCR, Tesseract, Surya) — выбор по качеству снимка Неотформатированный текст
4. LLM Локальная языковая модель (любая HF-модель) извлекает показатели и формирует JSON Структурированные данные
5. Проверка Врач визуально проверяет распознанные данные перед сохранением Подтверждённые данные в базе

💻 Пример интерфейса

1. Исходное изображение

Исходное изображение

Фото анализа крови (jpg)

2. Распознанный текст (OCR)

Распознанный текст

Неотформатированный текст после OCR

3. Структурированные данные (JSON)

JSON

Извлечённые показатели в формате JSON

✨ Ключевые преимущества

  • Полная конфиденциальность — данные не покидают локальный контур клиники, соответствие требованиям врачебной тайны
  • Экономия времени врачей — автоматизация рутинного ввода данных позволяет сосредоточиться на пациентах
  • Снижение ошибок — минимизация человеческого фактора при переносе цифр из бумажного бланка
  • Структурированные данные — результаты сразу готовы для анализа, экспорта в Excel/CSV или интеграции с МИС
  • Гибкость настройки — поддержка 3 OCR-моделей и любых локальных LLM с HuggingFace
  • Работа с разными форматами — поддержка фото, сканов, PDF различных лабораторий

📈 Метрики

Показатель Значение
Точность извлечения показателей (LLM) 93–95%
WER для цифр (качественные снимки) ~5% ошибок
WER для цифр (зашумленные снимки) ~14% ошибок
Время обработки 1 файла 35–45 секунд (CPU)
Обработано файлов в проекте 587 (jpg, pdf)
Безопасность 100% локально (без внешних API)
💡 WER (Word Error Rate) — процент ошибок распознавания относительно эталонного значения. 5% на качественных снимках (скрины) и 14% на зашумленных (фото с экрана, бумажные фото с засветами).

GPU-ускорение: использование даже базовой видеокарты сократит время обработки в разы (до 5–10 секунд на файл).

🚀 Варианты улучшения

Направление Что добавить
Автоматическая предобработка Умное устранение размытия, автоматическая настройка яркости/контраста
Подсветка неуверенных значений Выделение участков, распознанных с низкой уверенностью, для ручной проверки
Расширение словаря синонимов Добавление новых названий биомаркеров для повышения точности LLM
Интеграция с МИС Автоматическая загрузка распознанных данных в медицинскую информационную систему
Рекомендации по съёмке Подсказки пользователю для получения качественных снимков (штатив, освещение)

🛠️ Технологии

Python EasyOCR Tesseract Surya Local LLM HuggingFace OpenCV FastAPI JSON

🔗 Ссылки

@ Написать в Telegram

Хотите внедрить автоматизацию обработки медицинских документов? Напишите мне — обсудим адаптацию под ваши задачи.