Автоматическое извлечение данных из анализов крови с соблюдением врачебной тайны
Врачам приходится обрабатывать сотни результатов анализов, которые пациенты приносят в виде фотографий:
Результат: потеря времени, ошибки в данных, нарушение конфиденциальности.
Система автоматического распознавания и структурирования медицинских анализов с полной локальной обработкой:
| Этап | Что происходит | Результат |
|---|---|---|
| 1. Загрузка | Врач загружает фото или PDF с результатом анализа через локальный интерфейс | Файл сохраняется в защищённой папке |
| 2. Предобработка | Коррекция геометрии, улучшение контраста, устранение засветов и поворотов | Изображение готово к распознаванию |
| 3. OCR | Распознавание текста и цифр. Поддержка трёх OCR-моделей (EasyOCR, Tesseract, Surya) — выбор по качеству снимка | Неотформатированный текст |
| 4. LLM | Локальная языковая модель (любая HF-модель) извлекает показатели и формирует JSON | Структурированные данные |
| 5. Проверка | Врач визуально проверяет распознанные данные перед сохранением | Подтверждённые данные в базе |
Фото анализа крови (jpg)
Неотформатированный текст после OCR
Извлечённые показатели в формате JSON
| Показатель | Значение |
|---|---|
| Точность извлечения показателей (LLM) | 93–95% |
| WER для цифр (качественные снимки) | ~5% ошибок |
| WER для цифр (зашумленные снимки) | ~14% ошибок |
| Время обработки 1 файла | 35–45 секунд (CPU) |
| Обработано файлов в проекте | 587 (jpg, pdf) |
| Безопасность | 100% локально (без внешних API) |
💡 WER (Word Error Rate) — процент ошибок распознавания относительно эталонного значения. 5% на качественных снимках (скрины) и 14% на зашумленных (фото с экрана, бумажные фото с засветами).
GPU-ускорение: использование даже базовой видеокарты сократит время обработки в разы (до 5–10 секунд на файл).
| Направление | Что добавить |
|---|---|
| Автоматическая предобработка | Умное устранение размытия, автоматическая настройка яркости/контраста |
| Подсветка неуверенных значений | Выделение участков, распознанных с низкой уверенностью, для ручной проверки |
| Расширение словаря синонимов | Добавление новых названий биомаркеров для повышения точности LLM |
| Интеграция с МИС | Автоматическая загрузка распознанных данных в медицинскую информационную систему |
| Рекомендации по съёмке | Подсказки пользователю для получения качественных снимков (штатив, освещение) |
Хотите внедрить автоматизацию обработки медицинских документов? Напишите мне — обсудим адаптацию под ваши задачи.