Система интеллектуального поиска по базе судебных документов с точным указанием источников
Юридические документы имеют сложную структуру и большой объём. Простой поиск не работает:
Результат: потеря времени, ошибки в интерпретации, невозможность проверить информацию.
Гибридная RAG-система, сочетающая несколько подходов для максимальной точности и скорости:
| Метод | Что делает | Преимущество |
|---|---|---|
| Постраничный чанкинг | Нарезка документов по страницам с перекрытием. Сохранение метаданных: номер дела, статья, страница | Точный grounding + сохранение контекста между страницами |
| Гибридный поиск | Векторы (смысл) + ключевые слова (точное совпадение) + фильтрация по метаданным | Находит как «расторжение контракта», так и точные значения (даты, имена, номера дел) |
| Агентный роутинг | LLM выбирает оптимальный инструмент поиска в зависимости от типа вопроса | Не тратит токены на полный поиск, если вопрос решается через метаданные |
| Генерация ответа | LLM формирует ответ на основе найденных чанков с указанием источника | Каждый ответ привязан к документу и странице — можно проверить |
Пример ответа системы с указанием источника (документ, страница)
| Показатель | Значение |
|---|---|
| Точность (детерминированные вопросы) | 0.90 |
| Время ответа (простые вопросы) | < 1 секунды (да/нет, цифра, имя) |
| Время ответа (полный текст) | 3–5 секунд |
| Документов в базе | 300 |
| Вопросов в тестовой выборке | 1000 |
| Grounding (указание источника) | Всегда (документ + страница) |
| Тип | Пример вопроса | Что найдёт |
|---|---|---|
| Boolean | «Было ли заседание 15 марта?» | Точное совпадение даты + статус |
| Name | «В каком суде рассматривали дело X?» | Название суда из метаданных |
| Date | «Когда было первое заседание?» | Дата из документа |
| Number | «Какая сумма иска?» | Числовое значение |
| Free text | «Какие аргументы приводил истец?» | Развёрнутый ответ с цитатами |
| Направление | Что добавить |
|---|---|
| Локальное развёртывание | Работа в закрытом контуре компании без отправки документов внешним провайдерам (Local LLM) |
| Оптимизация под структуру документов | Настройка поисковых алгоритмов под конкретную иерархию документов заказчика |
| Расширенные метаданные | Дополнительные фильтры: юрисдикция, тип дела, судья, даты |
| Кэширование ответов | Сохранение ответов на частые вопросы для мгновенной выдачи |
| Интеграция с CRM | Автоматическое создание карточек дел на основе найденной информации |
Хотите внедрить поиск по вашей базе документов? Напишите мне — обсудим адаптацию под ваши задачи.