Как работает движок векторизации Titania: от PDF до семантического поиска

Что такое векторизация и зачем она нужна

Когда вы задаёте вопрос AI-ассистенту — например, «Какие требования к арматуре по СП 63.13330?» — система должна найти релевантные фрагменты в тысячах документов за доли секунды. Классический текстовый поиск здесь не справляется: он ищет точные слова, а не смысл.

Векторизация — это процесс преобразования текста в числовые представления (векторы), которые захватывают семантический смысл. Два предложения с одинаковым смыслом, но разными словами будут иметь близкие векторы.

Пять этапов обработки документа

Этап 1: Загрузка

Документ поступает в систему одним из способов:

Ручная загрузка через интерфейс Command Center
Автоматический импорт из подключённой почты (вложения)
API-загрузка из внешних систем

Этап 2: Анализ формата

Наш движок автоматически определяет тип файла и применяет соответствующий парсер:

Формат	Обработка
PDF	Извлечение текста + OCR для сканов
Excel	Парсинг таблиц с сохранением структуры
Word/DOC	Извлечение текста, таблиц, метаданных
Markdown/TXT	Прямой парсинг текста
PNG/JPEG	OCR + анализ изображения

Особое внимание уделяется строительной документации: чертежи, спецификации, ведомости объёмов обрабатываются с учётом их специфической структуры.

Этап 3: Чанкинг (Chunking)

Документ разбивается на семантически связные фрагменты — чанки. Это ключевой этап, от которого зависит качество поиска.

Наш алгоритм учитывает:

Структуру документа — заголовки, разделы, параграфы
Размер контекста — оптимальный размер чанка для сохранения смысла
Перекрытие — чанки частично пересекаются, чтобы не потерять контекст на границах
Таблицы — обрабатываются целиком, с сохранением связи строк и столбцов

Этап 4: Создание эмбеддингов

Каждый чанк преобразуется в вектор фиксированной размерности с помощью модели-энкодера. Мы используем модели, оптимизированные для русского языка и технической документации.

Результат: каждый фрагмент документа получает числовое представление, которое захватывает его семантический смысл.

Этап 5: Индексация

Векторы помещаются в специализированную векторную базу данных с метаданными:

Источник (файл, email)
Дата создания и загрузки
Уровень доступа (публичный / приватный)
Владелец документа

Индексация обеспечивает мгновенный поиск по сотням тысяч чанков.

Прозрачность процесса

Пользователи видят статус обработки каждого файла в реальном времени:

Загружен — файл принят системой
Анализ — определение формата, извлечение содержимого
Чанкинг — разбиение на фрагменты
Векторизация — создание эмбеддингов
Готово — файл проиндексирован, количество чанков

Если на каком-то этапе возникает ошибка (например, повреждённый PDF), система сообщает об этом и предлагает решение.

Результат

После индексации все документы организации становятся доступны через единый чат-интерфейс. AI-ассистент:

Находит релевантные фрагменты по смыслу запроса
Цитирует источники (файл, страница, email)
Отвечает на вопросы, комбинируя информацию из разных документов
Различает публичные и приватные данные

Хотите увидеть, как это работает на ваших документах? Запросите демо — мы покажем весь процесс на реальных данных.