Все статьи
технологияRAGвекторизация

Как работает движок векторизации Titania: от PDF до семантического поиска

10 февраля 2026 г.Титания Холдингз

Что такое векторизация и зачем она нужна

Когда вы задаёте вопрос AI-ассистенту — например, «Какие требования к арматуре по СП 63.13330?» — система должна найти релевантные фрагменты в тысячах документов за доли секунды. Классический текстовый поиск здесь не справляется: он ищет точные слова, а не смысл.

Векторизация — это процесс преобразования текста в числовые представления (векторы), которые захватывают семантический смысл. Два предложения с одинаковым смыслом, но разными словами будут иметь близкие векторы.

Пять этапов обработки документа

Этап 1: Загрузка

Документ поступает в систему одним из способов:

  • Ручная загрузка через интерфейс Command Center
  • Автоматический импорт из подключённой почты (вложения)
  • API-загрузка из внешних систем

Этап 2: Анализ формата

Наш движок автоматически определяет тип файла и применяет соответствующий парсер:

ФорматОбработка
PDFИзвлечение текста + OCR для сканов
ExcelПарсинг таблиц с сохранением структуры
Word/DOCИзвлечение текста, таблиц, метаданных
Markdown/TXTПрямой парсинг текста
PNG/JPEGOCR + анализ изображения

Особое внимание уделяется строительной документации: чертежи, спецификации, ведомости объёмов обрабатываются с учётом их специфической структуры.

Этап 3: Чанкинг (Chunking)

Документ разбивается на семантически связные фрагменты — чанки. Это ключевой этап, от которого зависит качество поиска.

Наш алгоритм учитывает:

  • Структуру документа — заголовки, разделы, параграфы
  • Размер контекста — оптимальный размер чанка для сохранения смысла
  • Перекрытие — чанки частично пересекаются, чтобы не потерять контекст на границах
  • Таблицы — обрабатываются целиком, с сохранением связи строк и столбцов

Этап 4: Создание эмбеддингов

Каждый чанк преобразуется в вектор фиксированной размерности с помощью модели-энкодера. Мы используем модели, оптимизированные для русского языка и технической документации.

Результат: каждый фрагмент документа получает числовое представление, которое захватывает его семантический смысл.

Этап 5: Индексация

Векторы помещаются в специализированную векторную базу данных с метаданными:

  • Источник (файл, email)
  • Дата создания и загрузки
  • Уровень доступа (публичный / приватный)
  • Владелец документа

Индексация обеспечивает мгновенный поиск по сотням тысяч чанков.

Прозрачность процесса

Пользователи видят статус обработки каждого файла в реальном времени:

  1. Загружен — файл принят системой
  2. Анализ — определение формата, извлечение содержимого
  3. Чанкинг — разбиение на фрагменты
  4. Векторизация — создание эмбеддингов
  5. Готово — файл проиндексирован, количество чанков

Если на каком-то этапе возникает ошибка (например, повреждённый PDF), система сообщает об этом и предлагает решение.

Результат

После индексации все документы организации становятся доступны через единый чат-интерфейс. AI-ассистент:

  • Находит релевантные фрагменты по смыслу запроса
  • Цитирует источники (файл, страница, email)
  • Отвечает на вопросы, комбинируя информацию из разных документов
  • Различает публичные и приватные данные

Хотите увидеть, как это работает на ваших документах? Запросите демо — мы покажем весь процесс на реальных данных.