Что такое векторизация и зачем она нужна
Когда вы задаёте вопрос AI-ассистенту — например, «Какие требования к арматуре по СП 63.13330?» — система должна найти релевантные фрагменты в тысячах документов за доли секунды. Классический текстовый поиск здесь не справляется: он ищет точные слова, а не смысл.
Векторизация — это процесс преобразования текста в числовые представления (векторы), которые захватывают семантический смысл. Два предложения с одинаковым смыслом, но разными словами будут иметь близкие векторы.
Пять этапов обработки документа
Этап 1: Загрузка
Документ поступает в систему одним из способов:
- Ручная загрузка через интерфейс Command Center
- Автоматический импорт из подключённой почты (вложения)
- API-загрузка из внешних систем
Этап 2: Анализ формата
Наш движок автоматически определяет тип файла и применяет соответствующий парсер:
| Формат | Обработка |
|---|---|
| Извлечение текста + OCR для сканов | |
| Excel | Парсинг таблиц с сохранением структуры |
| Word/DOC | Извлечение текста, таблиц, метаданных |
| Markdown/TXT | Прямой парсинг текста |
| PNG/JPEG | OCR + анализ изображения |
Особое внимание уделяется строительной документации: чертежи, спецификации, ведомости объёмов обрабатываются с учётом их специфической структуры.
Этап 3: Чанкинг (Chunking)
Документ разбивается на семантически связные фрагменты — чанки. Это ключевой этап, от которого зависит качество поиска.
Наш алгоритм учитывает:
- Структуру документа — заголовки, разделы, параграфы
- Размер контекста — оптимальный размер чанка для сохранения смысла
- Перекрытие — чанки частично пересекаются, чтобы не потерять контекст на границах
- Таблицы — обрабатываются целиком, с сохранением связи строк и столбцов
Этап 4: Создание эмбеддингов
Каждый чанк преобразуется в вектор фиксированной размерности с помощью модели-энкодера. Мы используем модели, оптимизированные для русского языка и технической документации.
Результат: каждый фрагмент документа получает числовое представление, которое захватывает его семантический смысл.
Этап 5: Индексация
Векторы помещаются в специализированную векторную базу данных с метаданными:
- Источник (файл, email)
- Дата создания и загрузки
- Уровень доступа (публичный / приватный)
- Владелец документа
Индексация обеспечивает мгновенный поиск по сотням тысяч чанков.
Прозрачность процесса
Пользователи видят статус обработки каждого файла в реальном времени:
- Загружен — файл принят системой
- Анализ — определение формата, извлечение содержимого
- Чанкинг — разбиение на фрагменты
- Векторизация — создание эмбеддингов
- Готово — файл проиндексирован, количество чанков
Если на каком-то этапе возникает ошибка (например, повреждённый PDF), система сообщает об этом и предлагает решение.
Результат
После индексации все документы организации становятся доступны через единый чат-интерфейс. AI-ассистент:
- Находит релевантные фрагменты по смыслу запроса
- Цитирует источники (файл, страница, email)
- Отвечает на вопросы, комбинируя информацию из разных документов
- Различает публичные и приватные данные
Хотите увидеть, как это работает на ваших документах? Запросите демо — мы покажем весь процесс на реальных данных.