UA 🇺🇦 EN 🇬🇧
← Назад до портфоліо

Docs Indexer — індексація документації

Python-утиліта для автоматичної індексації технічної документації: завантаження сторінок, очищення HTML, семантичне чанкування, збагачення метаданими та експорт у структурований формат.

Python Requests BeautifulSoup CLI

Опис проєкту

Docs Indexer — це інструмент, який автоматизує роботу з великою кількістю документації та готує її для використання в LLM моделях або RAG-системах.

Технології

Ціль проєкту

Створити гнучкий індексатор документації для подальшого використання в LLM.

Приклад запуску

# Запуск індексації
python -m docs_indexer.main

# Файл зі списком URL:
data/urls.txt

# Результати:
data/output/pages.json
data/output/metadata.json

Що цей проєкт показує