Python-утиліта для автоматичної індексації технічної документації: завантаження сторінок, очищення HTML, семантичне чанкування, збагачення метаданими та експорт у структурований формат.
Docs Indexer — це інструмент, який автоматизує роботу з великою кількістю документації та готує її для використання в LLM моделях або RAG-системах.
python -m docs_indexerpython -mСтворити гнучкий індексатор документації для подальшого використання в LLM.
# Запуск індексації
python -m docs_indexer.main
# Файл зі списком URL:
data/urls.txt
# Результати:
data/output/pages.json
data/output/metadata.json