Tento stack som už viackrát budovala. Tu je rámec, ktorý používam:
Jadrová architektúra (RAG vzor):
Dotaz používateľa
↓
Embedding dotazu (embedding model)
↓
Vektorové vyhľadávanie (vektorová DB)
↓
Výber kandidátov
↓
Reranking (cross-encoder)
↓
Zostavenie kontextu
↓
LLM generovanie
↓
Odpoveď
Odporúčania komponentov pre váš rozsah (500K dokumentov):
| Komponent | Odporúčanie | Prečo |
|---|
| Vektorová DB | Pinecone alebo Qdrant | Spravované = rýchlejšie, dvaja ľudia neutiahnu infraštruktúru |
| Embeddingy | OpenAI text-embedding-3-large | Najlepší pomer kvalita/cena na všeobecné použitie |
| Reranker | Cohere Rerank alebo cross-encoder | 10-20x zlepšenie relevancie |
| LLM | GPT-4 alebo Claude | Závisí od úlohy |
| Orchestrácia | LangChain alebo LlamaIndex | Nevymýšľajte nanovo koleso |
Realita rozpočtu:
Pri 500K dokumentoch rátajte s:
- Vektorová DB: 100-500 $/mesiac spravovaná
- Náklady na embedding: jednorazovo ~50-100 $ na embedovanie korpusu
- LLM náklady: podľa využitia, rátajte 500-2000 $/mesiac
Pre dvoch inžinierov sa spravované služby určite oplatia.