Budovanie AI search tech stacku od nuly – aké komponenty naozaj potrebujete?

Discussion Technical AI Infrastructure
MD
MLEngineer_David
ML inžinier · 3. januára 2026

Dostal som za úlohu vybudovať AI search infraštruktúru našej firmy úplne od začiatku. Prichádzam z tradičného ML a táto oblasť je pre mňa dosť neprehľadná.

Čo si myslím, že potrebujem:

  • Vektorová databáza na sémantické vyhľadávanie
  • Embedding modely na konverziu obsahu
  • Nejaký druh orchestrácie/RAG pipeline
  • Monitoring a observabilita

V čom mám zmätok:

  • Ktorú vektorovú DB? (Pinecone vs Weaviate vs Milvus vs Qdrant)
  • Potrebujem samostatné embedding a LLM komponenty?
  • Ako fungujú hybridné vyhľadávacie prístupy?
  • Aký monitoring je vlastne potrebný?

Kontext:

  • ~500-tisíc dokumentov na indexovanie
  • Potrebná odozva dotazu pod 200 ms
  • Dvaja ML inžinieri v tíme
  • Rozpočet na spravované služby, ak sa oplatia

Veľmi by ma zaujímalo, aké stacky ľudia reálne používajú v produkcii a čo by dnes urobili inak.

11 comments

11 komentárov

AS
AIArchitect_Sarah Expert AI Solutions Architect · 3. januára 2026

Tento stack som už viackrát budovala. Tu je rámec, ktorý používam:

Jadrová architektúra (RAG vzor):

Dotaz používateľa
    ↓
Embedding dotazu (embedding model)
    ↓
Vektorové vyhľadávanie (vektorová DB)
    ↓
Výber kandidátov
    ↓
Reranking (cross-encoder)
    ↓
Zostavenie kontextu
    ↓
LLM generovanie
    ↓
Odpoveď

Odporúčania komponentov pre váš rozsah (500K dokumentov):

KomponentOdporúčaniePrečo
Vektorová DBPinecone alebo QdrantSpravované = rýchlejšie, dvaja ľudia neutiahnu infraštruktúru
EmbeddingyOpenAI text-embedding-3-largeNajlepší pomer kvalita/cena na všeobecné použitie
RerankerCohere Rerank alebo cross-encoder10-20x zlepšenie relevancie
LLMGPT-4 alebo ClaudeZávisí od úlohy
OrchestráciaLangChain alebo LlamaIndexNevymýšľajte nanovo koleso

Realita rozpočtu:

Pri 500K dokumentoch rátajte s:

  • Vektorová DB: 100-500 $/mesiac spravovaná
  • Náklady na embedding: jednorazovo ~50-100 $ na embedovanie korpusu
  • LLM náklady: podľa využitia, rátajte 500-2000 $/mesiac

Pre dvoch inžinierov sa spravované služby určite oplatia.

MD
MLEngineer_David OP · 3. januára 2026
Replying to AIArchitect_Sarah
Veľmi nápomocné. Otázka k rerankingu – je to naozaj nutné? Zdá sa to ako ďalšia latencia a zložitosť.
AS
AIArchitect_Sarah Expert · 3. januára 2026
Replying to MLEngineer_David

Reranking je jeden z najvýnosnejších krokov, ktoré môžete pridať. Tu je prečo:

Bez rerankera:

  • Vektorové vyhľadávanie vráti semanticky podobné výsledky
  • Ale „podobné“ neznamená vždy „najrelevantnejšie k dotazu“
  • Top 10 výsledkov môže byť zhruba 60 % relevantných

S rerankerom:

  • Cross-encoder analyzuje dotaz + každý kandidát spolu
  • Zachytí jemné signály relevancie
  • Top 10 je 85-90 % relevantných

Vplyv na latenciu:

  • Rerankuje sa len top 20-50 kandidátov
  • Pridáva 50-100 ms
  • Cieľ pod 200 ms je stále reálny

Matematika:

  • 50ms navyše za reranking
  • 20-30% zlepšenie relevance
  • LLM generuje lepšie odpovede z lepšieho kontextu

Ak musíte, preskočte to, ale pridajte neskôr. Väčšinou je to najväčšie zlepšenie kvality po základnom RAG.

BM
BackendLead_Mike Backend Engineering Lead · 3. januára 2026

Prevádzkujeme AI search v produkcii už 18 mesiacov. Čo by som dnes urobil inak:

Chyby, ktoré sme spravili:

  1. Začali sme so self-hostovanou vektorovou DB – 3 mesiace zbytočne na infraštruktúre. Mali sme ísť do spravovanej od začiatku.

  2. Lacný embedding model – Ušetrili sme 20 $/mesiac, ale stratili výraznú kvalitu vyhľadávania. Kvalitné embeddingy sa oplatia.

  3. Na začiatku žiadne hybridné vyhľadávanie – Čisto vektorové vyhľadávanie nezvládalo presné dotazy. Hybrid (vektor + BM25) to vyriešil.

  4. Podcenený monitoring – Ťažko sa debuguje, ak nevidíte metriky vyhľadávania.

Čo máme teraz:

  • Pinecone (vektor) + Elasticsearch (BM25) hybrid
  • OpenAI embeddingy (ada-002, čoskoro 3)
  • Cohere reranker
  • Claude na generovanie
  • Vlastný monitoring dashboard na metriky vyhľadávania

Latencia:

  • Embedding: 30 ms
  • Hybridné vyhľadávanie: 40 ms
  • Rerank: 60 ms
  • LLM: 800 ms (streamovanie zlepšuje UX)

Celkovo vnímaná latencia je v poriadku, lebo LLM výstup streamujeme.

DP
DataEngineer_Priya · 2. januára 2026

Pridávam pohľad z dátovej pipeline, ktorý sa často prehliada:

Spracovanie dokumentov je VEĽMI dôležité:

Predtým, než niečo prejde do vašej vektorovej DB, potrebujete:

  1. Strategia chunkovania – Ako rozdeľujete dokumenty?
  2. Extrakcia metadát – Aké atribúty zachytávate?
  3. Čistiaca pipeline – Odstrániť balast, normalizovať text
  4. Mechanizmus aktualizácií – Ako sa dostávajú nové/zmenené dokumenty do pipeline?

Rady k chunkovaniu:

Typ obsahuChunkovanieVeľkosť chunku
Dlhé článkyPo odstavcoch s prekrývaním300-500 tokenov
Technická dokumentáciaPo sekciách500-1000 tokenov
FAQ obsahPár otázka-odpoveďPrirodzené jednotky
Produktové dátaPodľa entityCelý produkt

Pasca:

Ľudia strávia týždne výberom vektorovej DB a dni chunkovaním. Malo by to byť naopak. Zlé chunkovanie = zlé vyhľadávanie bez ohľadu na kvalitu DB.

V
VectorDBExpert Expert · 2. januára 2026

Porovnanie vektorových databáz podľa vašich požiadaviek:

Pre 500K dokumentov + 2 inžinieri + pod 200 ms:

Pinecone:

  • Plusy: Plne spravovaná, skvelá dokumentácia, predvídateľné ceny
  • Mínusy: Závislosť na dodávateľovi, obmedzené prispôsobenie
  • Vhodnosť: Ideálne na vaše podmienky

Qdrant:

  • Plusy: Výborný výkon, dobrá hybridná podpora, cloud alebo self-host
  • Mínusy: Novšia spravovaná služba
  • Vhodnosť: Dobrá voľba, najmä ak budete chcieť hybridné vyhľadávanie

Weaviate:

  • Plusy: Skvelé hybridné vyhľadávanie, vstavaná vektorizácia
  • Mínusy: Zložitejšie nasadenie
  • Vhodnosť: Skôr pre väčšie tímy

Milvus:

  • Plusy: Najviac škálovateľný, plne open source
  • Mínusy: Vyžaduje infraštruktúrnu expertízu
  • Vhodnosť: Príliš veľké pre váš rozsah, neodporúčam

Moja rada:

Začnite s Pinecone. Je „nudný“ (v dobrom). Budete mať čas neskôr hodnotiť alternatívy, keď lepšie spoznáte vaše reálne potreby.

MC
MLOpsEngineer_Chen · 2. januára 2026

Nezabudnite na MLOps a observabilitu:

Čo treba sledovať:

  1. Metriky vyhľadávania

    • Precision@K (sú top K výsledky relevantné?)
    • Recall (nachádzame všetky relevantné dokumenty?)
    • Distribúcia latencie
  2. Metriky generovania

    • Relevancia odpovede (zodpovedá odpoveď dotazu?)
    • Podloženosť (je odpoveď podložená kontextom?)
    • Miera halucinácií
  3. Systémové metriky

    • Latencia dotazov p50/p95/p99
    • Miera chýb
    • Cena za dotaz

Nástroje:

  • Weights & Biases na sledovanie experimentov
  • Datadog/Grafana na monitoring systému
  • LangSmith na observabilitu LLM
  • Vlastný dashboard na biznis metriky

To, čo vám nikto nepovie:

Strávite viac času monitoringom a debuggingom než samotnou stavbou systému. Myslite na to od prvého dňa.

SA
StartupCTO_Alex Startup CTO · 1. januára 2026

Realita startupov:

Ak to budujete pre biznis (nie výskum), zvážte:

Build vs Buy:

  • Budovanie RAG od nuly: 2-3 mesiace vývoja
  • Použitie existujúcej RAG platformy: Produkcia za pár dní

Platformy, ktoré toto balia:

  • LlamaIndex + spravovaná vektorová DB
  • Vectara (celý RAG ako služba)
  • Cohere RAG endpointy

Kedy stavať vlastné:

  • Potrebujete extrémnu mieru prispôsobenia
  • Citlivé dáta
  • Škálovanie dáva ekonomický zmysel
  • Chcete sa odlíšiť core kompetenciou

Kedy použiť platformu:

  • Rýchlosť na trh je priorita
  • Malý tím
  • RAG nie je váš produkt, len ho umožňuje

Pre väčšinu biznisov vyhráva platformový prístup, kým nenarazíte na limity škálovania.

SK
SecurityEngineer_Kim · 1. januára 2026

Bezpečnostné hľadiská, na ktoré nikto neupozornil:

Dáta:

  1. Aké dáta posielate externým embedding API?
  2. Aké dáta idú poskytovateľom LLM?
  3. Kde je hostovaná vaša vektorová DB?

Možnosti pre citlivé dáta:

  • Self-hostované embedding modely (Sentence Transformers)
  • Self-hostovaná vektorová DB (Qdrant, Milvus)
  • LLM on-premise (Llama, Mixtral)
  • Spravované služby vo VPC

Compliance checklist:

  • Splnené požiadavky na lokalitu dát
  • Šifrovanie za behu aj na disku
  • Prístupové práva a auditovanie prístupov
  • Politiky uchovávania dát
  • Opatrenia na spracovanie osobných údajov

Nespoliehajte sa, že spravované služby spĺňajú vaše compliance požiadavky. Overte si to výslovne.

MD
MLEngineer_David OP ML inžinier · 1. januára 2026

Táto diskusia bola extrémne užitočná. Tu je môj aktualizovaný plán:

Architektonické rozhodnutie:

Kvôli rýchlosti a veľkosti tímu ideme do spravovaných služieb:

  • Pinecone na vektorové úložisko
  • OpenAI text-embedding-3 na embeddingy
  • Cohere reranker
  • Claude na generovanie
  • LangChain na orchestráciu

Kľúčové poznatky:

  1. Strategia chunkovania je rovnako dôležitá ako výber vektorovej DB – investujem do toho čas
  2. Reranking má vysoký prínos – dávam ho od začiatku
  3. Hybridné vyhľadávanie pre pokrytie – implementujem vektor + BM25
  4. Monitoring od prvého dňa – vkladám observabilitu, nie až dodatočne
  5. Bezpečnostný audit včas – overujem compliance pred produkciou

Časový plán:

  • 1.-2. týždeň: Dátová pipeline a chunkovanie
  • 3.-4. týždeň: Core RAG implementácia
    1. týždeň: Monitoring a optimalizácia
    1. týždeň: Bezpečnostný audit a príprava na produkciu

Vďaka všetkým za detailné postrehy. Táto komunita je zlato.

Najčastejšie kladené otázky

Aké sú základné komponenty AI search tech stacku?

Základné komponenty zahŕňajú infraštruktúru (výpočtový výkon, úložisko), správu dát, embedding modely pre sémantické pochopenie, vektorové databázy na vyhľadávanie, ML frameworky, MLOps platformy a nástroje na monitoring. Väčšina využíva architektúru RAG (Retrieval-Augmented Generation).

Ktorú vektorovú databázu by som mal zvoliť?

Pinecone pre spravované riešenie, Weaviate pre hybridné vyhľadávanie, Milvus pre open-source flexibilitu a Qdrant pre výkon. Výber závisí od požiadaviek na škálovanie, odbornosti tímu a rozpočtu.

Aký je rozdiel medzi PyTorch a TensorFlow pre AI search?

PyTorch ponúka flexibilitu s dynamickými výpočtovými grafmi, ideálne na výskum a prototypovanie. TensorFlow poskytuje robustné nasadenie do produkcie so statickými grafmi. Mnohé tímy používajú PyTorch na experimentovanie a TensorFlow na produkciu.

Ako RAG zlepšuje kvalitu AI vyhľadávania?

RAG zakladá AI odpovede na čerstvých, vyhľadaných dátach namiesto výlučne trénovacích dát. To znižuje halucinácie, udržuje odpovede aktuálne a umožňuje uvádzať konkrétne zdroje.

Sledujte svoju značku naprieč AI search platformami

Sledujte, ako sa vaša značka zobrazuje vo výsledkoch vyhľadávania poháňaných AI. Získajte prehľad o ChatGPT, Perplexity a ďalších AI answer engine-och.

Zistiť viac