Discussion Technical AI Infrastructure

Stavba AI search tech stacku od nuly – jaké komponenty skutečně potřebujete?

ML
MLEngineer_David · ML inženýr
· · 145 upvotes · 11 comments
MD
MLEngineer_David
ML inženýr · 3. ledna 2026

Dostal jsem za úkol vybudovat AI search infrastrukturu naší firmy od základu. Přicházím z tradičního ML a tohle prostředí je dost zahlcující.

Co si myslím, že potřebuji:

  • Vektorová databáze pro sémantické vyhledávání
  • Embedding modely pro převod obsahu
  • Nějaký orchestrátor/RAG pipeline
  • Monitoring a observabilita

V čem mám zmatek:

  • Kterou vektorovou DB? (Pinecone vs Weaviate vs Milvus vs Qdrant)
  • Potřebuji zvlášť embedding a LLM komponenty?
  • Jak fungují hybridní vyhledávací přístupy?
  • Jaký monitoring je skutečně potřeba?

Kontext:

  • ~500 000 dokumentů k indexování
  • Potřeba latence dotazu pod 200 ms
  • Tým 2 ML inženýrů
  • Rozpočet na managed služby, pokud za to stojí

Rád bych slyšel, jaké stacky reálně běží v produkci a co by ostatní udělali jinak.

11 comments

11 komentářů

AS
AIArchitect_Sarah Expert AI Solutions Architect · 3. ledna 2026

Tento stack jsem stavěla několikrát. Tady je rámec, který používám:

Základní architektura (RAG vzor):

Dotaz uživatele
    ↓
Embedding dotazu (embedding model)
    ↓
Vektorové vyhledávání (vektorová DB)
    ↓
Návrh kandidátů
    ↓
Přerovnání (cross-encoder)
    ↓
Sestavení kontextu
    ↓
Generace LLM
    ↓
Odpověď

Doporučení komponent pro vaše měřítko (500K dokumentů):

KomponentaDoporučeníProč
Vektorová DBPinecone nebo QdrantManaged = rychlejší, 2členný tým nemůže hlídat infrastrukturu
EmbeddingyOpenAI text-embedding-3-largeNejlepší poměr kvalita/cena pro obecné použití
PřerovnáníCohere Rerank nebo cross-encoder10–20x zlepšení relevance
LLMGPT-4 nebo ClaudeZáleží na úloze
OrchestrátorLangChain nebo LlamaIndexNevymýšlejte kolo znovu

Kontrola reality rozpočtu:

Při 500K dokumentech počítejte s:

  • Vektorová DB: 100–500 $/měsíc managed
  • Náklady na embeddingy: jednorázově ~50–100 $ na embedding korpusu
  • Náklady na LLM: dle používání, plánujte 500–2000 $/měsíc

Pro 2 inženýry se managed služby 100% vyplatí.

MD
MLEngineer_David OP · 3. ledna 2026
Replying to AIArchitect_Sarah
Velmi užitečné. Dotaz k přerovnávacímu kroku – je to skutečně nutné? Zdá se to jako další latence a složitost.
AS
AIArchitect_Sarah Expert · 3. ledna 2026
Replying to MLEngineer_David

Přerovnání je jeden z nejvýnosnějších přídavků, které můžete udělat. Proč:

Bez přerovnávače:

  • Vektorové vyhledávání vrací sémanticky podobné výsledky
  • Ale “podobné” neznamená vždy “nejrelevantnější pro dotaz”
  • Top 10 výsledků může být relevantních jen z 60 %

S přerovnávačem:

  • Cross-encoder společně analyzuje dotaz + každý kandidát
  • Zachytí jemné signály relevance
  • Top 10 je relevantních z 85–90 %

Dopad na latenci:

  • Přerovnává se jen top 20–50 kandidátů
  • Přidá 50–100 ms
  • Cíl pod 200 ms je stále dosažitelný

Matematika:

  • 50 ms navíc za přerovnání
  • 20–30% zlepšení relevance
  • LLM generuje lepší odpovědi díky lepšímu kontextu

Pokud musíte, vynechte, ale přidejte později. Obvykle je to největší zlepšení kvality po základním RAG.

BM
BackendLead_Mike Vedoucí backendového vývoje · 3. ledna 2026

AI vyhledávání provozujeme v produkci už 18 měsíců. Co bych udělal jinak:

Chyby, které jsme udělali:

  1. Začali jsme s vlastně hostovanou vektorovou DB – Tři měsíce ztraceny na infrastruktuře. Měli jsme jít do managed hned od začátku.

  2. Levný embedding model – Ušetřili jsme 20 $/měsíc, ale výrazně ztratili na kvalitě vyhledávání. Kvalitní embeddingy za to stojí.

  3. Zpočátku žádný hybridní search – Čistě vektorové hledání minulo přesné dotazy. Hybrid (vektor + BM25) to vyřešil.

  4. Podcenili jsme monitoring – Těžko se ladí, když nevidíte metriky kvality vyhledávání.

Co provozujeme teď:

  • Pinecone (vektor) + Elasticsearch (BM25) hybrid
  • OpenAI embeddingy (ada-002, přechod na 3)
  • Cohere přerovnávač
  • Claude pro generování
  • Vlastní dashboard monitorující retrieval metriky

Rozklad latence:

  • Embedding: 30 ms
  • Hybridní search: 40 ms
  • Přerovnání: 60 ms
  • LLM: 800 ms (streamování zlepšuje UX)

Celková vnímaná latence je v pořádku, protože LLM výstup streamujeme.

DP
DataEngineer_Priya · 2. ledna 2026

Přidávám pohled na datový pipeline, na který se často zapomíná:

Zpracování dokumentů je VELMI důležité:

Než se cokoliv dostane do vaší vektorové DB, potřebujete:

  1. Strategii chunkování – Jak dělíte dokumenty?
  2. Extrakci metadat – Jaké atributy ukládáte?
  3. Čistící pipeline – Odstranit balast, normalizovat text
  4. Update mechanismus – Jak procházejí nové/změněné dokumenty?

Rady k chunkování:

Typ obsahuStrategie chunkováníVelikost chunku
Dlouhé článkyPo odstavcích s překryvem300–500 tokenů
Technická dokumentacePo sekcích500–1000 tokenů
FAQ obsahPáry otázka-odpověďPřirozené jednotky
Produktová dataPodle entitCelý produkt

Past:

Lidé stráví týdny výběrem vektorové DB a dny chunkováním. Mělo by to být naopak. Špatné chunkování = špatné vyhledávání bez ohledu na kvalitu vektorové DB.

V
VectorDBExpert Expert · 2. ledna 2026

Porovnání vektorových databází podle vašich požadavků:

Pro 500K dokumentů + 2 inženýry + pod 200 ms:

Pinecone:

  • Výhody: Plně spravovaná, skvělá dokumentace, předvídatelné ceny
  • Nevýhody: Závislost na dodavateli, omezené možnosti úprav
  • Hodí se: Perfektní pro vaše omezení

Qdrant:

  • Výhody: Výborný výkon, dobrá podpora hybridu, cloud i vlastní hosting
  • Nevýhody: Novější managed nabídka
  • Hodí se: Dobrá volba zvlášť pokud možná potřebujete hybridní hledání

Weaviate:

  • Výhody: Skvělý hybrid, vestavěná vektorizace
  • Nevýhody: Složitější nastavení
  • Hodí se: Spíš pro větší týmy

Milvus:

  • Výhody: Nejškálovatelnější, plně open source
  • Nevýhody: Vyžaduje infrastrukturní znalosti
  • Hodí se: Pro vaše měřítko zbytečné, přeskočte

Moje doporučení:

Začněte s Pinecone. Je nudná (v tom dobrém smyslu). Na alternativy bude čas, až poznáte své skutečné potřeby.

MC
MLOpsEngineer_Chen · 2. ledna 2026

Nezapomeňte na MLOps a observabilitu:

Co je potřeba sledovat:

  1. Retrieval metriky

    • Precision@K (jsou top K výsledků relevantní?)
    • Recall (nacházíme všechny relevantní dokumenty?)
    • Distribuce latence
  2. Metriky generování

    • Relevance odpovědi (odpovídá dotazu?)
    • Ukotvenost (je odpověď podložená kontextem?)
    • Míra halucinací
  3. Systémové metriky

    • Latence dotazu p50/p95/p99
    • Chybovost
    • Cena za dotaz

Nástroje:

  • Weights & Biases pro sledování experimentů
  • Datadog/Grafana pro monitoring systému
  • LangSmith pro observabilitu LLM
  • Vlastní dashboard pro byznys metriky

Co nikdo neříká:

Strávíte víc času monitoringem a laděním než samotným stavěním systému. Plánujte s tím od začátku.

SA
StartupCTO_Alex Startup CTO · 1. ledna 2026

Realita startupu:

Pokud to stavíte pro byznys (ne výzkum), zvažte:

Stavět nebo koupit:

  • Stavba RAG od nuly: 2–3 měsíce vývoje
  • Použití existující RAG platformy: Dny do produkce

Platformy, které to balíčkují:

  • LlamaIndex + managed vektorová DB
  • Vectara (plný RAG-as-a-service)
  • Cohere RAG endpointy

Kdy stavět vlastní:

  • Potřebujete extrémní přizpůsobení
  • Požadavky na citlivost dat
  • Ekonomika ve velkém měřítku
  • Klíčová konkurenční výhoda

Kdy použít platformu:

  • Rychlost uvedení na trh je klíčová
  • Malý tým
  • RAG není váš produkt, jen ho umožňuje

Pro většinu firem vítězí přístup platformy, dokud nenarazíte na limity škálování.

SK
SecurityEngineer_Kim · 1. ledna 2026

Bezpečnostní hlediska, která nikdo nezmínil:

Důležité otázky:

  1. Jaká data posíláte externím embedding API?
  2. Jaká data jdou k poskytovatelům LLM?
  3. Kde je vaše vektorová DB hostovaná?

Možnosti pro citlivá data:

  • Vlastní hosting embedding modelů (Sentence Transformers)
  • Vlastní hosting vektorové DB (Qdrant, Milvus)
  • On-premise LLM (Llama, Mixtral)
  • Managed služby nasazené ve VPC

Compliance checklist:

  • Splněné požadavky na umístění dat
  • Šifrování při uložení i přenosu
  • Přístupová práva a auditní logování
  • Politiky uchování dat
  • Postupy pro nakládání s osobními údaji (PII)

Nepředpokládejte, že managed služby splňují vaše compliance požadavky. Ověřte si to výslovně.

MD
MLEngineer_David OP ML inženýr · 1. ledna 2026

Tato diskuze byla neuvěřitelně přínosná. Tady je můj aktualizovaný plán:

Rozhodnutí o architektuře:

Půjdeme cestou managed služeb kvůli rychlosti a velikosti týmu:

  • Pinecone pro vektorové úložiště
  • OpenAI text-embedding-3 pro embeddingy
  • Cohere přerovnávač
  • Claude pro generování
  • LangChain pro orchestraci

Klíčová zjištění:

  1. Strategie chunkování je stejně důležitá jako volba vektorové DB – Investuji do toho čas
  2. Přerovnání má vysoký přínos – Přidávám od začátku
  3. Hybridní search pro pokrytí – Implementuji vektor + BM25
  4. Monitoring od začátku – Observabilitu stavím hned, ne až dodatečně
  5. Bezpečnostní kontrola včas – Compliance ověřím před produkcí

Časový harmonogram:

  • Týden 1–2: Datový pipeline a chunkování
  • Týden 3–4: Základní RAG implementace
  • Týden 5: Monitoring a optimalizace
  • Týden 6: Bezpečnostní kontrola a příprava na produkci

Díky všem za detailní postřehy. Tato komunita je zlato.

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

Jaké jsou základní komponenty AI search tech stacku?
Základní komponenty zahrnují infrastrukturu (výpočetní výkon, úložiště), správu dat, embedding modely pro sémantické porozumění, vektorové databáze pro vyhledávání, ML frameworky, MLOps platformy a nástroje pro monitoring. Většina využívá architekturu RAG (Retrieval-Augmented Generation).
Kterou vektorovou databázi si vybrat?
Pinecone pro jednoduchost správy, Weaviate pro možnosti hybridního vyhledávání, Milvus pro flexibilitu open source a Qdrant pro výkon. Výběr závisí na požadovaném měřítku, zkušenostech týmu a rozpočtu.
Jaký je rozdíl mezi PyTorch a TensorFlow pro AI search?
PyTorch nabízí flexibilitu díky dynamickým výpočetním grafům, ideální pro výzkum a prototypování. TensorFlow poskytuje robustní nasazení do produkce se statickými grafy. Mnoho týmů používá PyTorch pro experimenty a TensorFlow pro produkci.
Jak RAG zlepšuje kvalitu AI vyhledávání?
RAG ukotvuje odpovědi AI v aktuálních, dohledaných datech namísto spoléhání pouze na trénovací data. Tím snižuje halucinace, udržuje odpovědi aktuální a umožňuje citovat konkrétní zdroje.

Sledujte svou značku napříč AI vyhledávači

Získejte přehled o tom, jak se vaše značka zobrazuje ve výsledcích vyhledávání poháněných AI. Sledujte svou viditelnost v ChatGPT, Perplexity a dalších AI odpovídačích.

Zjistit více

Jaké komponenty potřebuji k sestavení AI search tech stacku?

Jaké komponenty potřebuji k sestavení AI search tech stacku?

Zjistěte, jaké jsou základní komponenty, frameworky a nástroje pro sestavení moderního AI search tech stacku. Objevte retrieval systémy, vektorové databáze, emb...

8 min čtení