Discussion Technical AI Infrastructure

Bygga en AI-sökteknikstack från grunden – vilka komponenter behöver du egentligen?

ML
MLEngineer_David · ML-ingenjör
· · 145 upvotes · 11 comments
MD
MLEngineer_David
ML-ingenjör · 13 januari 2026

Jag har fått i uppdrag att bygga företagets AI-sökinfrastruktur från grunden. Kommer från traditionell ML och landskapet känns överväldigande.

Vad jag tror jag behöver:

  • Vektordatabas för semantisk sökning
  • Inbäddningsmodeller för att konvertera innehåll
  • Någon form av orkestrering/RAG-pipeline
  • Övervakning och observabilitet

Vad jag är förvirrad över:

  • Vilken vektordatabas? (Pinecone vs Weaviate vs Milvus vs Qdrant)
  • Behöver jag separata inbäddnings- och LLM-komponenter?
  • Hur fungerar hybridsökningsmetoder?
  • Vilken övervakning behövs egentligen?

Kontext:

  • ~500 000 dokument att indexera
  • Behöver svarstid under 200 ms
  • Team på 2 ML-ingenjörer
  • Budget för hanterade tjänster om de är värda det

Hör gärna vad folk faktiskt kör i produktion och vad de skulle göra annorlunda.

11 comments

11 kommentarer

AS
AIArchitect_Sarah Expert AI-lösningsarkitekt · 3 januari 2026

Jag har byggt denna stack flera gånger. Här är ramverket jag använder:

Kärnarkitektur (RAG-mönster):

Användarfråga
    ↓
Frågeinbäddning (inbäddningsmodell)
    ↓
Vektorsökning (vektordatabas)
    ↓
Kandidatåterhämtning
    ↓
Omrankning (cross-encoder)
    ↓
Kontextmontering
    ↓
LLM-generering
    ↓
Svar

Komponentrekommendationer för din skala (500K dokument):

KomponentRekommendationVarför
VektordatabasPinecone eller QdrantHanterat = snabbare, team på 2 kan inte vakta infrastrukturen
InbäddningarOpenAI text-embedding-3-largeBäst kvalitet/kostnadsförhållande för allmän användning
OmrankareCohere Rerank eller cross-encoder10-20x relevansförbättring
LLMGPT-4 eller ClaudeBeror på uppgift
OrkestreringLangChain eller LlamaIndexUppfinn inte hjulet på nytt

Budgetrealitet:

För 500K dokument handlar det om:

  • Vektordatabas: $100-500/månad hanterat
  • Inbäddningskostnader: Engångs ~$50-100 för att inbädda korpus
  • LLM-kostnader: Beroende på användning, räkna med $500-2000/månad

För 2 ingenjörer är hanterade tjänster 100% värt det.

MD
MLEngineer_David OP · 3 januari 2026
Replying to AIArchitect_Sarah
Superhjälpsamt. En fråga angående omrankningssteget – är det verkligen nödvändigt? Verkar tillföra extra latens och komplexitet.
AS
AIArchitect_Sarah Expert · 3 januari 2026
Replying to MLEngineer_David

Omrankning är en av de mest lönsamma förbättringarna du kan göra. Så här:

Utan omrankare:

  • Vektorsökning returnerar semantiskt liknande resultat
  • Men “liknande” betyder inte alltid “mest relevant för frågan”
  • Topp 10-resultaten kan vara 60% relevanta

Med omrankare:

  • Cross-encoder analyserar fråga + varje kandidat ihop
  • Fångar nyanserade relevanssignaler
  • Topp 10 blir 85-90% relevanta

Latenspåverkan:

  • Omrankar endast topp 20-50 kandidater
  • Lägger till 50-100ms
  • Din sub-200ms-mål är fortfarande möjlig

Siffrorna:

  • 50ms omrankningskostnad
  • 20-30% relevansförbättring
  • LLM genererar bättre svar från bättre kontext

Hoppa över det om du måste, men lägg till det senare. Det är oftast den enskilt största kvalitetsförbättringen efter grundläggande RAG.

BM
BackendLead_Mike Backend Engineering Lead · 3 januari 2026

Har kört AI-sökning i produktion i 18 månader. Här är vad jag skulle göra annorlunda:

Misstag vi gjorde:

  1. Började med självhostad vektordatabas – Slösade 3 månader på infrastruktur. Borde använt hanterad från dag 1.

  2. Billig inbäddningsmodell – Sparade $20/månad, tappade mycket hämtkvalitet. Kvalitetsinbäddningar är värda det.

  3. Ingen hybridsök från början – Ren vektorsökning missade exakta träffar. Hybrid (vektor + BM25) löste detta.

  4. Underskattade övervakningsbehov – Svårt att felsöka när man inte ser hämtkvalitetsmått.

Vad vi kör nu:

  • Pinecone (vektor) + Elasticsearch (BM25) hybrid
  • OpenAI-inbäddningar (ada-002, uppgradering till 3)
  • Cohere-omrankare
  • Claude för generering
  • Egen övervakningsdashboard som spårar hämtmått

Latensuppdelning:

  • Inbäddning: 30ms
  • Hybridsökning: 40ms
  • Omrankning: 60ms
  • LLM: 800ms (streaming förbättrar UX)

Den totala upplevda latensen är okej eftersom vi streamar LLM-utdata.

DP
DataEngineer_Priya · 2 januari 2026

Lägger till datarörsperspektivet som ofta förbises:

Dokumentbehandling är VÄLDIGT VIKTIGT:

Innan något når din vektordatabas behöver du:

  1. Chunking-strategi – Hur delar du upp dokumenten?
  2. Metadatautvinning – Vilka attribut fångar du?
  3. Rensningspipeline – Ta bort boilerplate, normalisera text
  4. Uppdateringsmekanism – Hur flödar nya/ändrade dokument in?

Chunking-tips:

InnehållstypChunk-strategiChunk-storlek
Långa artiklarStyckesbaserad med överlapp300-500 tokens
Tekniska dokumentAvsnittsbaserad500-1000 tokens
FAQ-innehållFråga-svar-parNaturliga enheter
ProduktdataEnhetsbaseradHela produkten

Fällan:

Folk lägger veckor på val av vektordatabas och dagar på chunking. Det borde vara tvärtom. Dålig chunking = dålig hämtning oavsett hur bra din vektordatabas är.

V
VectorDBExpert Expert · 2 januari 2026

Jämförelse av vektordatabaser utifrån dina krav:

För 500K dokument + 2 ingenjörer + under 200ms:

Pinecone:

  • Fördelar: Fullt hanterad, utmärkta dokumentationer, förutsägbara priser
  • Nackdelar: Leverantörslåsning, begränsad anpassning
  • Passar: Perfekt för dina begränsningar

Qdrant:

  • Fördelar: Bra prestanda, bra hybridsstöd, moln eller självhostad
  • Nackdelar: Nyare hanterad lösning
  • Passar: Bra val, särskilt om du kan behöva hybridsökning

Weaviate:

  • Fördelar: Bra hybridsökning, inbyggd vektorisering
  • Nackdelar: Mer komplex uppsättning
  • Passar: Bättre för större team

Milvus:

  • Fördelar: Mest skalbar, helt öppen källkod
  • Nackdelar: Kräver infrastrukturkompetens
  • Passar: Overkill för din skala, välj bort

Min rekommendation:

Börja med Pinecone. Det är tråkigt (på ett bra sätt). Du får tid att utvärdera alternativ när du förstår dina faktiska behov bättre.

MC
MLOpsEngineer_Chen · 2 januari 2026

Glöm inte MLOps och observabilitet:

Det du behöver spåra:

  1. Hämtmått

    • Precision@K (är topp K-resultaten relevanta?)
    • Recall (hittar vi alla relevanta dokument?)
    • Latensfördelning
  2. Genereringsmått

    • Svarens relevans (matchar svaret frågan?)
    • Grundadhet (är svaret stödd av kontext?)
    • Hallucinationsfrekvens
  3. Systemmått

    • Förfrågningslatens p50/p95/p99
    • Felfrekvenser
    • Kostnad per förfrågan

Verktyg:

  • Weights & Biases för experimentspårning
  • Datadog/Grafana för systemövervakning
  • LangSmith för LLM-observabilitet
  • Egen dashboard för affärsmått

Det ingen berättar:

Du kommer lägga mer tid på övervakning och felsökning än att bygga det initiala systemet. Planera för det från dag 1.

SA
StartupCTO_Alex Startup-CTO · 1 januari 2026

Startup-verklighetscheck:

Om du bygger detta för ett företag (inte forskning), tänk på:

Bygga vs Köpa:

  • Bygga RAG från grunden: 2-3 månader utvecklingstid
  • Använda befintlig RAG-plattform: Dagar till produktion

Plattformar som paketerar detta:

  • LlamaIndex + hanterad vektordatabas
  • Vectara (full RAG-som-tjänst)
  • Cohere RAG-endpoints

När du ska bygga själv:

  • Behöver extrem anpassning
  • Krav på datasäkerhet
  • Skaleffektivitet motiverar det
  • Kärnkompetensdifferentiering

När du ska använda plattform:

  • Time-to-market är viktigt
  • Litet team
  • RAG är inte din produkt, det möjliggör din produkt

För de flesta företag vinner plattformsalternativet tills du når skalegränser.

SK
SecurityEngineer_Kim · 1 januari 2026

Säkerhetsaspekter som ingen nämnt:

Databekymmer:

  1. Vilka data skickar du till externa inbäddnings-API:er?
  2. Vilka data går till LLM-leverantörer?
  3. Var är din vektordatabas hostad?

Alternativ för känsliga data:

  • Självhostade inbäddningsmodeller (Sentence Transformers)
  • Självhostad vektordatabas (Qdrant, Milvus)
  • On-prem LLM (Llama, Mixtral)
  • VPC-drivna hanterade tjänster

Compliance-checklista:

  • Krav på dataresidens uppfyllda
  • Kryptering i vila och under överföring
  • Åtkomstkontroller och loggning
  • Policyer för datalagring
  • Rutiner för hantering av personuppgifter

Förutsätt inte att hanterade tjänster möter dina compliance-behov. Kontrollera explicit.

MD
MLEngineer_David OP ML-ingenjör · 1 januari 2026

Den här tråden har varit otroligt värdefull. Här är min uppdaterade plan:

Arkitekturbeslut:

Väljer hanterade tjänster för snabbhet och teamstorlek:

  • Pinecone för vektorlager
  • OpenAI text-embedding-3 för inbäddningar
  • Cohere omrankare
  • Claude för generering
  • LangChain för orkestrering

Viktiga lärdomar:

  1. Chunking-strategi är lika viktig som val av vektordatabas – Kommer lägga tid här
  2. Omrankning ger hög ROI – Lägger till det från början
  3. Hybridsökning för täckning – Implementerar vektor + BM25
  4. Övervakning från dag 1 – Bygger in observabilitet, inte som efterhandskonstruktion
  5. Säkerhetsgranskning tidigt – Bekräftar compliance innan produktion

Tidsplan:

  • Vecka 1-2: Datarör och chunking
  • Vecka 3-4: Grundläggande RAG-implementering
  • Vecka 5: Övervakning och optimering
  • Vecka 6: Säkerhetsgranskning och produktionsförberedelse

Tack alla för detaljerade insikter. Detta community är guld värt.

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

Vilka är kärnkomponenterna i en AI-sökteknikstack?
Kärnkomponenter inkluderar infrastruktur (beräkning, lagring), datamanagement, inbäddningsmodeller för semantisk förståelse, vektordatabaser för hämtning, ML-ramverk, MLOps-plattformar och övervakningsverktyg. De flesta följer en RAG (Retrieval-Augmented Generation)-arkitektur.
Vilken vektordatabas ska jag välja?
Pinecone för hanterad enkelhet, Weaviate för hybrid-sökfunktioner, Milvus för öppen källkodsflexibilitet och Qdrant för prestanda. Valet beror på skalkrav, teamets expertis och budget.
Vad är skillnaden mellan PyTorch och TensorFlow för AI-sök?
PyTorch erbjuder flexibilitet med dynamiska beräkningsgrafer, perfekt för forskning och prototyper. TensorFlow ger robust produktion med statiska grafer. Många team använder PyTorch för experiment och TensorFlow för produktion.
Hur förbättrar RAG AI-sökens kvalitet?
RAG grundar AI-svaren i färsk, hämtad data istället för att bara förlita sig på träningsdata. Detta minskar hallucinationer, håller svaren aktuella och möjliggör källhänvisningar.

Övervaka ditt varumärke på AI-söksplattformar

Följ hur ditt varumärke syns i AI-drivna sökresultat. Få insyn i ChatGPT, Perplexity och andra AI-svarsmotorer.

Lär dig mer