Bygge en AI-søk teknologistabel fra bunnen av – hvilke komponenter trenger du egentlig?

Discussion Technical AI Infrastructure
MD
MLEngineer_David
ML-ingeniør · 3. januar 2026

Jeg har fått i oppgave å bygge selskapets AI-søkeinfrastruktur fra bunnen av. Kommer fra tradisjonell ML, og landskapet er overveldende.

Dette tror jeg jeg trenger:

  • Vektordatabase for semantisk søk
  • Embedding-modeller for å konvertere innhold
  • En eller annen form for orkestrering/RAG-pipeline
  • Overvåking og observabilitet

Dette er jeg forvirret over:

  • Hvilken vektordatabase? (Pinecone vs Weaviate vs Milvus vs Qdrant)
  • Må jeg ha separate embedding- og LLM-komponenter?
  • Hvordan fungerer hybride søkeopplegg?
  • Hvilken overvåking trengs egentlig?

Kontekst:

  • ~500 000 dokumenter som skal indekseres
  • Trenger under 200 ms spørringslatens
  • Team på 2 ML-ingeniører
  • Budsjett til administrerte tjenester hvis de er verdt det

Vil gjerne høre hvilke stacker folk faktisk kjører i produksjon og hva de ville gjort annerledes.

11 comments

11 kommentarer

AS
AIArchitect_Sarah Ekspert AI-løsningsarkitekt · 3. januar 2026

Jeg har bygget denne stacken flere ganger. Her er rammeverket jeg bruker:

Kjernearkitektur (RAG-mønster):

Brukerspørring
    ↓
Spørringsembedding (embedding-modell)
    ↓
Vektorsøk (vektordatabase)
    ↓
Kandidatuthenting
    ↓
Reranking (cross-encoder)
    ↓
Kontekstsammensetning
    ↓
LLM-generering
    ↓
Respons

Komponentanbefalinger for ditt omfang (500K dokumenter):

KomponentAnbefalingHvorfor
VektordatabasePinecone eller QdrantAdministrert = raskere, team på 2 kan ikke drifte infrastruktur
EmbeddingsOpenAI text-embedding-3-largeBeste kvalitet/kost-forhold for generell bruk
RerankerCohere Rerank eller cross-encoder10-20x forbedring i relevans
LLMGPT-4 eller ClaudeAvhenger av oppgave
OrkestreringLangChain eller LlamaIndexIkke finn opp hjulet på nytt

Budsjettsjekk:

Med 500K dokumenter ser du på:

  • Vektordatabase: $100-500/mnd administrert
  • Embedding-kostnad: Engangskostnad ~$50-100 for å embedde korpuset
  • LLM-kostnad: Bruksavhengig, planlegg $500-2000/mnd

For 2 ingeniører er administrerte tjenester 100% verdt det.

MD
MLEngineer_David OP · 3. januar 2026
Replying to AIArchitect_Sarah
Supernyttig. Spørsmål om reranking-steget – er det virkelig nødvendig? Virker som ekstra latens og kompleksitet.
AS
AIArchitect_Sarah Ekspert · 3. januar 2026
Replying to MLEngineer_David

Reranking er en av de høyest-ROI-tilleggene du kan gjøre. Her er hvorfor:

Uten reranker:

  • Vektorsøk gir semantisk like resultater
  • Men “lik” betyr ikke alltid “mest relevant for spørring”
  • Topp 10 resultater kan være 60% relevante

Med reranker:

  • Cross-encoder analyserer spørring + hver kandidat sammen
  • Fanger opp nyanserte relevanssignaler
  • Topp 10 blir 85-90% relevante

Latenspåvirkning:

  • Rerank kun topp 20-50 kandidater
  • Legger til 50-100 ms
  • Din under-200 ms mål er fortsatt oppnåelig

Matematikken:

  • 50 ms reranking-kostnad
  • 20-30% forbedring i relevans
  • LLM genererer bedre svar fra bedre kontekst

Hopp over det hvis du må, men legg det til senere. Det er vanligvis den største kvalitetsforbedringen etter grunnleggende RAG.

BM
BackendLead_Mike Backend-leder · 3. januar 2026

Har kjørt AI-søk i produksjon i 18 måneder. Her er hva jeg ville gjort annerledes:

Feil vi gjorde:

  1. Startet med selvhostet vektordatabase – Kastet bort 3 måneder på infrastruktur. Burde brukt administrert fra dag 1.

  2. Billig embedding-modell – Sparte $20/mnd, tapte betydelig gjenfinningskvalitet. Kvalitets-embeddings er verdt det.

  3. Ingen hybrid søk i starten – Rent vektorsøk bommet på eksakte treff. Hybrid (vektor + BM25) løste dette.

  4. Undervurderte overvåkingsbehov – Vanskelig å feilsøke når du ikke ser gjenfinningskvalitets-metrikker.

Hva vi kjører nå:

  • Pinecone (vektor) + Elasticsearch (BM25) hybrid
  • OpenAI-embeddings (ada-002, oppgraderer til 3)
  • Cohere reranker
  • Claude for generering
  • Egendefinert overvåkingsdashboard som sporer gjenfinningsmetrikker

Latensfordeling:

  • Embedding: 30 ms
  • Hybrid søk: 40 ms
  • Rerank: 60 ms
  • LLM: 800 ms (streaming forbedrer brukeropplevelsen)

Total opplevd latens er ok fordi vi strømmer LLM-utdata.

DP
DataEngineer_Priya · 2. januar 2026

Legger til datapipeline-perspektivet som ofte blir glemt:

Dokumentbehandling er VELDIG viktig:

Før noe havner i vektordatabasen må du ha:

  1. Chunking-strategi – Hvordan deler du opp dokumenter?
  2. Metadata-uttrekk – Hvilke attributter fanger du?
  3. Rensepipeline – Fjern boilerplate, normaliser tekst
  4. Oppdateringsmekanisme – Hvordan strømmer nye/endrede dokumenter gjennom?

Chunking-tips:

InnholdstypeChunk-strategiChunk-størrelse
LangformartiklerAvsnittsbasert med overlapp300-500 tokens
Tekniske dokumenterSeksjonsbasert500-1000 tokens
FAQ-innholdSpørsmål-svar-parNaturlige enheter
ProduktdataEnhetsbasertFullt produkt

Fellen:

Folk bruker uker på valg av vektordatabase og dager på chunking. Det burde vært motsatt. Dårlig chunking = dårlig gjenfinning uansett hvor god vektordatabasen er.

V
VectorDBExpert Ekspert · 2. januar 2026

Sammenligning av vektordatabaser basert på dine krav:

For 500K dokumenter + 2 ingeniører + under 200 ms:

Pinecone:

  • Fordeler: Fullt administrert, utmerkede dokumenter, forutsigbare priser
  • Ulemper: Leverandørbinding, begrenset tilpasning
  • Passer: Perfekt for dine rammer

Qdrant:

  • Fordeler: God ytelse, bra hybridsøk, sky eller selvhost
  • Ulemper: Nyere administrert tilbud
  • Passer: Godt valg, spesielt hvis du trenger hybridsøk

Weaviate:

  • Fordeler: Bra hybridsøk, innebygd vektorisering
  • Ulemper: Mer kompleks oppsett
  • Passer: Bedre for større team

Milvus:

  • Fordeler: Mest skalerbar, fullstendig åpen kildekode
  • Ulemper: Krever infrastrukturkompetanse
  • Passer: Overkill for ditt omfang, stå over

Min anbefaling:

Start med Pinecone. Den er kjedelig (på en god måte). Du får tid til å vurdere alternativer etter hvert som du forstår dine faktiske behov bedre.

MC
MLOpsEngineer_Chen · 2. januar 2026

Ikke glem MLOps og observabilitet:

Dette må du spore:

  1. Gjenfinningsmetrikker

    • Precision@K (er topp K-resultater relevante?)
    • Recall (finner vi alle relevante dokumenter?)
    • Latensfordeling
  2. Genereringsmetrikker

    • Svarrelevans (matcher svaret spørringen?)
    • Forankring (er svaret støttet av kontekst?)
    • Hallusinasjonsrate
  3. Systemmetrikker

    • Spørringslatens p50/p95/p99
    • Feilrater
    • Kostnad per spørring

Verktøy:

  • Weights & Biases for eksperimentsporing
  • Datadog/Grafana for systemovervåking
  • LangSmith for LLM-observabilitet
  • Egendefinert dashboard for forretningsmetrikker

Det ingen forteller deg:

Du bruker mer tid på overvåking og feilsøking enn på å bygge det opprinnelige systemet. Planlegg for det fra dag 1.

SA
StartupCTO_Alex Startup-CTO · 1. januar 2026

Startup-realitetssjekk:

Hvis du bygger dette for et selskap (ikke forskning), vurder:

Bygge vs. kjøpe:

  • Bygge RAG fra bunnen: 2-3 måneders utviklingstid
  • Bruke eksisterende RAG-plattform: Dager til produksjon

Plattformer som pakker dette:

  • LlamaIndex + administrert vektordatabase
  • Vectara (full RAG-som-tjeneste)
  • Cohere RAG-endepunkter

Når bygge selv:

  • Trenger ekstrem tilpasning
  • Datasensitivitetskrav
  • Skalaøkonomi gir mening
  • Kjernekompetanse-differensiering

Når bruke plattform:

  • Tiden til marked er viktig
  • Lite team
  • RAG er ikke produktet ditt, det muliggjør produktet ditt

For de fleste selskaper vinner plattformtilnærmingen – frem til du møter skaleringsbegrensninger.

SK
SecurityEngineer_Kim · 1. januar 2026

Sikkerhetsaspekter ingen har nevnt:

Databetraktninger:

  1. Hvilke data sender du til eksterne embedding-APIer?
  2. Hvilke data går til LLM-leverandører?
  3. Hvor er vektordatabasen din hostet?

Alternativer for sensitive data:

  • Selvhostede embedding-modeller (Sentence Transformers)
  • Selvhostet vektordatabase (Qdrant, Milvus)
  • On-prem LLM (Llama, Mixtral)
  • VPC-deployerte administrerte tjenester

Samsvarsjekkliste:

  • Krav til datalagring oppfylt
  • Kryptering i ro og under overføring
  • Tilgangskontroll og revisjonslogging
  • Retningslinjer for datalagring
  • PII-håndteringsprosedyrer

Ikke anta at administrerte tjenester oppfyller dine samsvarskrav. Sjekk eksplisitt.

MD
MLEngineer_David OP ML-ingeniør · 1. januar 2026

Denne tråden har vært utrolig verdifull. Her er min oppdaterte plan:

Arkitekturvalg:

Går for administrerte tjenester for fart og teamstørrelse:

  • Pinecone for vektorlager
  • OpenAI text-embedding-3 for embeddings
  • Cohere reranker
  • Claude for generering
  • LangChain for orkestrering

Viktige lærdommer:

  1. Chunking-strategi er like viktig som valg av vektordatabase – Vil bruke tid her
  2. Reranking gir høy ROI – Legger det inn fra start
  3. Hybridsøk gir dekning – Implementerer vektor + BM25
  4. Overvåking fra dag 1 – Bygger inn observabilitet, ikke bolter det på etterpå
  5. Sikkerhetsgjennomgang tidlig – Bekrefter samsvar før produksjon

Tidslinje:

  • Uke 1-2: Datapipeline og chunking
  • Uke 3-4: Kjerne-RAG-implementering
  • Uke 5: Overvåking og optimalisering
  • Uke 6: Sikkerhetsgjennomgang og produksjonsforberedelser

Takk til alle for grundige innspill. Dette fellesskapet er gull.

Vanlige spørsmål

Overvåk merkevaren din på tvers av AI-søkeplattformer

Følg med på hvordan merkevaren din vises i AI-drevne søkeresultater. Få innsikt i ChatGPT, Perplexity og andre AI-svarmotorer.

Lær mer