Bygge en AI-søk teknologistabel fra bunnen av – hvilke komponenter trenger du egentlig?

Discussion Technical AI Infrastructure
MD
MLEngineer_David
ML-ingeniør · 3. januar 2026

Jeg har fått i oppgave å bygge selskapets AI-søkeinfrastruktur fra bunnen av. Kommer fra tradisjonell ML, og landskapet er overveldende.

Dette tror jeg jeg trenger:

  • Vektordatabase for semantisk søk
  • Embedding-modeller for å konvertere innhold
  • En eller annen form for orkestrering/RAG-pipeline
  • Overvåking og observabilitet

Dette er jeg forvirret over:

  • Hvilken vektordatabase? (Pinecone vs Weaviate vs Milvus vs Qdrant)
  • Må jeg ha separate embedding- og LLM-komponenter?
  • Hvordan fungerer hybride søkeopplegg?
  • Hvilken overvåking trengs egentlig?

Kontekst:

  • ~500 000 dokumenter som skal indekseres
  • Trenger under 200 ms spørringslatens
  • Team på 2 ML-ingeniører
  • Budsjett til administrerte tjenester hvis de er verdt det

Vil gjerne høre hvilke stacker folk faktisk kjører i produksjon og hva de ville gjort annerledes.

11 comments

11 kommentarer

AS
AIArchitect_Sarah Ekspert AI-løsningsarkitekt · 3. januar 2026

Jeg har bygget denne stacken flere ganger. Her er rammeverket jeg bruker:

Kjernearkitektur (RAG-mønster):

Brukerspørring
    ↓
Spørringsembedding (embedding-modell)
    ↓
Vektorsøk (vektordatabase)
    ↓
Kandidatuthenting
    ↓
Reranking (cross-encoder)
    ↓
Kontekstsammensetning
    ↓
LLM-generering
    ↓
Respons

Komponentanbefalinger for ditt omfang (500K dokumenter):

KomponentAnbefalingHvorfor
VektordatabasePinecone eller QdrantAdministrert = raskere, team på 2 kan ikke drifte infrastruktur
EmbeddingsOpenAI text-embedding-3-largeBeste kvalitet/kost-forhold for generell bruk
RerankerCohere Rerank eller cross-encoder10-20x forbedring i relevans
LLMGPT-4 eller ClaudeAvhenger av oppgave
OrkestreringLangChain eller LlamaIndexIkke finn opp hjulet på nytt

Budsjettsjekk:

Med 500K dokumenter ser du på:

  • Vektordatabase: $100-500/mnd administrert
  • Embedding-kostnad: Engangskostnad ~$50-100 for å embedde korpuset
  • LLM-kostnad: Bruksavhengig, planlegg $500-2000/mnd

For 2 ingeniører er administrerte tjenester 100% verdt det.

MD
MLEngineer_David OP · 3. januar 2026
Replying to AIArchitect_Sarah
Supernyttig. Spørsmål om reranking-steget – er det virkelig nødvendig? Virker som ekstra latens og kompleksitet.
AS
AIArchitect_Sarah Ekspert · 3. januar 2026
Replying to MLEngineer_David

Reranking er en av de høyest-ROI-tilleggene du kan gjøre. Her er hvorfor:

Uten reranker:

  • Vektorsøk gir semantisk like resultater
  • Men “lik” betyr ikke alltid “mest relevant for spørring”
  • Topp 10 resultater kan være 60% relevante

Med reranker:

  • Cross-encoder analyserer spørring + hver kandidat sammen
  • Fanger opp nyanserte relevanssignaler
  • Topp 10 blir 85-90% relevante

Latenspåvirkning:

  • Rerank kun topp 20-50 kandidater
  • Legger til 50-100 ms
  • Din under-200 ms mål er fortsatt oppnåelig

Matematikken:

  • 50 ms reranking-kostnad
  • 20-30% forbedring i relevans
  • LLM genererer bedre svar fra bedre kontekst

Hopp over det hvis du må, men legg det til senere. Det er vanligvis den største kvalitetsforbedringen etter grunnleggende RAG.

BM
BackendLead_Mike Backend-leder · 3. januar 2026

Har kjørt AI-søk i produksjon i 18 måneder. Her er hva jeg ville gjort annerledes:

Feil vi gjorde:

  1. Startet med selvhostet vektordatabase – Kastet bort 3 måneder på infrastruktur. Burde brukt administrert fra dag 1.

  2. Billig embedding-modell – Sparte $20/mnd, tapte betydelig gjenfinningskvalitet. Kvalitets-embeddings er verdt det.

  3. Ingen hybrid søk i starten – Rent vektorsøk bommet på eksakte treff. Hybrid (vektor + BM25) løste dette.

  4. Undervurderte overvåkingsbehov – Vanskelig å feilsøke når du ikke ser gjenfinningskvalitets-metrikker.

Hva vi kjører nå:

  • Pinecone (vektor) + Elasticsearch (BM25) hybrid
  • OpenAI-embeddings (ada-002, oppgraderer til 3)
  • Cohere reranker
  • Claude for generering
  • Egendefinert overvåkingsdashboard som sporer gjenfinningsmetrikker

Latensfordeling:

  • Embedding: 30 ms
  • Hybrid søk: 40 ms
  • Rerank: 60 ms
  • LLM: 800 ms (streaming forbedrer brukeropplevelsen)

Total opplevd latens er ok fordi vi strømmer LLM-utdata.

DP
DataEngineer_Priya · 2. januar 2026

Legger til datapipeline-perspektivet som ofte blir glemt:

Dokumentbehandling er VELDIG viktig:

Før noe havner i vektordatabasen må du ha:

  1. Chunking-strategi – Hvordan deler du opp dokumenter?
  2. Metadata-uttrekk – Hvilke attributter fanger du?
  3. Rensepipeline – Fjern boilerplate, normaliser tekst
  4. Oppdateringsmekanisme – Hvordan strømmer nye/endrede dokumenter gjennom?

Chunking-tips:

InnholdstypeChunk-strategiChunk-størrelse
LangformartiklerAvsnittsbasert med overlapp300-500 tokens
Tekniske dokumenterSeksjonsbasert500-1000 tokens
FAQ-innholdSpørsmål-svar-parNaturlige enheter
ProduktdataEnhetsbasertFullt produkt

Fellen:

Folk bruker uker på valg av vektordatabase og dager på chunking. Det burde vært motsatt. Dårlig chunking = dårlig gjenfinning uansett hvor god vektordatabasen er.

V
VectorDBExpert Ekspert · 2. januar 2026

Sammenligning av vektordatabaser basert på dine krav:

For 500K dokumenter + 2 ingeniører + under 200 ms:

Pinecone:

  • Fordeler: Fullt administrert, utmerkede dokumenter, forutsigbare priser
  • Ulemper: Leverandørbinding, begrenset tilpasning
  • Passer: Perfekt for dine rammer

Qdrant:

  • Fordeler: God ytelse, bra hybridsøk, sky eller selvhost
  • Ulemper: Nyere administrert tilbud
  • Passer: Godt valg, spesielt hvis du trenger hybridsøk

Weaviate:

  • Fordeler: Bra hybridsøk, innebygd vektorisering
  • Ulemper: Mer kompleks oppsett
  • Passer: Bedre for større team

Milvus:

  • Fordeler: Mest skalerbar, fullstendig åpen kildekode
  • Ulemper: Krever infrastrukturkompetanse
  • Passer: Overkill for ditt omfang, stå over

Min anbefaling:

Start med Pinecone. Den er kjedelig (på en god måte). Du får tid til å vurdere alternativer etter hvert som du forstår dine faktiske behov bedre.

MC
MLOpsEngineer_Chen · 2. januar 2026

Ikke glem MLOps og observabilitet:

Dette må du spore:

  1. Gjenfinningsmetrikker

    • Precision@K (er topp K-resultater relevante?)
    • Recall (finner vi alle relevante dokumenter?)
    • Latensfordeling
  2. Genereringsmetrikker

    • Svarrelevans (matcher svaret spørringen?)
    • Forankring (er svaret støttet av kontekst?)
    • Hallusinasjonsrate
  3. Systemmetrikker

    • Spørringslatens p50/p95/p99
    • Feilrater
    • Kostnad per spørring

Verktøy:

  • Weights & Biases for eksperimentsporing
  • Datadog/Grafana for systemovervåking
  • LangSmith for LLM-observabilitet
  • Egendefinert dashboard for forretningsmetrikker

Det ingen forteller deg:

Du bruker mer tid på overvåking og feilsøking enn på å bygge det opprinnelige systemet. Planlegg for det fra dag 1.

SA
StartupCTO_Alex Startup-CTO · 1. januar 2026

Startup-realitetssjekk:

Hvis du bygger dette for et selskap (ikke forskning), vurder:

Bygge vs. kjøpe:

  • Bygge RAG fra bunnen: 2-3 måneders utviklingstid
  • Bruke eksisterende RAG-plattform: Dager til produksjon

Plattformer som pakker dette:

  • LlamaIndex + administrert vektordatabase
  • Vectara (full RAG-som-tjeneste)
  • Cohere RAG-endepunkter

Når bygge selv:

  • Trenger ekstrem tilpasning
  • Datasensitivitetskrav
  • Skalaøkonomi gir mening
  • Kjernekompetanse-differensiering

Når bruke plattform:

  • Tiden til marked er viktig
  • Lite team
  • RAG er ikke produktet ditt, det muliggjør produktet ditt

For de fleste selskaper vinner plattformtilnærmingen – frem til du møter skaleringsbegrensninger.

SK
SecurityEngineer_Kim · 1. januar 2026

Sikkerhetsaspekter ingen har nevnt:

Databetraktninger:

  1. Hvilke data sender du til eksterne embedding-APIer?
  2. Hvilke data går til LLM-leverandører?
  3. Hvor er vektordatabasen din hostet?

Alternativer for sensitive data:

  • Selvhostede embedding-modeller (Sentence Transformers)
  • Selvhostet vektordatabase (Qdrant, Milvus)
  • On-prem LLM (Llama, Mixtral)
  • VPC-deployerte administrerte tjenester

Samsvarsjekkliste:

  • Krav til datalagring oppfylt
  • Kryptering i ro og under overføring
  • Tilgangskontroll og revisjonslogging
  • Retningslinjer for datalagring
  • PII-håndteringsprosedyrer

Ikke anta at administrerte tjenester oppfyller dine samsvarskrav. Sjekk eksplisitt.

MD
MLEngineer_David OP ML-ingeniør · 1. januar 2026

Denne tråden har vært utrolig verdifull. Her er min oppdaterte plan:

Arkitekturvalg:

Går for administrerte tjenester for fart og teamstørrelse:

  • Pinecone for vektorlager
  • OpenAI text-embedding-3 for embeddings
  • Cohere reranker
  • Claude for generering
  • LangChain for orkestrering

Viktige lærdommer:

  1. Chunking-strategi er like viktig som valg av vektordatabase – Vil bruke tid her
  2. Reranking gir høy ROI – Legger det inn fra start
  3. Hybridsøk gir dekning – Implementerer vektor + BM25
  4. Overvåking fra dag 1 – Bygger inn observabilitet, ikke bolter det på etterpå
  5. Sikkerhetsgjennomgang tidlig – Bekrefter samsvar før produksjon

Tidslinje:

  • Uke 1-2: Datapipeline og chunking
  • Uke 3-4: Kjerne-RAG-implementering
  • Uke 5: Overvåking og optimalisering
  • Uke 6: Sikkerhetsgjennomgang og produksjonsforberedelser

Takk til alle for grundige innspill. Dette fellesskapet er gull.

Vanlige spørsmål

Hva er kjernekomponentene i en AI-søk teknologistabel?

Kjernekomponenter inkluderer infrastruktur (datakraft, lagring), databehandling, embedding-modeller for semantisk forståelse, vektordatabaser for gjenfinning, ML-rammeverk, MLOps-plattformer og overvåkingsverktøy. De fleste følger en RAG (Retrieval-Augmented Generation) arkitektur.

Hvilken vektordatabase bør jeg velge?

Pinecone for enkelhet og drift, Weaviate for hybrid søk, Milvus for åpen kildekode-fleksibilitet og Qdrant for ytelse. Valget avhenger av skaleringsbehov, teamets kompetanse og budsjett.

Hva er forskjellen på PyTorch og TensorFlow for AI-søk?

PyTorch gir fleksibilitet med dynamiske beregningsgrafer, ideelt for forskning og prototyping. TensorFlow tilbyr robust produksjonsutrulling med statiske grafer. Mange team bruker PyTorch til eksperimentering og TensorFlow til produksjon.

Hvordan forbedrer RAG AI-søkkvalitet?

RAG forankrer AI-svar i ferske, hentede data i stedet for kun treningsdata. Dette reduserer hallusinasjoner, holder svarene oppdaterte og gjør det mulig å sitere spesifikke kilder.

Overvåk merkevaren din på tvers av AI-søkeplattformer

Følg med på hvordan merkevaren din vises i AI-drevne søkeresultater. Få innsikt i ChatGPT, Perplexity og andre AI-svarmotorer.

Lær mer