Discussion Technical AI Infrastructure

Opbygning af en AI-søgeteknologibunke fra bunden – hvilke komponenter har du egentlig brug for?

ML
MLEngineer_David · ML-ingeniør
· · 145 upvotes · 11 comments
MD
MLEngineer_David
ML-ingeniør · 3. januar 2026

Jeg har fået til opgave at bygge vores virksomheds AI-søgeinfrastruktur fra bunden. Jeg kommer fra traditionel ML, og landskabet er overvældende.

Hvad jeg tror, jeg har brug for:

  • Vektordatabase til semantisk søgning
  • Embedding-modeller til konvertering af indhold
  • En form for orkestrering/RAG-pipeline
  • Overvågning og observabilitet

Hvad jeg er forvirret over:

  • Hvilken vektordatabase? (Pinecone vs Weaviate vs Milvus vs Qdrant)
  • Skal jeg have separate embedding- og LLM-komponenter?
  • Hvordan fungerer hybride søgetilgange?
  • Hvilken overvågning er egentlig nødvendig?

Kontekst:

  • ~500.000 dokumenter skal indekseres
  • Krav om under 200 ms forespørgselslatens
  • Team på 2 ML-ingeniører
  • Budget til administrerede tjenester, hvis de er investeringen værd

Vil meget gerne høre hvilke stack folk faktisk kører i produktion og hvad de ville gøre anderledes.

11 comments

11 kommentarer

AS
AIArchitect_Sarah Ekspert AI-løsningsarkitekt · 3. januar 2026

Jeg har opbygget denne stack flere gange. Her er den ramme jeg bruger:

Kernearkitektur (RAG-mønster):

Brugerforespørgsel
    ↓
Forespørgselsembedding (embedding-model)
    ↓
Vektorsøgning (vektordatabase)
    ↓
Kandidat-hentning
    ↓
Genrangering (cross-encoder)
    ↓
Kontekst-samling
    ↓
LLM-generering
    ↓
Svar

Komponentanbefalinger til din skala (500K docs):

KomponentAnbefalingHvorfor
VektordatabasePinecone eller QdrantAdministreret = hurtigere, team på 2 kan ikke babysitte infrastruktur
EmbeddingsOpenAI text-embedding-3-largeBedste kvalitet/omkostningsforhold til generelt brug
GenrangererCohere Rerank eller cross-encoder10-20x forbedret relevans
LLMGPT-4 eller ClaudeAfhænger af opgaven
OrkestreringLangChain eller LlamaIndexGenopfind ikke hjulet

Budget-realitetscheck:

Ved 500K dokumenter kigger du på:

  • Vektordatabase: $100-500/mdr administreret
  • Embedding-omkostninger: Éngangs ~$50-100 for at embedde korpus
  • LLM-omkostninger: Brugsafhængig, planlæg $500-2000/mdr

For et team på 2 ingeniører kan det 100% betale sig at vælge administrerede tjenester.

MD
MLEngineer_David OP · 3. januar 2026
Replying to AIArchitect_Sarah
Super hjælpsomt. Spørgsmål til genrangeringssteppet – er det virkelig nødvendigt? Virker som ekstra latenstid og kompleksitet.
AS
AIArchitect_Sarah Ekspert · 3. januar 2026
Replying to MLEngineer_David

Genrangering er en af de forbedringer med højest ROI du kan lave. Her er hvorfor:

Uden genrangerer:

  • Vektorsøgning returnerer semantisk lignende resultater
  • Men “lignende” betyder ikke altid “mest relevant for forespørgslen”
  • Top 10 resultater kan være 60% relevante

Med genrangerer:

  • Cross-encoder analyserer samlet forespørgsel + hver kandidat
  • Fanger nuancerede relevanssignaler
  • Top 10 bliver 85-90% relevante

Latenstidseffekt:

  • Genranger kun de 20-50 bedste kandidater
  • Tilføjer 50-100 ms
  • Dit mål om under 200 ms kan stadig opnås

Tallene:

  • 50 ms genrangeringstid
  • 20-30% forbedring af relevans
  • LLM genererer bedre svar ud fra bedre kontekst

Spring det over hvis det er nødvendigt, men tilføj det senere. Det er oftest den enkeltstående største kvalitetsforbedring efter grundlæggende RAG.

BM
BackendLead_Mike Backend Engineering Lead · 3. januar 2026

Har kørt AI-søgning i produktion i 18 måneder. Her er hvad jeg ville gøre anderledes:

Fejl vi lavede:

  1. Startede med selvhostet vektordatabase – Brugte 3 måneder på infrastruktur. Burde have valgt administreret fra dag 1.

  2. Billig embedding-model – Sparet $20/mdr, men mistede betydelig søgekvalitet. Kvalitets-embeddings kan betale sig.

  3. Ingen hybrid-søgning i starten – Ren vektorsøgning missede eksakte forespørgsler. Hybrid (vektor + BM25) løste det.

  4. Undervurderede overvågningsbehov – Svært at fejlfinde uden indblik i søgekvalitets-metrics.

Hvad vi kører nu:

  • Pinecone (vektor) + Elasticsearch (BM25) hybrid
  • OpenAI embeddings (ada-002, opgraderer til 3)
  • Cohere genrangerer
  • Claude til generering
  • Brugerdefineret dashboard til overvågning af søgemetrics

Latenstidsfordeling:

  • Embedding: 30 ms
  • Hybrid-søgning: 40 ms
  • Genrangering: 60 ms
  • LLM: 800 ms (streaming forbedrer brugeroplevelsen)

Den samlede oplevede latenstid er fin fordi vi streamer LLM-output.

DP
DataEngineer_Priya · 2. januar 2026

Lidt om datapipeline-perspektivet, som ofte bliver overset:

Dokumentbehandling betyder MEGET:

Inden noget rammer din vektordatabase, skal du have:

  1. Chunking-strategi – Hvordan opdeler du dokumenter?
  2. Metadata-udtræk – Hvilke attributter gemmer du?
  3. Rensepipeline – Fjern boilerplate, normaliser tekst
  4. Opdateringsmekanisme – Hvordan flyder nye/ændrede dokumenter igennem?

Chunking-råd:

IndholdstypeChunk-strategiChunk-størrelse
Længere artiklerAfsnitsbaseret med overlap300-500 tokens
Tekniske dokumenterSektionbaseret500-1000 tokens
FAQ-indholdSpørgsmål-svar-parNaturlige enheder
ProduktdataEnhedsbaseretHele produktet

Fælden:

Folk bruger uger på valg af vektordatabase og dage på chunking. Det burde være omvendt. Dårlig chunking = dårlig søgning uanset hvor god din vektordatabase er.

V
VectorDBExpert Ekspert · 2. januar 2026

Sammenligning af vektordatabaser baseret på dine krav:

Til 500K dokumenter + 2 ingeniører + under 200 ms:

Pinecone:

  • Fordele: Fuldadministreret, fremragende dokumentation, forudsigelige priser
  • Ulemper: Leverandørafhængighed, begrænset tilpasning
  • Passer: Perfekt til dine rammer

Qdrant:

  • Fordele: God ydeevne, god hybrid-understøttelse, cloud eller selvhost
  • Ulemper: Nyere administreret tilbud
  • Passer: God mulighed, især hvis du får brug for hybrid-søgning

Weaviate:

  • Fordele: Fremragende hybrid-søgning, indbygget vektorisering
  • Ulemper: Mere kompleks opsætning
  • Passer: Bedre til større teams

Milvus:

  • Fordele: Mest skalerbar, fuldt open source
  • Ulemper: Kræver infrastruktur-ekspertise
  • Passer: Overkill til din skala, spring over

Min anbefaling:

Start med Pinecone. Det er kedeligt (på den gode måde). Du får tid til at evaluere alternativer, når du kender dine reelle behov bedre.

MC
MLOpsEngineer_Chen · 2. januar 2026

Glem ikke MLOps og observabilitet:

Det skal du spore:

  1. Søgemetrics

    • Precision@K (er top K resultater relevante?)
    • Recall (finder vi alle relevante dokumenter?)
    • Latenstidsfordeling
  2. Genereringsmetrics

    • Svar-relevans (matcher svar forespørgsel?)
    • Forankring (er svar støttet af kontekst?)
    • Hallucinationsrate
  3. Systemmetrics

    • Forespørgselslatens p50/p95/p99
    • Fejlrate
    • Omkostning pr. forespørgsel

Værktøjer:

  • Weights & Biases til eksperimentsporing
  • Datadog/Grafana til systemovervågning
  • LangSmith til LLM-observabilitet
  • Brugerdefineret dashboard til forretningsmetrics

Det ingen fortæller dig:

Du kommer til at bruge mere tid på overvågning og fejlfinding end på at bygge det oprindelige system. Planlæg for det fra dag 1.

SA
StartupCTO_Alex Startup CTO · 1. januar 2026

Startup-realitetscheck:

Hvis du bygger dette til en virksomhed (ikke forskning), så overvej:

Byg selv vs køb:

  • Bygge RAG fra bunden: 2-3 måneders udviklingstid
  • Bruge eksisterende RAG-platform: Dage til produktion

Platforme der pakker det ind:

  • LlamaIndex + administreret vektordatabase
  • Vectara (fuld RAG-as-a-service)
  • Cohere RAG-endpoints

Hvornår bygge selv:

  • Behov for ekstrem tilpasning
  • Datasikkerhedskrav
  • Skalaøkonomi giver mening
  • Kernekompetence-differentiering

Hvornår bruge platform:

  • Time-to-market er afgørende
  • Lille team
  • RAG er ikke dit produkt, det understøtter dit produkt

For de fleste virksomheder vinder platformtilgangen indtil du møder skala-begrænsninger.

SK
SecurityEngineer_Kim · 1. januar 2026

Sikkerhedsovervejelser som ingen nævnte:

Databekymringer:

  1. Hvilke data sender du til eksterne embedding-API’er?
  2. Hvilke data sendes til LLM-udbydere?
  3. Hvor hostes din vektordatabase?

Muligheder for følsomme data:

  • Selvhostede embedding-modeller (Sentence Transformers)
  • Selvhostet vektordatabase (Qdrant, Milvus)
  • On-premise LLM (Llama, Mixtral)
  • VPC-udrullede administrerede tjenester

Compliance-tjekliste:

  • Overholdelse af datalokalitetskrav
  • Kryptering i hvile og under overførsel
  • Adgangskontrol og revisionslogning
  • Politikker for datalagring
  • Håndtering af persondata (PII)

Antag ikke at administrerede tjenester opfylder dine compliance-krav. Tjek det eksplicit.

MD
MLEngineer_David OP ML-ingeniør · 1. januar 2026

Denne tråd har været utrolig værdifuld. Her er min opdaterede plan:

Arkitekturbeslutning:

Vælger administrerede tjenester af hensyn til hastighed og teamsammensætning:

  • Pinecone til vektorlager
  • OpenAI text-embedding-3 til embeddings
  • Cohere genrangerer
  • Claude til generering
  • LangChain til orkestrering

Vigtigste læringer:

  1. Chunking-strategi betyder lige så meget som valg af vektordatabase – Vil investere tid her
  2. Genrangering er høj ROI – Tilføjer det fra starten
  3. Hybrid-søgning for dækning – Implementerer vektor + BM25
  4. Overvågning fra dag 1 – Bygger observabilitet ind fra start
  5. Tidlig sikkerhedsgennemgang – Bekræfter compliance før produktion

Tidslinje:

  • Uge 1-2: Datapipeline og chunking
  • Uge 3-4: Kerne-RAG-implementering
  • Uge 5: Overvågning og optimering
  • Uge 6: Sikkerhedsgennemgang og produktion

Tak til alle for grundige indsigter. Dette community er guld værd.

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

Hvad er de centrale komponenter i en AI-søgeteknologibunke?
Kernekomponenter omfatter infrastruktur (beregning, lagring), datastyring, embedding-modeller til semantisk forståelse, vektordatabaser til søgning, ML-rammeværker, MLOps-platforme og overvågningsværktøjer. De fleste følger en RAG (Retrieval-Augmented Generation) arkitektur.
Hvilken vektordatabase skal jeg vælge?
Pinecone for administreret enkelhed, Weaviate for hybride søgefunktioner, Milvus for open-source fleksibilitet og Qdrant for ydeevne. Valget afhænger af skalakrav, teamets ekspertise og budget.
Hvad er forskellen på PyTorch og TensorFlow til AI-søgning?
PyTorch tilbyder fleksibilitet med dynamiske beregningsgrafer, ideelt til forskning og prototyper. TensorFlow giver robust produktion med statiske grafer. Mange teams bruger PyTorch til eksperimentering og TensorFlow til produktion.
Hvordan forbedrer RAG kvaliteten af AI-søgning?
RAG forankrer AI-svar i friske, hentede data i stedet for kun at stole på træningsdata. Det reducerer hallucinationer, holder svarene opdaterede og gør det muligt at citere specifikke kilder.

Overvåg dit brand på AI-søgeplatforme

Følg hvordan dit brand vises i AI-drevne søgeresultater. Få indsigt i ChatGPT, Perplexity og andre AI-svarmotorer.

Lær mere