Hvilke komponenter trenger jeg for å bygge en AI-søke-teknologistakk?
Lær om de essensielle komponentene, rammeverkene og verktøyene du trenger for å bygge en moderne AI-søke-teknologistakk. Oppdag systemer for innhenting, vektord...
Diskusjon i fellesskapet om å bygge AI-søkeinfrastruktur. Ingeniører og arkitekter deler komponentanbefalinger, verktøysammenligninger og implementeringserfaringer.
Jeg har fått i oppgave å bygge selskapets AI-søkeinfrastruktur fra bunnen av. Kommer fra tradisjonell ML, og landskapet er overveldende.
Dette tror jeg jeg trenger:
Dette er jeg forvirret over:
Kontekst:
Vil gjerne høre hvilke stacker folk faktisk kjører i produksjon og hva de ville gjort annerledes.
Jeg har bygget denne stacken flere ganger. Her er rammeverket jeg bruker:
Kjernearkitektur (RAG-mønster):
Brukerspørring
↓
Spørringsembedding (embedding-modell)
↓
Vektorsøk (vektordatabase)
↓
Kandidatuthenting
↓
Reranking (cross-encoder)
↓
Kontekstsammensetning
↓
LLM-generering
↓
Respons
Komponentanbefalinger for ditt omfang (500K dokumenter):
| Komponent | Anbefaling | Hvorfor |
|---|---|---|
| Vektordatabase | Pinecone eller Qdrant | Administrert = raskere, team på 2 kan ikke drifte infrastruktur |
| Embeddings | OpenAI text-embedding-3-large | Beste kvalitet/kost-forhold for generell bruk |
| Reranker | Cohere Rerank eller cross-encoder | 10-20x forbedring i relevans |
| LLM | GPT-4 eller Claude | Avhenger av oppgave |
| Orkestrering | LangChain eller LlamaIndex | Ikke finn opp hjulet på nytt |
Budsjettsjekk:
Med 500K dokumenter ser du på:
For 2 ingeniører er administrerte tjenester 100% verdt det.
Reranking er en av de høyest-ROI-tilleggene du kan gjøre. Her er hvorfor:
Uten reranker:
Med reranker:
Latenspåvirkning:
Matematikken:
Hopp over det hvis du må, men legg det til senere. Det er vanligvis den største kvalitetsforbedringen etter grunnleggende RAG.
Har kjørt AI-søk i produksjon i 18 måneder. Her er hva jeg ville gjort annerledes:
Feil vi gjorde:
Startet med selvhostet vektordatabase – Kastet bort 3 måneder på infrastruktur. Burde brukt administrert fra dag 1.
Billig embedding-modell – Sparte $20/mnd, tapte betydelig gjenfinningskvalitet. Kvalitets-embeddings er verdt det.
Ingen hybrid søk i starten – Rent vektorsøk bommet på eksakte treff. Hybrid (vektor + BM25) løste dette.
Undervurderte overvåkingsbehov – Vanskelig å feilsøke når du ikke ser gjenfinningskvalitets-metrikker.
Hva vi kjører nå:
Latensfordeling:
Total opplevd latens er ok fordi vi strømmer LLM-utdata.
Legger til datapipeline-perspektivet som ofte blir glemt:
Dokumentbehandling er VELDIG viktig:
Før noe havner i vektordatabasen må du ha:
Chunking-tips:
| Innholdstype | Chunk-strategi | Chunk-størrelse |
|---|---|---|
| Langformartikler | Avsnittsbasert med overlapp | 300-500 tokens |
| Tekniske dokumenter | Seksjonsbasert | 500-1000 tokens |
| FAQ-innhold | Spørsmål-svar-par | Naturlige enheter |
| Produktdata | Enhetsbasert | Fullt produkt |
Fellen:
Folk bruker uker på valg av vektordatabase og dager på chunking. Det burde vært motsatt. Dårlig chunking = dårlig gjenfinning uansett hvor god vektordatabasen er.
Sammenligning av vektordatabaser basert på dine krav:
For 500K dokumenter + 2 ingeniører + under 200 ms:
Pinecone:
Qdrant:
Weaviate:
Milvus:
Min anbefaling:
Start med Pinecone. Den er kjedelig (på en god måte). Du får tid til å vurdere alternativer etter hvert som du forstår dine faktiske behov bedre.
Ikke glem MLOps og observabilitet:
Dette må du spore:
Gjenfinningsmetrikker
Genereringsmetrikker
Systemmetrikker
Verktøy:
Det ingen forteller deg:
Du bruker mer tid på overvåking og feilsøking enn på å bygge det opprinnelige systemet. Planlegg for det fra dag 1.
Startup-realitetssjekk:
Hvis du bygger dette for et selskap (ikke forskning), vurder:
Bygge vs. kjøpe:
Plattformer som pakker dette:
Når bygge selv:
Når bruke plattform:
For de fleste selskaper vinner plattformtilnærmingen – frem til du møter skaleringsbegrensninger.
Sikkerhetsaspekter ingen har nevnt:
Databetraktninger:
Alternativer for sensitive data:
Samsvarsjekkliste:
Ikke anta at administrerte tjenester oppfyller dine samsvarskrav. Sjekk eksplisitt.
Denne tråden har vært utrolig verdifull. Her er min oppdaterte plan:
Arkitekturvalg:
Går for administrerte tjenester for fart og teamstørrelse:
Viktige lærdommer:
Tidslinje:
Takk til alle for grundige innspill. Dette fellesskapet er gull.
Følg med på hvordan merkevaren din vises i AI-drevne søkeresultater. Få innsikt i ChatGPT, Perplexity og andre AI-svarmotorer.
Lær om de essensielle komponentene, rammeverkene og verktøyene du trenger for å bygge en moderne AI-søke-teknologistakk. Oppdag systemer for innhenting, vektord...
Diskusjon i fellesskapet om alternativkostnaden ved å ignorere AI-søk. Markedsførere deler data og erfaringer om hva merkevarer taper ved å ikke overvåke AI-syn...
Diskusjon i fellesskapet om statistikk og trender for AI-søk. Markedsførere deler datapunkter, prognoser og hvordan man bruker veksttall for å begrunne budsjett...
Informasjonskapselsamtykke
Vi bruker informasjonskapsler for å forbedre din surfeopplevelse og analysere vår trafikk. See our privacy policy.