Discussion Technical SEO Debugging

AI-botar besöker vår sajt men vi blir inte citerade. Hur felsöker jag crawl-problem?

WE
WebDev_Marcus · Senior webb­utvecklare
· · 68 upvotes · 9 comments
WM
WebDev_Marcus
Senior webb­utvecklare · 2 januari 2026

Förvirrande situation:

Våra serverloggar visar regelbundna besök från GPTBot, PerplexityBot och ClaudeBot. De får 200-svar. Så de crawlar definitivt vårt innehåll.

Men när jag frågar ChatGPT, Perplexity eller Claude frågor som vårt innehåll täcker perfekt, blir vi aldrig citerade. Konkurrenter med objektivt sämre innehåll blir istället citerade.

Vad jag har verifierat:

  • robots.txt tillåter alla AI-crawlers
  • Sidor returnerar 200-status
  • Innehållet är server-renderat (ingen JS endast för klient)
  • Sidorna är snabba (<2s laddningstid)

Vad jag försöker lista ut:

  • Hur ser jag vad crawlers faktiskt ser?
  • Vad kan orsaka crawl-framgång men citeringsmisslyckande?
  • Finns det dolda tekniska problem jag missar?

Detta driver mig till vansinne. Crawlers besöker, men vi är osynliga i AI-svar.

9 comments

9 kommentarer

CE
CrawlerDebug_Expert Expert Teknisk SEO-konsult · 2 januari 2026

Låt mig hjälpa till att felsöka. Crawling ≠ citering. Här är felsökningsramverket:

Steg 1: Verifiera vad crawlers faktiskt ser

Använd curl med AI user-agent:

curl -A "GPTBot" -s https://yoursite.com/page | head -100

Kontrollera:

  • Syns hela innehållet?
  • Finns det några meta robots- eller X-Robots-Tag-headers?
  • Är innehållet i HTML:en, utan att kräva JS-körning?

Steg 2: Kolla efter dolda blockeringar

Vanliga problem:

  • noindex meta-tag (blockerar indexering)
  • X-Robots-Tag: noindex-header
  • Canonical pekar någon annanstans
  • Innehåll laddas via JavaScript efter sidladdning
  • Inloggning/betalvägg upptäcker bots och serverar annat innehåll

Steg 3: Kontroll av innehållskvalitet

Om crawlingen funkar är det innehållet som är problemet:

  • Är det verkligen unikt, eller bara en variant av vanligt innehåll?
  • Är det strukturerat för AI-extraktion?
  • Har det auktoritetssignaler (författare, källor)?
  • Är det tillräckligt heltäckande för att vara KÄLLAN?

Det vanligaste problemet jag ser:

Den tekniska crawlingen funkar. Innehållet är bara inte värt att citeras. Crawlers besöker, men AI-system väljer bättre källor.

Gapet mellan “tillgänglig” och “citerbar” handlar om innehållskvalitet och struktur, inte bara teknisk åtkomst.

WM
WebDev_Marcus OP · 2 januari 2026
Replying to CrawlerDebug_Expert
Curl-testet är hjälpsamt. Jag körde det och innehållet syns. Inga noindex-taggar. Men du har nog rätt – kanske är problemet inte tekniskt alls. Hur utvärderar jag om innehållet är “värt att citeras”?
CE
CrawlerDebug_Expert Expert · 2 januari 2026
Replying to WebDev_Marcus

Checklista för citerbarhet:

1. Unikhet

  • Säger ditt innehåll något konkurrenterna inte gör?
  • Egna data, forskning eller insikter?
  • Eller bara ompaketering av allmän information?

2. Struktur

  • Kan AI extrahera ett tydligt svar ur ditt innehåll?
  • Finns det en TL;DR eller ett direkt svar?
  • Är sektionerna tydligt avgränsade?

3. Auktoritet

  • Författare med kompetens?
  • Källhänvisningar?
  • Färskt/uppdaterat innehåll?

4. Omfattning

  • Svarar detta helt på frågan?
  • Eller måste AI kombinera med andra källor?

Den hårda sanningen:

De flesta innehåll online är mediokra. AI har miljontals alternativ att citera. Den väljer de bästa.

Om ditt innehåll är:

  • Likadant som 100 andra sajter
  • Strukturerat som ett narrativ, inte ett svar
  • Inga tydliga auktoritetssignaler
  • Inte den mest heltäckande källan

…då blir det inte citerat, oavsett teknisk åtkomst.

Jämför ditt innehåll med det som BLIR citerat. Vad har de som du saknar?

LP
LogAnalysis_Pro DevOps-ingenjör · 1 januari 2026

Så här analyserar jag AI-crawlerbeteende i loggar:

Logganalys för AI-crawlers:

# Hitta alla AI-crawlerträffar
grep -E "(GPTBot|ChatGPT-User|ClaudeBot|PerplexityBot|Google-Extended)" access.log

# Kolla statuskoder
grep "GPTBot" access.log | awk '{print $9}' | sort | uniq -c

# Se vilka sidor de besöker mest
grep "GPTBot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn

Vad du ska leta efter:

  1. Statuskoder

    • 200: Bra, de fick innehållet
    • 301/302: Omdirigeringar – kontrollera att de hamnar rätt
    • 403/404: Problem – åtgärda direkt
    • 500: Serverfel – undersök
  2. Crawl-mönster

    • Vilka sidor crawlas mest?
    • Besöks dina bästa sidor?
    • Några sidor som aldrig crawlas?
  3. Crawl-frekvens

    • GPTBot: Vanligtvis flera gånger dagligen
    • PerplexityBot: Mycket ofta (realtids­sökning)
    • Om inga träffar på veckor, kolla robots.txt

Vanliga loggproblem:

  • CDN döljer riktiga user agents
  • Load balancer tar bort headers
  • Loggrotering missar crawlerträffar

Säkerställ att du ser råa, ofiltrerade loggar.

CS
ContentQuality_Sarah · 1 januari 2026

Eftersom du har verifierat teknisk åtkomst vill jag ta upp innehållssidan:

Varför AI kan crawla men inte citera:

  1. Innehållet är generiskt “5 tips för bättre e-postmarknadsföring” – det finns 10 000 sådana. AI citerar det bästa, inte alla.

  2. Inget extraherbart svar Narrativt innehåll utan tydliga slutsatser är svårt för AI att citera.

  3. Föråldrad information Om ditt innehåll säger “2023 års trender” väljer AI kanske färskare källor.

  4. Svaga auktoritetssignaler Ingen författare, inga källor, inga kompetenser visade.

  5. Dålig struktur AI behöver tydliga sektioner att tolka. Löpande text är svårare att extrahera.

Diagnostest:

Fråga dig själv: Om jag vore AI och var tvungen att citera EN källa för ämnet, skulle jag välja mitt innehåll eller en konkurrents?

Var ärlig. Vad har konkurrenten som du saknar?

Ofta är det:

  • Mer heltäckande innehåll
  • Bättre struktur för extraktion
  • Starkare auktoritetssignaler
  • Färskare uppgifter

Förbättra dessa så följer citeringar.

JD
JSRendering_Dev · 1 januari 2026

Teknisk djupdykning om JavaScript-rendering:

Även om ditt huvudsakliga innehåll är server-renderat, kolla efter:

1. Lazy-loadade innehållssektioner Viktigt innehåll längre ner på sidan kan laddas efter initial rendering.

// Detta innehåll kanske inte syns för crawlers
<div data-lazy="true">Viktigt innehåll här</div>

2. Interaktiva element som döljer innehåll Flikar, dragspel, expanderbara sektioner kan innehålla innehåll AI inte når.

3. JavaScript-genererad strukturerad data Om ditt schema injiceras via JS kanske crawlers inte ser det.

Testverktyg:

Googles mobilvänlighetstest visar renderad HTML: https://search.google.com/test/mobile-friendly

Jämför vad du ser där med din faktiska sida. Skillnader kan förklara synlighetsproblem.

Snabb lösning:

Visa din sida med JavaScript avstängt. Det som syns där är vad crawlers definitivt ser. Saknas viktigt innehåll är det problemet.

ST
SchemaDebug_Tom · 31 december 2025

Schema-problem som hindrar citeringar:

Även om innehållet syns kan dåligt schema skada dig:

  1. Ogiltig schema-märkning Använd Googles Rich Results Test för att validera. Ogiltigt schema kan ignoreras helt.

  2. Saknat schema Ingen Organization-, Article- eller FAQ-schema gör att AI måste gissa om innehållstyp.

  3. Motstridigt schema Flera Organization-scheman med olika uppgifter. AI vet inte vilken som gäller.

Så testar du:

# Hämta och kolla schema
curl -s https://yoursite.com | grep -o 'application/ld+json' | wc -l

Validera sedan varje schema-block på: https://validator.schema.org/

Vanliga schemafel:

  • Saknad @context
  • Fel @type
  • Ogiltiga datumformat
  • URL-fält utan http/https
  • Saknade obligatoriska egenskaper

Åtgärda schemafel. AI-system tolkar schema för att förstå innehåll. Ogiltigt schema = otydligt innehåll.

WM
WebDev_Marcus OP Senior webb­utvecklare · 30 december 2025

Den här tråden fick mig att inse: vårt problem är inte tekniskt.

Vad jag testade:

  • curl med AI user-agents: innehållet visas korrekt
  • Inga noindex-taggar någonstans
  • Schema validerar korrekt
  • JavaScript döljer inte nyckelinnehåll
  • Loggar visar regelbundna crawlerbesök med 200-svar

Vad jag hittade när jag jämförde med konkurrenter som blir citerade:

Deras innehåll har:

  • Direkt svar i första stycket (vårt gömmer svaret)
  • FAQ-sektioner med schema (vi har inget av det)
  • Författarpresentationer med kompetenser (våra är generiska)
  • Jämförelsetabeller (vi använder berättande text)
  • Uppdaterade datum (våra har inte rörts på 18 månader)

Min handlingsplan:

  1. Sluta felsöka tekniska problem (de är inte felet)
  2. Fokusera på innehållskvalitet och struktur
  3. Lägg till FAQ-sektioner med schema
  4. Strukturera om för direkta svar
  5. Lägg till författaruppgifter
  6. Uppdatera föråldrat innehåll

Viktig insikt:

Crawling fungerar + blir inte citerad = problem med innehållskvalitet/struktur, inte tekniskt problem.

Jag felsökte på fel nivå. Tack alla!

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

Hur vet jag om AI-crawlers besöker min sajt?
Kontrollera serverloggar efter AI-crawler user agents: GPTBot, ChatGPT-User, ClaudeBot, PerplexityBot, Google-Extended. Leta efter 200-statuskoder som bekräftar lyckad åtkomst. De flesta AI-crawlers besöker ofta – om du inte ser dem, kontrollera att din robots.txt inte blockerar dem.
Varför kan AI-crawlers hämta mitt innehåll men inte citera det?
Vanliga orsaker: innehållet är för tunt eller generiskt för att vara värt en källa, innehållsstrukturen gör det svårt att extrahera, det saknas auktoritetssignaler, innehållet är föråldrat eller det finns bättre källor i ämnet. Crawling är bara åtkomst – citering kräver att AI anser innehållet värdefullt nog att referera till.
Hur testar jag vad AI-crawlers faktiskt ser på mina sidor?
Använd curl med AI user-agent-header för att hämta dina sidor. Kontrollera om JavaScript-renderat innehåll syns. Jämför sidkällan mot renderad sida för att se vad crawlers får. Testa att nyckelinnehåll inte ligger i lazy-loaded sektioner eller bakom JavaScript som crawlers inte kan köra.

Övervaka AI-crawleraktivitet

Spåra vilka AI-crawlers som besöker din sajt och hur ditt innehåll visas i AI-svar.

Lär dig mer