Låt mig hjälpa till att felsöka. Crawling ≠ citering. Här är felsökningsramverket:
Steg 1: Verifiera vad crawlers faktiskt ser
Använd curl med AI user-agent:
curl -A "GPTBot" -s https://yoursite.com/page | head -100
Kontrollera:
- Syns hela innehållet?
- Finns det några meta robots- eller X-Robots-Tag-headers?
- Är innehållet i HTML:en, utan att kräva JS-körning?
Steg 2: Kolla efter dolda blockeringar
Vanliga problem:
noindex meta-tag (blockerar indexering)X-Robots-Tag: noindex-header- Canonical pekar någon annanstans
- Innehåll laddas via JavaScript efter sidladdning
- Inloggning/betalvägg upptäcker bots och serverar annat innehåll
Steg 3: Kontroll av innehållskvalitet
Om crawlingen funkar är det innehållet som är problemet:
- Är det verkligen unikt, eller bara en variant av vanligt innehåll?
- Är det strukturerat för AI-extraktion?
- Har det auktoritetssignaler (författare, källor)?
- Är det tillräckligt heltäckande för att vara KÄLLAN?
Det vanligaste problemet jag ser:
Den tekniska crawlingen funkar. Innehållet är bara inte värt att citeras. Crawlers besöker, men AI-system väljer bättre källor.
Gapet mellan “tillgänglig” och “citerbar” handlar om innehållskvalitet och struktur, inte bara teknisk åtkomst.