Aftonbladet och Expressen låter inte Google arkivera

av Emanuel Karlsten den januari 16, 2010

i Medier och internet

Jag tänker inte moralisera över det här, jag tror inte ens jag tycker att det är fel.

Men ikväll lärde jag mig att våra kvällstidningar (Aftonbladet och Expressen inkl KVP och GT) inte låter Google cacha deras sidor.

Ni vet vad det handlar om, va? Det här med cachning? Kunskapen borde ligga i grundutbildningen för alla journalister. Google går då och då in på världens alla sajter och tar ett foto på hur det ser ut. En cachning, kallas det. Vilket till exempel hjälper oss journalister att i efterhand se de misstag som gjorts på nätet.

Kommer ni ihåg hur Lars Ohlys sambo bloggade om att Lasse Berghagen hade köpt porrtidningar på en mack? När kvällstidningarna använde henne som källa raderade hon snabbt hela(!) bloggen, men google cachade (hade kvar foton på) allt. På Dagen använde vi det flera gånger. När SSPX-härvan avslöjades försökte de radera flera av sina sidor, till redaktionens förtret. Men med google cache kunde vi göra faximiler till tidningen med bevis för vad de skrivit och påstått.

Google cache är internets samvete, kan man säga. När vi gör fel på internet finns det kvar och säger ”aja baja”. På gott och ont.

I dag gjorde Aftonbladet en tabbe. En fyra år gammal nyhet började varvas på nätet (sannolikt) efter att den länkats på buzz. Sydsvenskan märkte den höjda trafiken, gick in och putsade den, vilket (sannolikt) resulterade att Google fick nys på den igen och någonstans här såg en Aftonbladetreporter nyheten, rajtade och slängde ut på Sveriges största nyhetssajt.

Inte jättemycket att skämmas över, kanske. Och Aftonbladet rättade sig själva snabbt genom att radera nyheten från sajten. Men när jag, och andra, skulle leta i internetsamvetet efter hur stort Aftonbladet slagit upp saken, hur artikeln såg ut, insåg jag: Aftonbladet har förbjudit Google att cacha deras sajter. Så också Expressen.

Det är inget revolutionerande, men kanske intressant?

Jag förstår varför man inte vill låta någon annan, i efterhand, se de misstag man har gjort.

Men samtidigt: Borde kvällstidningarna i någon anda av transparens och god vilja låta andra ta del och cacha allt det tidningen gör, för att i sin tur förvänta att få del av de internetraderingar som görs runt om i samhället?

Och vidare: Blir det fånigt att försöka stoppa cachningen? Eller finns det andra, tekniska skäl som jag inte nämnt till att man vill göra det? (uppdaterad: Ja, det gör det) För ännu fånigare blir det när hela texten ändå går att nå och se via googles sök och nyhetssök

Simon Sundén twittrade om hur enkelt det var att hitta hela texten.

Genom att googla del för del av texten kan man, via en slags bakväg, få ut hela texten från Aftonbladet.

Kontentan blir kanske då: Vi kan aldrig gömma våra misstag på internet, så kanske borde vi låta bli att försöka?

Här är förresten hela texten. Tack Simon Sundén som letade ihop den:

(uppdaterad: Läs gärna min uppföljande bloggpost)

Titel på inlägg:
Blind slog döv efter klockbråk

Huvudrubrik:
Blind slog döv

Underrubrik:
Vilt slagsmål efter fråga om tid
Den blinde mannen ringde på hos den döve och frågade vad klockan var.
När han inte fick något svar utbröt ett vilt slagsmål.

De två männen är båda i 60-årsåldern och bor i samma kvarter i Arlöv.
Den blinde mannen var berusad och ringde i tisdags på hos sin granne för att fråga vad klockan var.
Men eftersom den döve inte kunde höra frågan så gav han han inget svar.

Såg inte klockan
På besökarens kroppsspråk förstod han dock att att frågan gällde vad klockan var och han höll fram sin klocka – som gästen inte kunde se. Den blinde blev provocerad av tystnaden.
– Den blinde slog till den döve. Han tog ett tag om nacken och drog ner honom på golvet. Båda föll till marken, säger kommissarie Mikael Holmström vid Skånepolisen till Sydsvenskan.

”Borde känna till varandra”
Efter ett slagsmål lyckades den döve mannen slå sig fri från den blinde och låsa in sig i lägenheten. Med hjälp av en personlig assistent har han polisanmält händelsen.
Polisen har inga vittnen till händelsen. Inte heller känner de till om männen är bekanta med varandra, men de bor i samma kvarter.
– De borde känna till varandras problem, säger Mikael Holmström till Sydsvenskan.

  • Viktigt och bra inlägg. Transparens.

  • AB, Exp, osv borde absolut tillåta cachening. Den typen av transparens måste finnas för att tidningarna inte helt ska kunna radera sina misstag.

  • Pingback: Tweets that mention Aftonbladet och Expressen låter inte Google arkivera | Emanuels randanmärkningar -- Topsy.com()

  • Det handlar om utgivarens ansvar. Jag tycker det är helt rimligt att man gör vad man kan för att kunna åtgärda en felaktig publicering. Ibland är det tramsiga tabbar, som i det här fallet. Men ibland handlar det om klandervärda publiceringar som måste kunna åtgärdas – så långt det är möjligt.

    Givetvis, har man en gång tappat upp något i badkaret så kan man inte tömma det, men att köra med nocache för att iaf kunna ställa till rätta i möjligaste mån är helt rimligt.

  • Men Jocke – i tryckt tidning går det inte att radera hur stort misstaget än är.
    Jag tänker att det ändå är ytterst sällan som det av anledningen du nämner skulle vara en fördel att inte tillåta cache jämfört med den misstänksamhet som skapas när man inte gör det, och den transparens som jag tror är nödvändig inte minst när man ska försöka leva som man lär.
    Förväntar man sig öppenhet från andra, förväntar man sig att kunna använda google cache som verktyg själv bör man också ställa upp fullt ut själv…

    • Du vet att ingen står upp för transparensen mer än jag, varken i ord eller handling. Men det här känns igen från diskussionen om SRs sociala medier policy: en blind kritik, som jag tycker saknar nyanser. Papperstidningen är en annan sak. Gårdagens tidning finns inte, i princip. Det handlar om, som jag har förstått beslutet i de fall jag varit med om diskussionen, att leva upp till det ansvar som ligger på utgivaren. Om publiceringen skadar enskild så är det bara rimligt att de gör vad de kan för att undvika fortsatt publicering.

      • Jag ska försöka somna strax, men har några nya perspektiv på det här som jag gärna delar imorgon.
        Men innan det, en fråga Jocke: Som jag förstår det så är det inte särskilt lång tid som sajterna hamnar i Googles cache, det fasas ut när nästa ”bild” av sajten tas? Stämmer det?
        Texten fångas ju upp av google och är sökbar (oavsett om en sajt väljer bort cachningen), vilket är tydligt i exemplet ovan. Är det likadant med bilderna? Att de finns registrerade av tex googles bildsök?

        • Och låt mig nu svara på mina egna frågor:
          Nej, googles cachning ligger inge kvar särskilt länge. Det är flera parametrar som avgör – hur stor sajten är (hur många sidor den har), hur välbesökt den är och hur ofta den uppdateras. Men när ny bild kvar försvinner den gamla. Saker du en gång skrivit på nätet arkiveras alltså inte per automatik för evigt.
          Och, ja, om sajten inte förbjuder google så kommer de hämta både text och bild oavsett om de får cacha sajten eller inte. Det innebär att de blir sökbara både på google.com och på image.google.com.
          Källa, Nikke Lindqvist.

      • Har skrivit en uppföljande bloggpost i dag där jag skriver mer om det här, http://emanuelkarlsten.se/01/mer-om-googles-cachning-och-nyhetssajter/
        Men jämfört med googles cachning väger väl ändå en pappersartikel tyngre? En artikel på nätet som raderats ligger kvar i Googles cachning några dagar, någon vecka – sedan försvinner den. I pappret kan inte redaktionen välja att radera den snabbt, den ligger kvar och distribueras till hela Sverige. Den kanske försvinner från medvetandet (eller som nyhet) lika snabbt som googles cache, men skadan måste väl anses som större?

        Det är nu inget försvar, men en notering. Randanmärkning, som vi säger här på bloggen.

  • Viktigt och bra inlägg. Transparens.

  • AB, Exp, osv borde absolut tillåta cachening. Den typen av transparens måste finnas för att tidningarna inte helt ska kunna radera sina misstag.

  • Det handlar om utgivarens ansvar. Jag tycker det är helt rimligt att man gör vad man kan för att kunna åtgärda en felaktig publicering. Ibland är det tramsiga tabbar, som i det här fallet. Men ibland handlar det om klandervärda publiceringar som måste kunna åtgärdas – så långt det är möjligt.

    Givetvis, har man en gång tappat upp något i badkaret så kan man inte tömma det, men att köra med nocache för att iaf kunna ställa till rätta i möjligaste mån är helt rimligt.

  • Men Jocke – i tryckt tidning går det inte att radera hur stort misstaget än är.
    Jag tänker att det ändå är ytterst sällan som det av anledningen du nämner skulle vara en fördel att inte tillåta cache jämfört med den misstänksamhet som skapas när man inte gör det, och den transparens som jag tror är nödvändig inte minst när man ska försöka leva som man lär.
    Förväntar man sig öppenhet från andra, förväntar man sig att kunna använda google cache som verktyg själv bör man också ställa upp fullt ut själv…

    • Du vet att ingen står upp för transparensen mer än jag, varken i ord eller handling. Men det här känns igen från diskussionen om SRs sociala medier policy: en blind kritik, som jag tycker saknar nyanser.

      Papperstidningen är en annan sak. Gårdagens tidning finns inte, i princip.

      Det handlar om, som jag har förstått beslutet i de fall jag varit med om diskussionen, att leva upp till det ansvar som ligger på utgivaren. Om publiceringen skadar enskild så är det bara rimligt att de gör vad de kan för att undvika fortsatt publicering.

      • Jag ska försöka somna strax, men har några nya perspektiv på det här som jag gärna delar imorgon.
        Men innan det, en fråga Jocke: Som jag förstår det så är det inte särskilt lång tid som sajterna hamnar i Googles cache, det fasas ut när nästa ”bild” av sajten tas? Stämmer det?
        Texten fångas ju upp av google och är sökbar (oavsett om en sajt väljer bort cachningen), vilket är tydligt i exemplet ovan. Är det likadant med bilderna? Att de finns registrerade av tex googles bildsök?

        • Och låt mig nu svara på mina egna frågor:
          Nej, googles cachning ligger inge kvar särskilt länge. Det är flera parametrar som avgör – hur stor sajten är (hur många sidor den har), hur välbesökt den är och hur ofta den uppdateras. Men när ny bild kvar försvinner den gamla. Saker du en gång skrivit på nätet arkiveras alltså inte per automatik för evigt.
          Och, ja, om sajten inte förbjuder google så kommer de hämta både text och bild oavsett om de får cacha sajten eller inte. Det innebär att de blir sökbara både på google.com och på image.google.com.
          Källa, Nikke Lindqvist.

      • Har skrivit en uppföljande bloggpost i dag där jag skriver mer om det här, http://emanuelkarlsten.se/01/mer-om-googles-cac
        Men jämfört med googles cachning väger väl ändå en pappersartikel tyngre? En artikel på nätet som raderats ligger kvar i Googles cachning några dagar, någon vecka – sedan försvinner den. I pappret kan inte redaktionen välja att radera den snabbt, den ligger kvar och distribueras till hela Sverige. Den kanske försvinner från medvetandet (eller som nyhet) lika snabbt som googles cache, men skadan måste väl anses som större?

        Det är nu inget försvar, men en notering. Randanmärkning, som vi säger här på bloggen.

  • Pingback: Beta Alfa » Blog Archive » Noterat 2010-01-17()

  • Jo, det cachen visar är vad Google såg vid senaste indexeringen. Hur lång tid en version av en sida lagras beror alltså på när sidan indexeras nästa gång. När det händer beror på bland annat indexeringshastigheten (viktigare webbplatser > högre hastighet), antalet sidor (många sidor > längre tid att komma igenom dem), länkstrukturen på och utanför webbplatsen, slumpen och kanske hur ofta sidan brukar uppdateras.

    Om en sida tas bort helt brukar det dröja ett tag innan den försvinner helt. Jag följde City.se när de tog bort sin gamla webbplats och det tog flera månader för de flesta sidor att försvinna.

    Jag tror inte bildsökningen påverkas av noarchive eftersom den har en egen robot som följer egna robots-direktiv:
    User-agent: Googlebot-Image
    Disallow: /

  • Jo, det cachen visar är vad Google såg vid senaste indexeringen. Hur lång tid en version av en sida lagras beror alltså på när sidan indexeras nästa gång. När det händer beror på bland annat indexeringshastigheten (viktigare webbplatser > högre hastighet), antalet sidor (många sidor > längre tid att komma igenom dem), länkstrukturen på och utanför webbplatsen, slumpen och kanske hur ofta sidan brukar uppdateras.

    Om en sida tas bort helt brukar det dröja ett tag innan den försvinner helt. Jag följde City.se när de tog bort sin gamla webbplats och det tog flera månader för de flesta sidor att försvinna.

    Jag tror inte bildsökningen påverkas av noarchive eftersom den har en egen robot som följer egna robots-direktiv:
    User-agent: Googlebot-Image
    Disallow: /

  • Pingback: Mer om googles cachning och nyhetssajter | Emanuels randanmärkningar()

  • JaW

    Njae, söktjänsters robotar tar ju inte alls ”foton” av alla diverse olika webbsidor. Det handlar inte om jpg/png om man så säger…

    • Nej, det var ett sätt att exemplifiera.

      Den 26 november 2010 22:28 skrev Disqus <

  • JaW

    Njae, söktjänsters robotar tar ju inte alls ”foton” av alla diverse olika webbsidor. Det handlar inte om jpg/png om man så säger…

    • Nej, det var ett sätt att exemplifiera.

      Den 26 november 2010 22:28 skrev Disqus <

Previous post:

Next post: