Här är data från SVT:s valkompass – gör något med den du också

Precis som vi gjorde inför EU-valet så väljer vi nu att göra vår data från SVT:s valkompass och kandidatguide tillgänglig för andra att jobba vidare med.  Idag släpper vi därför vår data med information om mer än 5400 riksdagskandidater och över 2000 enkätsvar – fri för nedladdning och användning.

Vi har lagt ner väldigt mycket tid och kraft på att ta fram denna unika data och nu när vi själva har gjort både en stor tjänst och en rad nyheter utifrån materialet så vill vi gärna att andra kan göra detsamma.

Här är ett urval av vad som gjorts i nyhetsväg på SVT, både på webben och i TV:

Men det finns säkert massor som vi missat – och nu är du välkommen att dyka ner i vår data och leta vidare,  skapa nya datavisualiseringar, tjänster eller hitta andra nyheter i materialet. Redan tidigare har t ex Hampus Brynolf skrapat ner data från vår valkompass och byggt Kandidatkollen som är baserad på kandidaternas svar.

Data är fritt för användning, men du måste ange Källa: SVT Pejl och länka till oss som gjort grovjobbet (http://svt.se/pejl/) . Och skicka gärna en rad på pejl@svt.se eller till @svtpejl på twitter och berätta vad du gjort eller lämna synpunkter på informationen.

/Helena Bengtsson, databasredaktör och Kristofer Sjöholm, projektledare, SVT Pejl

Här hittar du vår data!

Information om flikarna i filen:

Källor
Valmyndigheten, www.val.se
Infotorg, www.infotorg.sema.se
Bolagsverket, www.bolagsverket.se

Kandidater
Uttag har gjorts från valmyndighetens webbplats flera gånger under våren och sommaren. Sista uttaget gjordes 2014-08-26. Här finns alla kandidater i följande partier: M, C, FP, KD, S, V, MP, SD, PP och FI – sorterade efter parti och plats på valsedeln. Förutom namn på kandidat finns också bostadsort och födelseår enligt folkbokföringen. Varje kandidat har också ett id – detta id återfinns i alla flikar och kan användas för att pussla ihop data från olika flikar.

Inkomster
Här finns uppgifter för de senaste åren när det gäller kandidaternas inkomster – taxerad inkomst av tjänst, inkomst av aktiv näringsverksamhet och inkomst av passiv näringsverksamhet. Några personer saknar vissa uppgifter, det beror på att de bor utomlands eller har skyddad identitet.

Bolag
Uppgifterna är hämtade från bolagsverket  2014-07-03. Här finns alla de kandidater som har ett bolagsengagemang som är registrerat hos Bolagsverket. Har listas vilka bolag de har uppdrag i, vilken funktion de har i bolagets styrelse, namn på bolaget och organisationsnummer. Observera att en kandidat kan förekomma på flera rader om kandidaten har intressen i fler än ett bolag. Enskilda firmor som inte är registrerade hos Bolagsverket finns inte med.

Enkätsvar
Alla kandidater har fått möjlighet att svara på enkäten. Av 5441 kandidater så har 2009 svarat. Här finns alla de kandidater som svarat på enkäten – och deras svar. Kolumnen Id knyter ihop enkätsvaren med de övriga tabellerna​.

Så här jobbade vi med att ta fram valkompassen

Vissa projekt har man jobbat med så länge att man nästan glömt bort allt arbete man lagt ner när det väl är dags för lansering. SVT:s valkompass 2014 som är en uppföljare till Valpejl 2010 är ett sådant projekt. Här ska jag försöka beskriva hur vi jobbat med att ta fram frågorna till valkompassen och för hur matchningsprocenten för kandidater samt partier räknats ut.

OBS: Det som står i detta inlägg i övrigt är mest för de  specialintresserade nördarna. Här finns en mer allmän om-text om hur vi jobbat med valkompassen för övriga.

Eftersom vi redan hade gjort en valkompass med kandidatmatchning 2010 så trodde jag naivt att det skulle gå enklare denna gång. Samtidigt så ville vi förbättra processen med framtagningen av frågor ytterligare för att göra den slutgiltiga valkompassen ännu bättre och mer träffsäker. Så här i efterhand så tror jag att vi förmodligen lagt ner ännu mer tid på framtagningen av frågor och olika former av tester jämfört med 2010. Inte minst eftersom vi också gjorde en valkompass till EU-valet.

I samband med Almedalen 2013 tog vi kontakt med partierna för att berätta om att vi  behövde deras hjälp med att få kandidaterna att fylla i vår enkät med alla frågor. Efter det påbörjades det egentliga arbetet med valkompasserna för de bägge valen.

Framtagning av frågor till valkompassen
För ungefär ett år sedan, i september 2013, gav vi professorn i statsvetenskap Tommy Möller och författaren/journalisten Christer Isaksson i uppdrag att ta fram ett omfattande frågebatteri som vi kunde bearbeta för att till slut kunna få fram de slutgiltiga frågorna. De hade varit ansvariga för framtagningen av frågebatteriet även 2010 och är de personer i Sverige som har längst erfarenhet av konstruera frågor till valkompasser.

Möller och Isaksson levererade frågor i två olika omgångar, en för riksdagsvalet och en för EU-valet. Utöver detta har SVT:s och SR:s (som också publicerade partikompassen hos sig) medarbetare och politiska reportrar också varit till stor hjälp vid gallringen av frågor samt kommit med förslag och synpunkter under resans gång. Vi kompletterade med aktuella politiska frågor så sent som möjligt innan vi gjorde utskicken till politikerna för att få med mer aktuella frågor också. Det totala antalet frågor som vi jobbat med för bägge valen har varit ungefär 100 st. Till slut hamnade vi på 30 st i EU-valet och 45 st i riksdagsvalet, varav flertalet av de ideologiska samt frågan om Sverige ska lämna EU var identiska.

För att få ett så bra underlag vid urvalet av frågor som möjligt anlitade vi Göteborgs universitet och Opinionslaboratoriet (LORE) för att göra paneltester på frågorna. Totalt paneltestade vi 75 st frågor i två olika omgångar. Ni hittar rapporterna från dessa tester här:

Rapport 1 för utvärdering av valkompassfrågor (PDF)
Per Oleskog Tryggvason & Henrik Oscarsson 2014

Rapport 2 för utvärdering av valkompassfrågor (PDF)
Per Oleskog Tryggvason & Henrik Oscarsson 2014

Antal svarande på paneltesterna var ca 1100 stycken och urvalet bestod till hälften av ett slumpmässigt urval och till hälften av självrekryterad panel.

Paneltesterna gav oss – genom en statistisk körning av alla svar kopplade till vad paneldeltagarna sagt att de skulle rösta på om det var val idag – en bra möjlighet att välja ut frågor som var partiskiljande bland väljarna. I rapporterna gjordes en lång rad statistiska körningar, men den som vi använde oss av var den som gällde för Samtliga partier.

LORE-rapport2
Klipp ur rapporten som visar de statistiskt beräknade ETA-värdena för att visa hur partiskiljande en viss fråga var.

Förutom detta kollade vi på hur balansen mellan de olika svarsalternativen för varje fråga såg ut, dvs om det var en stor övervikt positiva eller negativa svar till ett visst förslag. Vi räknade även in andelen Ingen åsikt – stor andel bedömdes vara negativt – samt om förslaget var åsiktsintensivt eller inte, med andra ord hur stor andel som svarat Mycket bra eller Mycket dåligt som ett alternativ. Vi ansåg det som positivt ifall åsiktsintensiteten var stor så länge det inte innebar en alltför stor obalans åt något håll.

LORE-rapport
Klipp från rapporten som visar fördelning av svar.

Den sista faktorn vi räknade in var spridningen av medelvärdet för de olika partierna i de olika frågorna, ju bättre spridning mellan partierna desto bättre. Med hjälp av detta kunde vi också se till att det var en bra balans mellan positiva och negativa förslag för de olika politiska alternativen där vi i grova drag räknade in alliansen, de rödgröna och Sverigedemokraterna som de tre stora alternativen. Även Feministiskt initiativ och Piratpartiet behövde få med minst en eller två profilfrågor i frågebatteriet.

LORE-rapport3
Klipp från rapporten som visar väljarnas medelposition i olika frågor baserat på vilket parti som de angett att de skulle rösta på.

Baserat på allt detta material från paneltesterna – där värdet på hur partiskiljande en fråga var vägde tyngst – så gjorde vi sedan en total ranking av alla frågor. Denna ranking av frågorna var sedan en av de viktigaste faktorerna som vi tog hänsyn till vid bortgallringen av frågor från vår stora bruttolista. Vi kompletterade dock med ytterligare frågor senare som var mer aktuella i den politiska debatten än de som vi jobbat med när vi påbörjade vårt arbete. Vi valde dessutom att skriva om eller lägga till ett fåtal frågor så att balansen mellan positiva och negativa förslag för de olika politiska alternativen inte blev alltför sned.

Uträkning av matchningsprocent för kandidater
Vi använder i stort sett samma uträkningsmodell för matchningsprocent som vid valet 2010, även om vi filat något på algoritmen och testat den mer denna gång. Det är en snarlik modell som det finska public service-bolaget YLE använder sig av när de räknar ut sin matchningsprocent i deras valkompasser.

Du som besökare får baserat på de alternativ du väljer samt om du angivet en fråga som extra viktig eller inte, en maxpoäng.  Hur stor denna maxpoäng blir beror på hur du svarat, om du har svarat många Mycket bra eller Mycket dåligt förslag får du t ex högre maxpoäng än om du mest svarat Ganska bra och Ganska dåligt. Denna maxpoäng jämförs sedan med samtliga kandidater som du matchar dig mot (som styrs av vilken valkrets du tillhör eller valt att jämföra dig med).

Det finns i grunden fyra alternativ. Poängen för besökarens totala matchning räknas ut enligt följande:

Mycket bra förslag/mycket dåligt förslag: 11 poäng
Ganska bra förslag/ganska dåligt förslag: 8 poäng

Om du sedan angett frågan som extra viktig dubbleras poängantalet, dvs 22 respektive 16 poäng.

Om vi förenklar uträkning av maxpoäng baserat på tre frågor ser det ut så här:
Fråga 1: Mycket bra förslag = 11 poäng
Fråga 2: Ganska dåligt förslag = 8 poäng
Fråga 3: Mycket dåligt förslag (Extra viktig) = 22 poäng

ger alltså 11+8+2*11= 41 i maxpoäng

När vi sedan räknar ut matchpoängen för de kandidater som besökaren jämför sig mot används följande matris (besökarens svar vågrätt):

Matris1

Vid extra viktig fråga  dubbleras alla poäng (besökarens svar vågrätt):

Matris2

För att återgå till exemplet ovan skulle en kandidat som svarat poäng enligt följande:
Fråga 1: Mycket bra förslag (samma) = 11 poäng
Fråga 2: Ganska dåligt förslag (jämfört med Ganska bra förslag) = 3 poäng
Fråga 3: Mycket bra förslag (jämfört med Mycket dåligt förslag (extra viktig)) = 0 poäng

Detta ger alltså 11 + 3 + 0 = 14 i matchpoäng

Procentmatchningen mellan besökaren och kandidaten blir då alltså 14/41 = 0,341 dvs 34%

I de fall då både besökaren och kandidaten angett frågan som mycket viktig dubbleras poängen ytterliggare (besökarens svar vågrätt):

Matris3

Detta gör alltså att denna fråga får 4 gånger så stor betydelse när matchprocenten räknas samman, vilket får effekt såväl när man tycker olika som när man tycker lika.

Noteras att så länge besökaren och kandidaten har valt exakt samma alternativ så får man alltid lika många poäng, det är om man tycker olika i någon fråga som detta får effekt i sammanräkningen. Med andra ord, så länge besökaren har exakt samma svar genom hela testet så kommer de alltid att matchas 100% oavsett om de kryssat samma frågor som extra viktig eller inte. Men så fort de tycker olika i en fråga så kommer de Extra viktiga-valen att få betydelse i beräkningen av matchningsprocenten.

För besökaren finns möjligheten att hoppa över en fråga genom att välja alternativet Ingen åsikt. Då räknas denna frågan bort i sammanräkningen av matchprocenten även för kandidaten och därmed sänks alltså även maxpoängen. Dock har vi behövt hantera kandidaternas svar annorlunda, pga att de annars skulle vinna på att svara Ingen åsikt i många frågor och därmed skulle kunna få en mycket hög matchprocent mot de besökare som svarat lika i de få frågor som kandidaterna i fråga faktiskt valt att svara på.

Om besökaren har en åsikt i frågan, men kandidaten inte har det så har vi hanterar vi därför detta med att  kandidaten matchpoäng sänks med -1 på den frågan och -2 ifall besökaren valt frågan som Mycket viktig. Dvs kandidaten distanseras  från besökarens matchprocent något när de angett Ingen åsikt oavsett vilket av andra alternativen som besökaren svarat på.

Partimatchningen
Matchningen mot partier fungerar på samma sätt som mot de enskilda kandidaterna. Detta görs genom att det tas fram en motsvarande svarssträng för varje parti på samma sätt som varje enskild kandidat genererar. Vi har valt att ta fram partisträngen med hjälp av kandidaternas svar på alla kompassfrågorna, med särskild tyngd på de ledande företrädarnas (med ledande företrädare menar vi partiledare, partisekreterare, gruppledare i riksdagen, nuvarande och tidigare ministrar etc).

För varje parti och för varje fråga så undersöks fördelningen av svaren av de olika alternativen från Mycket bra förslag till Mycket dåligt förslag + Ingen åsikt. I de allra flesta fall så är det väldigt tydligt vilket alternativ som gäller för partiet men i vissa frågor kan fördelningen vara mer oviss pga att kandidaternas svar inom detta parti skiljer sig åt. I dessa fall sätts partisvaret baserat på vad de ledande företrädarna för partiet svarat på denna frågan.

Vad det gäller Extra viktig fråga för partiet så har vi satt gränsen på där 25% eller mer av partiernas kandidater angett denna fråga som Extra viktig. Var gränsen borde gå kan diskuteras men det är i alla fall lika för alla partier. I många fall är frekvensen inom partiet bland kandidaterna som svarat “Extra viktig fråga” betydligt högre än 25%.

Efter det att partisträngarna satts har vi testat dem i den verkliga valkompassen för att verifiera att de verkar rimliga mot såväl det totala antalet kandidater för partiet som för deras ledande företrädare.

Synpunkter och feedback?
Hoppas att jag lyckats förklara hur matchningen beräknas och framtagningen av kompassfrågorna gjorts. Genom detta blogginlägg vill jag skapa transparens inom detta område som de flesta andra tillverkare av valkompasser vill hålla för dem själva. Genom att berätta hur vi gjort och öppna oss för förslag på förbättringar och feedback hoppas och tror jag att vi kan få ännu bättre kvalité på valkompasserna framöver.

Idag släpper vi datan för EU-valkompassen fri för nedladdning

På SVT Pejl har vi länge jobbat med datajournalistik och vi har ofta delat med oss av såväl kunskap som datafiler till kollegor och forskare som velat använda sig av det material vi tagit fram. Och det har sedan länge funnits nedladdningsmöjligheter från delar av våra stora tjänster Skolpejl och Brottspejl.

Men idag har vi bestämt oss för att ta detta med att dela med oss av vår data ett steg längre. Vi släpper nämligen den insamlade och bearbetade datan från vår EU-valkompass fri för nedladdning och vidareanvändning för alla. Det har varit en process både för oss själva och våra chefer att inse att värdet av att andra också kan jobba vidare med vår data, efter det att vi själva byggt våra tjänster och gjort våra nyheter. Därför öppnar vi nu upp vårt insamlade material så att andra kan hitta det vi missat. Vi hoppas att det stora arbete vi lagt ner på att samla in all denna data kring våra EU-kandidater och vad de tycker i olika frågor kan inspirera andra datajournalister, statistiker eller statsvetare att hitta nya vinklar, göra snygga datavisualiseringar och gräva fram andra nyheter i detta omfattande och unika material.

Så använd gärna vår data – men se till att hänvisa till oss som gjort jobbet. Och använd den med respekt och förnuft både mot oss på SVT och mot kandidaterna som svarat på våra frågor. Vi ser det som en viktig public service-insats att kunna dela med oss av vårt unika datamaterial, och hoppas att vi kan börja göra det än mer framöver. Så hör av er och tala om vad ni har gjort med vår data och hur ni har kunnat bygga vidare på vårt arbete. Mejla oss på pejl@svt.se eller hör av er till @svtpejl på twitter om ni har tips, synpunkter, ris eller ros.

/Kristofer Sjöholm , projektledare, och Helena Bengtsson, databasredaktör, på SVT Pejl

INFORMATION OM DATAN

Källor: Valmyndigheten, InfotorgBolagsverket.

Beskrivning av flikarna i data-filen.

Grunddata
Uttag har gjorts från valmyndighetens webbplats och från Infotorg. Här finns alla kandidater – sorterade efter parti och plats på valsedeln. Förutom namn på kandidat finns också bostadsort och födelseår enligt folkbokföringen. Dessutom finns taxerad inkomst av tjänst, inkomst av aktiv näringsverksamhet och inkomst av passiv näringsverksamhet. Inkomsterna är 2013 års taxering, dvs 2012 års inkomster. Några personer saknar vissa uppgifter, det beror på att de bor utomlands eller har skyddad identitet. Varje kandidat har också ett id – detta id återfinns i alla flikar och kan användas för att pussla ihop data från olika flikar.

Bolag
Uppgifterna är hämtade från Bolagsverket 2014-03-25. Enstaka ledamöter som tillkommit senare har kompletterats med bolagsinformation från Infotorg. Här finns alla de kandidater som har ett bolagsengagemang som är registrerat hos Bolagsverket. Har listas vilka bolag de har uppdrag i, vilken funktion de har i bolagets styrelse, namn på bolaget och organisationsnummer. Observera att en kandidat kan förekomma på flera rader om kandidaten har intressen i fler än ett bolag. Enskilda firmor som inte är registrerade hos Bolagsverket finns inte med.

Enkatdata
Alla kandidater har fått möjlighet att svara på enkäten. Av 371 kandidater så har 274 svarat. Här finns alla kandidater – sorterade efter parti och plats på valsedeln. För de kandidater som svarat på enkaten finns också data från enkätsvar – och svar på valkompassen.Vissa frågor har fasta alternativ och i de fallen lagras en sifferkod i databasen. Uppgifter om vad de olika sifferkoderna betyder finns i fliken kodning. Uppgift om kolumnrubriker/variabelnamn i klartext redovisas i fliken Frågor.

Kodning
Här finns uppgifter om vad de olika sifferkoderna betyder, ex 1 för Ja och 2 för Nej för frågan om personvalskampanj.

Frågor
Här finns en lista över alla frågor i enkäten och valkompassen i klartext – med motsvarande variabelnamn. Variabelnamnen återfinns i fliken Enkatdata.

Så visualiserade vi trafikolyckorna

Utandningsprov och alkoholrelaterade trafikolyckor
Polisen ägnar sig åt pinnjakt. Det är en del av den kritik som polisforskaren Stefan Holgersson för fram i en ny rapport om trafiksäkerhetsarbetet.

Istället för att rikta sitt fokus på de tider och platser då rattfylleriolyckorna sker, går mycket av arbetet ut på att exempelvis göra ett visst antal utandningsprover (alkoholtest) varje månad. Målen ska vara lätta att mäta – nyttan tycks komma i andra hand.

Vi på SVT Pejl har i samarbete med Rapport och Veckans brott tittat närmare på de siffror som Stefan Holgersson har tagit fram. Materialet är omfattande. En av de mest slående delarna är skillnaden mellan vilken tid på dygnet polisen genomför sina utandningsprover och när alkoholrelaterade trafikolyckor faktiskt äger rum.

För att illustrera skillnaden valde vi att göra ett enkelt linjediagram. Den ena linjen fick representera olyckorna – den andra alkoholtesterna. Statistiken över  alkoholtesterna innehåller länsuppgifter för 2012, så man kan titta på varje län separat i diagrammet. Statistiken för trafikolyckorna är däremot på riksnivå och för åren 2012-2012. Man ska alltså vara medveten om att man jämför länssiffror med siffror för hela riket.  Trenden är tydlig: I samtliga fall visar linjen över alkoholtesterna en brant kurva under förmiddagen. Trots att de flesta olyckor sker på kvälls- och nattetid väljer polisen att jaga pinnar på morgonkvisten.

Själva visualiseringen är byggd med Javascript-biblioteket D3. Att göra visualiseringen var enkelt men det tog lite tid att strukturera datat för alkoholtesterna som innehöll omkring två och en halv miljon rader. Varje rad innehöll ett klockslag för när alkotest gjordes och vi valde att räkna ihop antalet tester per timme och det är det som visas i diagrammet. Samma uträkning gjordes för trafikolyckorna, där var dock materialet betydligt mindre med drygt 2000  rader.

Karta över trafikolyckor
Utöver diagrammet valde vi även att göra en mer allmän kartapplikation som visar alla trafikolyckor under 2012. En idé som dök upp tidigt var att låta besökarna filtrera olyckorna på egen hand. Detta visade sig vara en utmaning. Kartan innehåller 2 640 punkter som kan kombineras på hundratals olika sätt (t.ex. alla dödsolyckor som skedde i mörker med tunn is på vägen och dimma).

Att visa alla punkter i ett sjok skulle alltså inte duga. Vi behövde kunna manipulera punkterna efter de uppgifter som fanns om varje enskild olycka. För att kunna göra detta skapade vi själva kartan med Mapbox och la sedan på punkterna som ett externt lager ovanpå den. Punkterna renderas då som cirklar i bildformatet SVG. Problemet med det tillvägagångssättet är att det kräver mycket processorkraft att visa så många punkter i ett SVG-lager. Det visade sig med all önskvärd tydlighet när vi var redo att testa kartan på andra plattformar som läsplattor och mobiltelefoner. Flera mobiltelefoner och läsplattor hängde sig helt enkelt.

Vi har tidigare använt oss av en spännande teknik som bland annat Mapbox använder sig av.  Den kallas UTF Grid och går att läsa mer om här. Fördelen med den tekniken är att punkterna finns med i bilderna som utgör kartan. Det krävs alltså inget externt lager som kräver extra processorkraft. Nackdelen är att man förlorar en del av den flexibilitet som externa lager medför.

För att göra en lång historia kort så bestämde vi oss i slutändan för en tredje teknik som CartoDB erbjuder. CartoDB erbjuder en rad kartografiska tjänster, bland annat att leverera geografiska lager i form av statiska bilder som kan anropas med databasspråket SQL. Det var precis vad vi behövde för vår kartapplikation. Vi fick den flexibilitet som ett SVG-lager erbjuder, utan att behöva dras med segheten som ett sådant lager skulle innebära med tusentals punkter.

Varje gång besökaren filtrerar om kartan skickas alltså en begäran till CartoDB:s servrar som kan se ut ungefär så här:

SELECT * FROM table WHERE (svarhetsgrad=’Dödsolycka’) AND (vaderlek=’Snöfall’ OR vaderlek=’Tunn is’)…

Detta betyder helt enkelt: Ge mig alla rader från datatabellen vars värde i kolumnen ”svarhetsgrad” är ”Dödsolycka” och vars värde i kolumnen ”vaderlek” är ”Snöfall” eller ”Tunn is”. CartoDB tar emot frågan och returnerar resultatet som sedan visas på kartan.

Det är svårt att visa ett stort antal punkter på kartor. Vi löste det så här, har du några exempel på andra lösningar?

/Robin Linderborg

Tågolyckorna – så gjorde vi

23 PDF-filer, fem nyhetsinslag om 23 tågurspårningar – hur presenterar man det så att tittarna får en helhetsbild och kan utforska varje urspårning i detalj?

Resultatet blev en kartapplikation. Så här gick vi till väga.

Grunden för kartan fanns i 23 st PDF-filer som reportrarna Oskar Jönsson och Kjell Lundström samlat ihop. I PDF-filerna fanns beskrivningar av urspårningarna – och också bilder på hur det såg ut när olyckorna skett. Vi bestämde oss för att hitta ett sätt att presentera text och bilder på webben för att ge våra tittare mer information om varje händelse. Vi ville också lägga till de nyhetsinslag som vi gjort om de enskilda urspårningarna.

Den största delen av jobbet med att skapa kartan över tågolyckorna bestod av att strukturera alla uppgifter. Efter att olycksrapporterna – 23 PDF-filer – hade gjorts om till en 400 rader lång JSON-fil var det hyfsat enkelt att presentera informationen på webben. JSON är ett av de mest populära dataformaten på webben i dag.

Varje rapport anger datum för olyckan, på vilken järnvägssträcka den inträffade, skadeläget, vittnesskildringar med mycket mer. Tyvärr saknas koordinater helt och hållet. Istället använder sig Trafikverket av ett kilometermått för att specificera platser i det svenska järnvägsnätet, exempelvis ”km 64+850 på sträckan Strömtorp-Bofors, bandel 393”.

För att visa sträckorna på en interaktiv karta använde jag mig av två shapefiler från Lantmäteriet – en med järnvägsdata och en med ortsdata. Med hjälp av det geografiska verktyget Quantum GIS (QGIS) kunde jag så identifiera vilka sträckor olyckorna hade inträffat på. Genom att markera de två orter som banan löper mellan (Strömtorp och Bofors i exemplet ovan) var det enkelt att se vilken bandel det rörde sig om. Jag projicerade om shapefilerna till det koordinatsystem som används i webbkartor och exporterade sedan koordinaterna till en textfil. Jag fick skriva en liten Javascript-funktion för att kasta om longitud och latitud (QGIS föredrar en ordning, webbkartan en annan), men i övrigt var det en smärtfri process.

Shapefilen med järnvägsdatan var dock inte tillräckligt detaljerad för att täcka de mindre, enkelspåriga, sträckorna. För två av olyckorna fick jag därför manuellt rita ut det som saknades med hjälp av Open Street Map-data.

Nästa steg var att försöka luska ut var på sträckan olyckan hade skett. I vissa fall var det enkelt – i någon rapport fanns det till och med ett gatunamn att utgå ifrån. I andra fall var det svårare att vara så precis. Punkterna på kartan ska därför ses som uppskattningar snarare än exakta koordinater, vilket vi påpekar under visualiseringen.

Med all geografisk data på plats var det bara att börja designa visualiseringen. Själva kartan är skriven med Javascript-biblioteket Mapbox.js som i sin tur bygger på Leaflet.js, ett kartografiskt Javascript-bibliotek som bygger på öppen källkod. Som lite kuriosa kan nämnas att skaparen av Leaflet.js, Vladimir Agafonkin, tidigare i månaden rekryterades till just Mapbox.

Ett intressant framtida projekt hade varit att skapa ett Javascript-bibliotek som kan hantera Trafikverkets kilometermått. Eller finns det kanske redan smidigare metoder? Vad tror du? Lämna gärna en kommentar nedan!

Robin Linderborg

Till kartapplikationen.

SVT granskar järnvägen – här hittar du alla artiklar och inslag.

Avhopp från lärarutbildningen – så gjorde vi

Hösten 2012 var andra året då den nya lärarutbildningen startade. Första året var avhoppen stora – hela 17 procent första terminen, visade en undersökning som Lärarnas tidning gjorde 2012. Men det var också ett kaotiskt år för lärarutbildningen, då lärosätena var tvungna att på nytt ansöka om att få anordna lärarutbildningar, och många fick avslag i första vändan för att sent få ett klartecken. Det fanns också ansökningar till utbildningar utan examensrätt. Att en ny utbildning kan behöva lite tid för att sätta sig är inte heller konstigt.

Därför var vi – i första hand jag, Lotta Holmström, som är datajournalist på SVT Pejl och Ulrika Zaccheus som är skolreporter på SVT Nyheter – nyfikna på om lärarutbildningarna nu fått bukt med avhoppen, särskilt med bakgrund av att en av ambitionerna med omgörningen var att just minska andelen avhopp, som hösten 2010 låg på 12,5 procent, alltså en bit över snittet på 10 procent för yrkesinriktade högskoleprogram.

Med Lärarnas tidnings gamla undersökning med siffror från ht2010 och ht2011 som grund bestämde vi oss för att ställa liknande frågor för att kunna jämföra statistiken över tid.
Våra frågeställningar om totalsiffrorna var:

1) Hur många antogs och registrerades till lärarutbildningarna vid ert lärosäte ht2012? Frågan gäller samtliga inriktningar, inklusive förskollärarutbildning.
2) Hur många av dessa fortsatte inte sina studier vt2013?
- Studenter som uteblivit från studierna vt2013 utan att anmäla avhopp räknas i vår undersökning som avhoppade studenter.
- Om någon valt att byta inriktning men fortfarande studerar på ett lärarprogram räknar vi inte det som ett avhopp.
- Studieuppehåll räknas in som avhopp, oavsett orsaken. Vi kommer att redovisa att så är fallet.

Men vi ville också gå steget längre. En central fråga, särskilt med tanke på debatten kring de låga antagningspoängen på en del lärarutbildningar, var: Vilka väljer att hoppa av?

Därför valde vi att också begära ut uppgifter på individnivå om samtliga avhoppare. Att framställa det som just en begäran var viktigt. Universitet och högskolor är myndigheter och uppgifter om studenter i till exempel LADOK, det system som används för att dokumentera de studerandes närvaro och resultat inom högre utbildning, är allmänna handlingar som myndigheten är skyldig att tillhandahålla skyndsamt.

För att underlätta både för lärosätena och för vår egen databehandling gjorde vi en mall i excel för de uppgifter vi ville ha in. Själva begäran formulerades så här:

3) Vi önskar ytterligare uppgift på individnivå om de avhoppade studenterna, se bifogat Excel-ark:
- Födelseår
- Kön
- Inriktningsval
- Urvalsgrupp vid antagning (gymnasiebetyg, högskoleprov eller alternativt urval)
- Poäng vid antagning ht2012 (enligt urvalsgrupp)

Utöver detta bad vi om kontaktuppgifter till personer som skulle kunna kommentera statistiken.

Något som stod klart väldigt tidigt var att universitet och högskolor är ovana att hantera den här typen av begäran. I några fall handlade det om att de hade dålig koll på sina skyldigheter som myndigheter. I många fall att de inte levde upp till kravet på skyndsamhet.
Efter många påminnelser, en del diskussioner och tips på vägen fick vi i alla fall till slut in uppgifterna från samtliga 24 tillfrågade lärosäten.

Sedan började arbetet med att behandla, strukturera och analysera datan. För det första var vi intresserade av att titta på fördelningen på de olika inriktningsvalen. De var inte enhetligt döpta, så jag fick skapa en ny kolumn i mitt kalkylark för att dela in studenterna i de som studerade till Grundlärare F-3, Grundlärare 4-6, Grundlärare fritidshem, Ämneslärare 7-9, Ämneslärare Gy och så vidare.
Ej heller kön eller födelseår hade angivits på ett konsekvent sätt.

När jag hade tvättat datan enligt ovan började det roliga arbetet – att titta på resultatet. Och att dra en viktiga lärdom: vi hade inte begärt in uppgifter om könsfördelning, åldersfördelning och inriktningsval för samtliga registrerade studenter på lärarprogrammen, bara för avhopparna. Det gör att när vi ska jämföra avhopparna med totalen tvingas vi använda uppgifter om samtliga antagna studenter, hämtade från Universitets- och högskolerådet, UHR, istället för samtliga registrerade.
Det kan alltså finnas ett bortfall mellan antagning och registrering som skulle kunna påverka gruppernas sammansättning. Därför redovisar vi inga exakta siffror för den uppdelningen, utan bara de fynd som är så signifikanta att ett eventuellt bortfall inte skulle påverka slutsatsen:

  • Att Ämneslärare 7-9 är den inriktning där störst andel hoppar av.
  • Att yngre lärarstudenter hoppar av i något högre grad än äldre.
  • Att män hoppar av i något högre grad än kvinnor.

Totalt började 8 245 studenter på någon av lärarutbildningarna höstterminen 2012. 1283 av dem valde att hoppa av sin utbildning under den första terminen. De utgör 15,6 procent av de som började.

Jag begärde ut fördelningen vad gäller högskoleprovspoäng bland samtliga antagna lärarstudenter som kom in i den kvotgruppen från UHR. Sedan delade jag upp avhopparna på samma sätt, och jämförde de båda graferna. Grafen från UHR var jämnare, då det handlar om betydligt fler individer, men det var tydligt att det handlade om en motsvarande fördelning.

Vi gjorde samma sak med betygsfördelningen. Även där följde kurvorna i princip varandra, med en liten tyngdpunkt åt de lägre betygen. En koll visade också att betygssnittet för avhopparna låg 0,5 under snittet för samtliga antagna.

I verktyget Tableau gjorde jag en interaktiv graf som visar utvecklingen på varje lärosäte, med andelen avhoppare ht2010, ht2011 och ht2012.

Ulrika Zaccheus gjorde jobbet för tv, och pratade med ett otal personer på olika lärosäten, forskare, studerande med flera. Själva inslagen spelades in i Uppsala.

Sammanlagt tog det två månader från första begäran till publicering av nyheten, som fick ett fint genomslag. Vi hade också en debatt i Aktuellt mellan utbildningsminister Jan Björklund och socialdemokraternas skolpolitiske talesperson Ibrahim Baylan.

Här är de färdiga artiklarna och inslagen:

Miljöpejl – så här gjorde vi

I januari 2013 lanserade vi tjänsten Miljöpejl.  Här berättar jag lite om våra erfarenheter och hur vi arbetade med projektet som fortsatt under större delen av året.

Vi kände sedan tidigare till att det fanns en databas som kallades EBH-stödet, efterbehandling av förorenade områden, så när vi bestämde oss för att titta på miljöområdet var EBH ett naturligt val. Eftersom varje länsstyrelse har en egen databas över sina potentiellt förorenade platser så gjorde vi 21 separata begäranden om allmän handling- vi ville ha ett fullständigt utdrag av databasen. Vi började med Västra Götaland och först när deras jurister godkänt vår begäran och vi fått deras utdrag gick vi vidare till de andra. Från Västra Götalands länsstyrelse fick vi också en bilaga där deras jurister förklarade hur de hade bedömt fallet och varför de ansåg att de inte kunde neka vår begäran. Den kunde vi med fördel skicka med till de andra och det skyndade antagligen på utlämnandet.

Efter att ha fått alla 21 utdrag satte vi ihop allt till en stor databas, sammanlagt blev det ungefär 80 000 objekt eller platser med 24 variabler var. Det blev grunden till webbtjänsten Miljöpejl.  Vi började med att skapa en databas i Access där vi gjorde de första analyserna av materialet. Som alltid använder vi också Excel för analyser av olika slag. Efter det läste vi in all data i en produktionsdatas i PostgreSQL. Det är den databasen som Miljöpejl hämtar sina data från.

Materialet är stort och arbetet på länsstyrelserna allt annat än okomplicerat. Därför har vi haft otaliga möten och samtal med såväl Naturvårdsverket som länsstyrelser och kommuner- allt för att kunna bygga en så rättvisande och förståelig tjänst som möjligt. Som vanligt har mycket energi även lagts på att göra omsidor till tjänsten, där de flesta frågor man kan ha om materialet förhoppningsvis besvaras.

Miljöpejl har legat till grund för en mängd inslag, artiklar och kartor vi gjort under året, men det har också krävts en hel del mer traditionell journalistik för att koka ner materialet. Genom att göra olika körningar i databasen, kors och tvärs och dessutom samkörningar med andra data, har vi hittat områden, variabler eller samband som varit värda att titta närmare på. Sedan har ett mer klassiskt researcharbete gjorts, där vi begärt ut rapporter, blanketter och miljötekniska undersökningar för alla de objekt vi velat titta närmare på. Sammanlagt har vi plöjt igenom flera tusen dokument och ett hundratal sidor med tabeller som redovisar provtagningsresultat. Genom att lusläsa dem har vi sedan kunnat göra ett par djupgående granskningar.

Som exempel kan man ta den första körningen vi gjorde, där vi samkörde Miljöpejl med en databas över Sveriges vattenskyddsområden. Vi använde PostgreSQL-tillägget PostGIS och Quantum GIS för att göra de geografiska körningarna. Där hittade vi 86 objekt i den högsta riskklassen som låg inom vattenskyddsområden. Vi begärde då ut dokument och ytterligare information om de platserna, gick igenom allt manuellt och kunde på så sätt konstatera att man hittat gifter i grundvattnet på de platserna i minst 51 fall. Av det gjorde vi inslag i Rapport och Aktuellt där vi la fokus på några av de platserna, och gjorde en enkel Google-karta över dem. Det är ett bra exempel på hur datajournalistik kan fungera.

Ett annat exempel är den senaste granskningen vi gjorde, om de stora föroreningarna kring glasbruken i Småland. Det finns en variabel i EBH-stödet som heter Akut objekt, men vid första anblicken verkade den inte tillföra någonting. Vi fick som sagt in varje läns data separat och efter att ha gått igenom ungefär hälften av filerna verkade det som att man inte använde den variabeln, där var aldrig något ifyllt. Efter lanseringen av Miljöpejl och de inslag vi gjorde då, lät vi Miljöpejl vila lite.

Senare under våren gick vi tillbaka för att se vad mer vi kunde hitta. Det var vid en enkel sortering i databasen på de olika variablerna, som det plötsligt dök upp fyra objekt som hade JA ifyllt under variabeln Akuta objekt. Fyra objekt av 80 000, lätta att missa men också lätta att hitta genom en enkel sökning i databasen. Vi blev nyfikna på vad det var och ringde till Naturvårdsverket och begärde ut alla Akuta objekt. Det visade sig vara 22 stycken sammanlagt- de 22 platser i Sverige som anses ha det absolut mest akuta behovet av sanering. Eftersom nästan hälften av dem var glasbruk i Småland bestämde vi oss för att göra en glasbruksresa med fokus på all arsenik man dumpat kring bruken. Datajournalistik är med andra ord ett utmärkt sätt att hitta en nål i en höstack, eller 22 akuta objekt bland 80 000.

Man stöter på mer eller mindre problem i nästan alla projekt, och Miljöpejl var inget undantag. En mindre svårighet vi hade var när en av länsstyrelserna inte ville lämna ut data i form av en excelfil, som vi kunde börja arbeta med direkt, utan envisades med att lämna ut det på PDF. En annan länsstyrelse plockade bort variabler vid utlämnandet- utan att meddela oss. Men eftersom vi jämförde alla filer med varandra upptäcktes detta snabbt och vi gjorde en ny begäran med besvärshänvisning- varpå vi fick ut hela materialet.

Sammantaget håller informationen i Miljöpejl hög kvalité, men de olika länsstyrelserna arbetar lite olika med sina databaser vilket också resulterar i att det man kan se i tjänsten varierar beroende på vilket län man tittar på. Där man i många fall hittar det mest intressanta att läsa, i motiveringen till objektets riskklass (där det tex kan stå något om vilka gifter som finns och vilka grupper som exponeras), kan man för många objekt bara hitta en hänvisning till en rapport. Det skapade en viss frustration hos oss, vi kan inte begära ut och publicera 80 000 rapporter utan att läsa igenom alla och det är helt enkelt inte rimligt tidsmässigt. Istället uppmuntrade vi allmänheten att själva begära ut dokument genom att skriva en liten guide med hur man går tillväga och vem man ska kontakta.

Det bästa med Miljöpejl är att det är, och länge till kommer vara en källa till nya granskningar. Materialet är så otroligt stort och än gömmer sig många nyheter och avslöjanden bland all data.

 

Om myndigheter som vill öppna upp för fri data – och om de som bara ser problem

I går morse var jag och SVT Pejls databasredaktör Helena Bengtsson på ett seminarium om i Visby under Almedalsveckan som handlade om hur myndigheterna i Sverige jobbar med öppna data. Det var Lantmäteriet  som vara arrangör och den lovande rubriken på arrangemanget var: Öppna data skapar nytta för individ och samhälle – hur ska det offentliga möta digitaliseringen?

När vi gick dit spekulerade faktiskt vi i att Lantmäteriet nu skulle komma med beskedet om att de skulle göra som sina kollegor i Danmark, Norge och Finland och USA: att de beslutat sig för att göra sin data tillgänglig som öppen och gratis för alla. Men det visade sig inte vara fallet.

Lantmäteriet, Sjöfartsverket, PTS (Post och telestyrelsen) och den kommersiellt ledande geodata-aktören ESRI gjorde istället sitt bästa för att lyfta alla de problem som de såg i att släppa datan fri. Trots att de faktiskt är skyldiga att göra det i enlighet med EU:s PSI-direktiv som syftar till göra myndigheters data fria att använda för att öka tillväxt och transparens i samhället.

Argument emot öppen data
De hade i huvudsak tre argumenten för att inte göra sin data fritt tillgänglig. Det första var att de var rädda att datakvalitén skulle bli sämre om man inte fick ta betalt längre. Det andra var den ökade kostnaden för drift och underhåll av API:er och teknisk infrastruktur för att göra det möjligt för externa aktörer att bygga tjänster och applikationer direkt mot deras datalager. Och det tredje var inkomstbortfallet från den – för vissa myndigheter – mycket viktiga försäljningen av datan.

Det första argumentet tror jag i bästa fall är klart överdrivet och i sämsta fall helt fel. Erfarenheten jag har är att det bli bättre kvalité på datan ju fler som använder den och eftersom öppen och fri data med all sannolikhet får fler användare så borde detta snarare göra datakvalitén bättre eftersom det är fler som kan upptäcka eventuella fel och därmed få dem åtgärdade.

Vad det gäller priset för att upprätthålla och underhålla API:er som fler skall använda så är det givetvis så att kostnaden för detta ökar. Men man slipper samtidigt kostnaden för att administrera och bygga system för betalningen av sin data som man varit tvungen att göra tidigare, något som definitivt inte är gratis och som inte tillför någon samhällsnytta alls för medborgaren.

För oss som jobbar med datajournalistik är det dessutom relativt sällan som det är tekniska API:et hos en myndighet som är det mest intressanta, utan istället tillgången till nedladdningsbara dataset i rådata-format. Och i Lantmäteriverkets fall skulle en bra och väldokumenterad nedladdningstjänst räcka väldigt långt och kosta väldigt lite att utveckla och underhålla. Och jag tror detta även gäller för de flesta andra som är intresserade av Lantmäteriverkets data. Datan förändrats inte så snabbt vilket gör att det sällan är nödvändigt att ha dagligt uppdaterad data. Att från början tänka storskaligt med att bygga tekniska API:er är en fälla som många myndigheter faller i. Det bästa är att börja med det som är enklast och sedan utveckla tillgången på datan efter behov hos användarna.

Lantmäteriet och Sjöfartsverket hade dock ett väldigt centralt argument emot som jag kan förstå: eftersom en väldigt stor del av deras inkomster idag – till skillnad från många andra myndigheter – kommer ifrån försäljning av data till olika kommersiella och andra offentliga aktörer så bör regering och riksdag kompensera dem för detta bortfall. Annars kommer det att bli svårt att genomföra öppen data utan att de behöver dra ner på sin nuvarande verksamhet. Enligt Lantmäteriet själva så har kompensation av statliga medel använts till detta i jämförbara länder där motsvarande geo-data släppts fri. Och eftersom det i stor utsträckning är andra offentliga myndigheter (exempelvis kommuner) som betalar för datan idag så borde det finnas pengar att  spara som skulle kunna omfördelas.

SMHI, SKL och SCB öppnar upp
Men det fanns också flera exempel under seminariet där myndigheter som valt en annan väg fick presentera hur de jobbar med öppen data. Sedan tidigare är Riksdagen, Naturvårdsverket och SIDA bra exempel på myndigheter som har anammat fri och öppen data. SCB hade representanter på mötet som berättade att de har en ny API-tjänst som beta-testas nu. Även SKL (Sveriges kommuner och landsting) och deras tjänst Kolada har släppt ett beta-API som lovar gått inför framtiden. Dessa bägge organisationer har i och för sig ett uttalat uppdrag att sprida statistik och information – något som inte Lantmäteriet och Sjöfartsverket har på samma sätt – vilket gör att tröskeln är betydligt lägre för dem att släppa sin data fri.

Det senaste och tydligaste exemplet på att det börjar röra på sig även bland myndigheter med kommersiellt och samhällsnyttig data är SMHI. De har som ambition att göra all data som tagits fram med skattepengar fritt tillgänglig fr o m 1 januari 2014. De kommer dock fortfarande kunna ta ut en avgift för arbetet med att bearbeta materialet för leverans, men själva datan kommer de alltså inte att ta betalt för. SMHI har länge haft ett hårt tryck på sig från allmänhet och näringsliv att släppa sin data fri på samma sätt som sina norska kollegor på Meteorologisk institut efter det att de byggde upp succén Yr.no  i samarbete med norska public service bolaget NRK. YR.no har miljontals svenska webbläsare som använder deras tjänster varje vecka mycket tack vare att de var tidiga med att släppa sin data fri och därmed etablera sig som den ledande väderdataleverantören i Norden, något som naturligtvis SMHI vill ändra på.

Argument för öppen data
Det tydligaste och bästa argumentet för att alla offentligt finansierade myndigheter borde släppa sin data fri är självklart att varje investerad skattekrona i data bör ge största möjliga samhällsnytta. Och det gör den när så många som möjligt får tillgång till datan. När det dessutom finns ett EU-direktiv som Sverige är skyldiga att följa är det konstigt att så många myndigheter fortfarande inte kommit längre.

Ur ett journalistiskt perspektiv är det viktigaste att offentlig data görs tillgänglig på ett enkelt och bra sätt så att vi kan granska myndigheters och makthavares agerande. Transparens och insyn i den offentliga datan är nödvändig för att vi som journalister skall kunna göra vårt jobb. Det är hög tid att offentlighetsprincipen även börjar tillämpas på myndigheternas databaser.

Ett annat viktigt argument vad det gäller kartdata är att om inte Lantmäteriet öppnar upp sig nu väldigt snart så finns det en uppenbar risk att allt fler – även myndigheter och stora företag – går över till gratisalternativ som Open Street Map och liknade initiativ. Utvecklingen av Open Street Map som en öppen och fri kartlösning går mycket snabbt och det är inget som tyder på att denna utveckling avtar. I så fall kommer det inom en snar framtid – såvida inte Lantmäteriet släpper sin data fri – kanske inte längre finnas så många aktörer som är  beredda att betala för deras data, när det finns likvärdiga alternativ för en majoritet av användningsområden fritt tillgängliga. Och då är frågan hur länge skattebetalarna är villiga att fortsätta betala så mycket i anslag för  en myndighet som inte  längre känns så relevant.

Diskussionen om hur svenska myndigheter jobbar med öppen data lär i vilket fall som helst fortsätta. Förhoppningsvis även utanför seminarierummen i Almedalen och på bloggar för datajournalister.

Uppdatering 20130812: Länk till videoinspelningen som Lantmäterieverket gjorde från seminariet på Almedalen (tyvärr är ljudet väldigt dåligt).

Är en årsinkomst på 325 437 kr mycket hög? Om våndan av att sätta namn på intervaller

I söndags släppte vi på SVT Pejl vår nya visualisering som vi kallar Pejl på partierna. Där kan man se hur sympatierna för de olika partierna förändrats mellan 2006 och 2013. Visualiseringen baseras på SCB:s stora opinionsundersökning som görs varje år i maj och november.

Både Rapport och Aktuellt gjorde inslag kring hur stödet för Moderaterna bland höginkomstagarna i Sverige har minskat och Agenda hade en diskussion mellan Carin Jämtin(S) och Kent Persson(M) kring utvecklingen hos flera väljargrupper i visualiseringen.

Reaktionerna har överlag varit positiva med ett undantag. Till vår förvåning reagerade folk mest negativt på vår indelning av inkomsttagare. Så här i efterhand var det kanske inte så konstigt eftersom det finns en begreppsförvirring kring vad som är lön och vad som är inkomst. Om man dessutom lägger till det faktum att SCB i sina inkomstintervall redovisar hela Sveriges väljarkår (dvs alla vuxna över 18 år) där det ingår en mycket stor andel personer som faktiskt inte jobbar alls, och därmed inte får någon vanlig månadslön, så blev många förvånade när de såg vilka nivåer det blev. Gränsen för Mycket hög inkomst blev 325 437 kr per år. Detta innebär en månadsinkomst på 27.120 kr, som inte alls är en mycket hög inkomst enligt de flesta av oss som jobbar.

Bilden av vad vi ser som höginkomsttagare stämmer helt enkelt inte överens med verkligheten om man kollar på hela väljarkåren. I denna ingår också till exempel pensionärer, studenter och arbetslösa, en hel massa människor med pension, mycket låga eller inga inkomster. Därför blir nivåerna mycket lägre än vad folk i allmänhet förväntar sig.

Kollar man på hela väljarkåren ser 2011 års inkomstnivåer indelade i 20%-intervall enligt SCB ut som följer:

0-20% (1 – 116 820 kronor)
21-40% (116 821 – 185 920 kronor)
41-60% (185 921 – 248 266 kronor)
61-80% (248 267 – 325 436 kronor)
81-100% (325 437 kronor eller mer)

Vi översatte dessa för att göra dem mer begripliga i applikationen med de vanligt förekommande begreppen:

Mycket låg inkomst (0-20%)
Låg inkomst (21-40%)
Medel inkomst (41-60%)
Hög inkomst (61-80%)
Mycket hög inkomst. (81-100%)

Framförallt var det benämningen Mycket hög inkomst för de 20 procent av väljarkåren som har högst inkomst som upprörde flera personer på Twitter, som anade en värdering i denna formulering. ”Styvt 27 papp i månaden. Både sjuksköterskor och lärare har i så fall mkt hög inkomst”, skrev en twittrare. ”Alltså är elektriker/snickare att betrakta som höginkomsttagare. Intressant”, kommenterade en annan.

I ärlighetens namn skall erkännas att vi inte var helt nöjda med indelningen eftersom vi på Pejl brukar spara epiteten Mycket högt och Mycket lågt endast till de 5 högsta respektive lägsta procenten i ett material. På exempelvis Skolpejl där vi själva kunnat välja procentintervall har vi valt följande indelning till vår rankning:

Mycket lågt (0-5%)
Lågt (6-25%)
Medel (26-75%)
Högt (76-95%)
Mycket högt (96-100%)

Det känns naturligare att det är  stor andel som betecknas Medel och en mindre andel som får epitetet Mycket framför sig.

Vår uppgift är att förtydliga och göra det lättare att förstå statistik och siffror men det är en rad vägval som man måste göra för att hamna rätt. Så efter reaktionerna och eftersom vi själva inte var helt nöjda med indelningen så tog vi en funderare om det skulle kunna finnas något som gjorde det hela tydligare för besökarna. Själva procentindelningen kan vi tyvärr inte göra så mycket åt eftersom vi måste använda den som SCB ger oss. Därför fastnade vi för följande korrigerade indelning:

Låg inkomst (0-20%)
Under medel i inkomst (21-40%)
Medel i inkomst (41-60%)
Över medel i inkomst (61-80%)
Hög inkomst  (81-100%)

Bättre eller sämre? Skulle vi kunna ha kallat det något helt annat och ändå gjort det begripligt?

I vilket fall som helst så är det inte helt enkelt att välja rätt beteckningar på intervaller när man jobbar med datajournalistik och grafik.

Pejl på NICAR: Tableau Public

Pejlredaktionen är på plats i Louisville, Kentucky, för den årliga NICAR-konferensen. Det är en internationell konferens om datajournalistik som i år har fler deltagare än någonsin. Konferensen kombinerar paneldebatter och mer orienterande föreläsningar med hands on-workshops och fördjupningar. Det är en samlingspunkt för några av de bästa inom datajournalistiken, och det sker mycket utbyten även mellan sessionerna.

Jag ägnade hela första dagen åt Tableau Public, ett kraftfullt analys- och visualiseringsverktyg som utgår från till exempel Excelfiler eller Accessdatabaser och låter dig bygga interaktiva visualiseringar där användarna kan styra urvalet i kartor och grafer.

Mike Klaczynski från Tableau höll i förmiddagspasset.

Tableau hade sex personer på plats och var uppenbarligen måna om att få nya användare. Så fort vi fastnade, vilket hände då och då eftersom det är ett rätt komplext program, var någon av dem framme och hjälpte till. Jag och Linnea lyckades identifiera två buggar också, som de i och för sig var medvetna om. ”Ge oss några veckor…”
Några veckor är alltså hur långt det är kvar tills den nya versionen, Tableau 8, ska släppas. Någon gång i mars, fick vi veta. När macversionen kommer var däremot mindre klart, men de trodde den skulle bli klar under året.
Vi fick en genomgång av en del nya features, och bland de mer vana användarna gick det ett litet sus när de visade att man framöver kommer kunna lägga olika element på varandra, istället för att snickra ihop dem i ett horisontellt/vertikalt system för layouten.

Under förmiddagen jobbade vi med data kring USA:s bistånd, på eftermiddagen med arbetslöshetsstatistik.
Jag gillar att det går att styra flera delar av visualiseringen med samma reglage, till exempel att när användaren väljer att data för ett visst år ska visas så slår det igenom både på kartan och i grafen.
Tyvärr finns det inte stöd för att koppla Tableau till en livedatabas. Det hade kunnat bli verkligt kraftfullt. På så sätt är det inte riktigt ett alternativ till Google Fusion Tables, förutom för statiska kartvisualiseringar. Det beror förstås på vad man har för data och vad man vill göra med den. Vi kommer säkerligen ha nytta av Tableau på Pejl framöver.

Mer om Tableau-workshoppen på datajournalistik-projektbloggen på Södertörns högskola  med konkret exempel här, samt på CAR-bloggen, där jag och Linnea dessutom fastnade på bild.