Att kvantifiera kvalitet på forskning – går det?

2015-06-22 / Svensk Kirurgi / Volym 73 / Nr 3 / 2015

Trycket på att kunna mäta vetenskaplig produktion och kvalitet ökar ständigt. Det finns en allmän önskan att enkelt kunna bedöma den vetenskapliga kvaliteten på akademiska institutioner, forskningsprogram och i samband med tjänstetillsättning och andra vetenskapliga utmärkelser. Problemet är att detta är mycket svårare än man först kan tro och för att göra adekvata och rättvisande bedömningar av vetenskaplig kvalitet bör man vara väl förtrogen med de olika bibliometriska måttstockarna på forskningskvalitet som ofta återkommer vid sådana bedömningar.

HENRIK THORLACIUS
henrik.thorlacius@med.lu.se
Malmö

ULF GUNNARSSON
ulf.gunnarsson@umu.se
Umeå

Som forskare vill man gärna mäta och jämföra sig och som anslagsgivare och sakkunniga måste man bedöma sökandes vetenskapliga produktivitet och kvalitet. Tidigare användes ofta bara antalet publikationer som mått en forskares vetenskapliga förmåga. Det sägs att sökande kunde lägga sina publikationer på en våg och den vars publikationer vägde mest fick tjänsten. Då fanns det färre tidskrifter och massförfattarpek var sällsynta, varför det här sättet att mäta kanske var ett funktionellt sätt att bedöma vetenskaplig produktivitet, på den tiden. Idag finns det så många tidskrifter och många av dem publicerar nästan vad som helst elektroniskt bara man betalar en avgift för publiceringen. Dessutom förekommer numera massförfattarskap med inte sällan mer än 30 (trettio) medförfattare där den enskildes insats på ett sådant arbete blir omöjlig att värdera. Ändå tillmäter en del bedömare fortfarande i dag antalet publikationer stor vikt vid bedömning av en forskares vetenskapliga kvalitet även om det minskar till fördel för olika bibliometriska mått såsom impaktfaktorn (IF), citeringsstatistik och olika sammansatta index som exempel H-index. Syftet med den här artikeln är att beskriva vad de olika bibliometriska termerna står för och vilka fallgropar som de kan utgöra i samband med mätning av forskningskvalitet.

Vad är IF?

IF lanserades 1955 av Eugene Garfield som då arbetade på Institute of Scientific Information och som nu är en del av ett kommersiellt bolag (Thomson Reuters). IF har mätts sedan 1975 och publiceras årligen i Journal Citation Reports. Syftet från början var att utveckla ett mått som hjälpmedel för bibliotekarier vid inköp av vetenskapliga tidskrifter, och inte för att mäta kvaliteten på enskilda forskares publikationer. Ändå har IF fått ett enormt genomslag för synen på forskningskvalitet. Den används fortfarande av forskare, universitet, stiftelser och anslagsmyndigheter i bedömningen av kvaliteten på forskning även om en kritisk debatt har dykt upp med jämna mellanrum. Delvis ligger skulden på oss forskare själva som använder IF för att övertyga kollegor och anslagsgivare om våra egna arbetens förträfflighet eller för att ifrågasätta andras arbeten ”hur kunde den där artikeln hamna i en tidskrift med så hög IF”. För att vara en siffra som är så vanligt använd och ofta missbrukad är det förvånande att så få vet hur IF räknas ut och hur begränsad den faktisk är för att bedöma kvaliteten på forskningsprogram och enskilda forskares vetenskapliga kompetens.

IF reflekterar medelantalet citeringar i relation till antalet citeringsbara publikationer i en tidskrift under de senaste två åren (faktaruta 1). Till exempel om en tidskrift år 2015 har en IF på fem innebär det att alla citeringsbara artiklar har citeras i medeltal fem gånger under perioden 2013–2014. Sammantaget reflekterar IF i bästa fall bara en enskild tidskrifts betydelse.

Felaktig användning av IF?

IF kan möjligen användas för att jämföra betydelsen av olika tidskrifter. Då ska det vara tidskrifter inom samma typ av forskningsområde och inte mellan olika ämnen som till exempel kardiologi och ortopedi. Anledningen till att IF inte kan jämföra tidskrifter inom olika områden är att det finns stora ämnesberoende skillnader. Inom till exempel kardiologi finns många fler forskare och tidskrifter än inom ortopedi, och då blir IF högre hos de högsta kardiologi tidskrifterna (1. J. Am. Coll. Cardiol. IF 15.3, 2. Circulation IF 14.9) jämfört med de högst rankade ortopeditidskrifterna (1. Am. J. Sports Med. IF 4.7, 2. Osteoarthr Cartilage IF 4.7). Den främsta kritiken mot IF är när man använder den för att bedöma en enskild forskares eller enskilda publikationers vetenskapliga värde. IF bygger på antalet citeringar under de två föregående åren men citeringar av artiklar uppstår olika snabbt efter publicering. Till exempel kommer bara en–tre procent av alla citeringar inom matematik inom två år medan siffran är fem–åtta procent inom biologiska vetenskaper. IF bygger på ett aritmetiskt medelantal av citeringar men tittar man på olika tidskrifter är detta inte en alltid korrekt statistisk metod att mäta artiklarnas citeringsfrekvens. Nästan 90 procent av alla Natures citeringar kommer från en fjärdedel av alla publicerade artiklar, det vill säga det är några få artiklar som har citerats extremet många gångar medan de flesta andra har få citeringar. Ett annat exempel på hur missvisande användning av IF är för att bedöma kvaliteten på vetenskapliga artiklar är Acta Crystallographica som år 2008 hade en IF på 2.1 och då publicerade en referens för kristallstrukturbestämning. Den här artikeln citerades 6600 gånger och Acta Crystallographicas IF steg till 50 året efter vilket var högre än både Nature och Science. Noterbart är att den näst mest citerade artikeln i Acta Crystallographica det året var citerad endast 28 gånger. Redaktörer gör allt för att pressa upp sin tidskrifts IF. Ett sätt är att öka andelen översiktsartiklar som citeras mer är originalpublikationer. Översiktsartiklar kan vara viktiga och intressanta men bidrar inte till en tidskrifts vetenskapliga betydelse.

Ett annat sätt är att minska antalet citeringsbara objekt (det vill säga nämnaren i kvoten som bestämmer IF) i tidskriften, som till exempel fallbeskrivningar som kan vara intressanta att läsa men som oftast inte renderar några citeringar. Redaktörer förhandlar också med företaget som tar fram tidskrifternas IF vilket har visat sig kunna variera antalet citeringsbara objekt med 300 procent. En del redaktörer uppmanar också författare att inkludera referenser publicerade i sin egen tidsskrift med syftet att öka IF. Ett bisarrt exempel är tidskriften Folia Phoniatrica et Logopaedica som dubblerade sin IF från 0.7 till 1.4 genom att publicera en ledare som citerade årets alla egna publiceringar. Spelet med IF som tidskrifter är involverade i underminerar delvis förtroendet för IF som bibliometrisk markör. Trots allt detta används fortfarande IF i samband med personalrekrytering och tjänstetillsättningar samt utvärderingar av forskningsprogram. Vi anser att forskare och deras publikationer bör bli bedömda på innehållet i sina artiklar och inte av vilka tidskrifter artiklarna publiceras i. Detta stöds också av European Association of Science Editors som säger att ”IF ska bara användas och då försiktigt för att jämföra betydelsen av tidskrifter och inte för att bedöma enskilda artiklar och definitivt inte forskare eller forskningsprogram”.

Citeringsfrekvens

Eftersom IF inte säger något om en enskild publikation eller forskares vetenskapliga kvalitet kanske citeringsfrekvens kan användas? En artikels citeringsfrekvens är delvis beroende av tid sedan publikation, det vill säga äldre artiklar har större chans att vara citerade än nyare publikationer. Dessutom kan en artikel vara citerad för att den är oklar eller tom felaktig och på så sätt få mycket höga citeringssiffror. Olika forskare tenderar i olika grad att citera sina egna arbeten före andra vilket också gör citeringsfrekvensen missvisande för kvaliteten på en vetenskaplig artikel. Detta gör att citeringsfrekvens är ett mycket trubbigt och osäkert mått på forskningskvalitet men den kan integreras in i mer komplexa index såsom H-index som beskrivs nedan.

H-index

År 2005 lanserade Jorge Hirsch ett index som försöker mäta både produktivitet och citeringsfrekvens av en forskares samlade publikationer och som han kallade H-index. H-index är baserat på en forskares mest citerade arbeten och antalet citeringar de erhållit i andra publikationer (faktaruta 2). Det ska noteras att H-index har samma begränsningar som IF och citeringsfrekvens eftersom citeringsmönster är helt olika inom olika ämnen relaterat till deras storlek (olika antal forskare, tidskrifter och publikationer). H-index är ett bättre mått på en enskild forskares betydelse än IF eftersom det är baserat på forskarens egna data. Det är intressant att notera att Hirsch själv har funnit att H-index har högt prediktivt värde för om en forskare har vunnit tunga vetenskapliga priser såsom Nobelpriset. Man ska dock vara medveten om att precis som för citeringsfrekvens är H-index beroende av en forskares akademiska ålder, det vill säga att H-index ökar med tiden. Översiktsartiklar som citeras ofta ger högt H-index utan att de egentligen avspeglar en forskares vetenskapliga förmåga. Ett annat aktuellt problem är massförfattarskap där en enskild forskare kan vara i mitten på en författarlista med mer än 30 personer. Sådana artiklar kan ofta få många citeringar men återigen är det svårt att värdera den enskilde forskarens insats. Som forskare kan man hitta sitt H-index på Scopus databas. När man jämför H-index är det viktigt att veta att de är uträknade på samma sätt. En del H-index räknas ut med Google Scholar som har kritiserats för att övercitera enskilda författare. En studie har visat att Google Scholar identifierar mer än 50 procent fler citeringar än Web of Knowledge och Scopus gör tillsammans.

Hur mäta rättvist?

Det finns inget lätt svar på den frågan men det är uppenbart att en förändring av dagens ytliga förhållningssätt till forskares kompetens och vetenskapliga produktion är helt nödvändig för att premiera en god utveckling av högkvalitativ forskning. Nyligen lanserade en grupp inflytelserika redaktörer, representanter för forskningsinstitutioner och stora anslagsgivare en kampanj (San Fransisco Declaration on Research Assessment) med syftet att undvika användningen av IF och andra tidskiftberoende bibliometriska mått för att värdera vetenskaplig kvalitet. Huvudbudskapet är att skapa en kultur där livsavgörande beslut baseras på en noggrann och djuplodande bedömning av en sökandes uppnådda vetenskapliga produktion och framtida potential istället för att bara addera osäkra siffror. 