Læsetid: 3 min.

Big data er ikke bedre data

Store datamængder kan virke mere valide og objektive, men både indsamlingen af big data og især analysen af dem er fyldt med usikkerhed og menneskelige valg. Det påpeger lektor Kristin Veel, der forsker i farerne og mulighederne i big data på humaniora
19. september 2016

Hvad er farerne ved big data, og hvordan forholder vi os til dem? Det er det spørgsmål, som lektor Kristin Veel fra Institut for Kunst og Kulturvidenskab og kollegerne Nanna Bonde Thylstrup og Daniela Agostinho har beskæftiget sig med de seneste to år.

Kristin Veel mener, at faren især er, at big data er omgærdet af retorik om, at store datamængder giver mere valide resultater.

»Big data bliver ofte markedsført som sandhed. Men i virkeligheden accepterer man ofte udregninger i big data, som giver endnu flere usikkerheder, end man ville i normale statistiske beregninger, netop fordi datasættene er så store,« siger hun.

Læs også: Forskere vil analysere vores digitale spor

At store datamængder giver forskningen mere vægt og neutralitet er en anden udbredt forestilling, men der er store usikkerheder forbundet med både indsamlingen og analysen af big data.

»Hvad ligger uden for datasamlingen? Hvad er det, vi ikke ved eller er blinde over for? Det kan være køn, race eller andre ting, som er uartikulerede, og som helt sikkert gør sig gældende i sociale big data,« siger Kristin Veel og påpeger, at selv om big data bliver set som mere neutrale netop på grund af datamængden, så er der masser af faldgruber og subjektivitet også i den type forskning.

»Fra første færd træffes menneskelige valg, som gør, at big data ikke er objektive. Hvad er det for spørgsmål, forskerne stiller inden, og hvad beder de algoritmerne om at finde? Hvilke datasæt arbejder de med og under hvilke forudsætninger?« siger Kristin Veel.

Når de store datamængder handler om mennesker, er der også flere etiske aspekter, der skal tages hensyn til i forskningen.

I Big Data-forskergruppen på humaniora har de blandt andet set på dating-sites, hvor der ligger utrolig meget privat data om folk, som kan gøre dem sårbare, hvis de bliver lækket til offentligheden eller myndighederne.

Teknologifrygt

Især blandt humanistiske forskere og dele af samfundsforskningen hersker der også en frygt for big data. Hvad vil den automatiserede dataindsamling gøre ved den traditionelle form for forskning i f.eks. tekstnær læsning af litteratur?

»Det er vigtigt ikke at se big data som en konkurrerende måde at opnå viden på, men som et supplement til de eksisterende metoder. Vi har her muligheden for at få ny indsigt og viden, men selvfølgelig skal det ikke bruges ukritisk, for der er lige så mange fejlkilder indbygget i big data som i alle mulig andre metoder,« siger Kristin Veel.

Over alt i verden indsamles og arkiveres der store datamængder. Udfordringen er, hvad vi gør med de store datamængder – hvordan vi drager mening ud af denne datamængde, påpeger Kristin Veel.

»Det er et stort samfundsspørgsmål, men vi skal også forholde os til big data som et betydningsfuldt fænomen, fordi det kan ændre vores forestilling om forskning og viden, hvis opfattelsen bliver, at data taler for sig selv, er objektive og ikke er genstand for de samme typer usikkerheder som andre typer vidensindsamling,« siger Kristin Veel.

Derfor ser hun det som positivt, at humaniora og samfundsvidenskaberne også tager del i big data-forskningen. Her er tilgangen til objektiv viden nemlig historisk set mere kritisk.

»Det er nyt for humaniora og dele af samfundsvidenskaben at gå til den type af vidensgenerering, som big data kan give, og det giver nye muligheder, men er også en udfordring i forhold til, hvordan de store datamængder kan bruges produktivt sammen med de metoder, vi har udviklet de sidste 150 år,« siger Kristin Veel, der dog også mener, at forskerne skal se big data som et vigtigt redskab, der kan ændre vores syn på os selv og vores viden om verden.

Bliv opdateret med nyt om disse emner på mail

Vores abonnenter kalder os kritisk, seriøs og troværdig.
Få ubegrænset adgang med et digitalt abonnement.
Prøv en måned gratis.

Prøv nu

Er du abonnent? Log ind her

Anbefalinger

  • Kristian Rikard
  • Kurt Nielsen
  • Lise Lotte Rahbek
Kristian Rikard, Kurt Nielsen og Lise Lotte Rahbek anbefalede denne artikel

Kommentarer

Hvis man nu skulle være en drillepind, kunne man pointere at det med store datasæt aldrig rigtigt har været humanioras stærkeste side. Her er man mere vant til at konkludere på alt for få forsøgspersoners alt for subjektive udsagn, i det man kalder så med lidt kreativitet kalder "kvalitativ" analyse.

Ligesom man kan snyde hr. og fru Vildmeddans med tal, kan man også cherrypicke sine data mere eller mindre bevidst, men overskriften er misvisende. Større datasæt giver bedre statistik, og statistik er et glimragende værktøj, når man prøver at konkludere noget. Specielt hvis man ikke har en politisk dagsorden skrevet ind i konklusionen inden man går i gang.

Ib Christensen, Bill Atkins og Lennart Kampmann anbefalede denne kommentar

Nu har jeg faktisk læst både et humanistisk fag (dansk) og et samfundsvidenskabeligt fag (samfundsfag) på universitetet. Og taget et kursus i Humanistisk Matematik, som nogle fremragende og dygtige matematikere på det universitet, jeg gik på, stod for. I både samfundsfagets metode omkring statistik og i kurset Humanistisk Matematik lærte jeg, at man kan snyde med statistik, så vandet driver, og hestene griner, og få løgn, latin og gamle aviser ud af det. Bl.a. kan man indsætte nogle forudsætninger i statistiske kørsler mm. og mv. så man får den statistik, man gerne vil have ud af det. Jeg lærte også, i samfundsfag, at det ikke er nok bare at køre en beskrivende analyse af data, f.eks. beskrive at flere udlændinge end danskere er kriminelle (det viser tallene jo helt klart!); der skal fortolkes, perspektiveres og vurderes bl.a. på, hvorfor somaliere, palæstinensere, afghanere mm. ewr mere kriminelle, og voldelige, måske også end danskerne er. Ifølge Danmarks Statistik. Man kan f.eks. også indsætte den forudsætning (baseret på et spørgeskema fra 1996, hvor man har spurgt cirka 500 mennesker!), at en nedsættelse af skatten med x antal procent vil føre til, at de vil arbejde mere mm. De forudsætninger man opstiller før man laver sin statistiske regnemetode og målemetode mm. påvirker, eller kan påvirke resultatet i den retning, man gerne vil have det.

Endelig som vi har set i serien Yes, Minister, betyder spørgsmålets udformning alt. Spørger man folk om de er imod at unge mennesker hænger ud på gadehjørnerne, og at man derfor skal sørge for mere politi, eller at alle kommer i arbejde, eller om der skal investeres i mere militær mm. er folk mere tilbøjelige til at sige 'ja' til det sidste spørgsmål om militæret end, hvis man spørger dem om de mener militæret er dårligt for nationen som helhed mm.

Jeg lærte også, at kvalitative interviews er en ganske god måde man kan bruge (og skal bruge) til at uddybe den information og de data, man har fået, når man har lavet statistik. Og at det kan give en dybere baggrundsforståelse for, hvorfor så mange tyrkere, tamiler, pakistanere mm. er udenfor arbejdsmarkedet i stedet for bare beskrivende, deskriptivt, at sige og skrive, at 4100 ud 10.000 personer der har været på kontanthjælp i mere end 10 år er udlændinge, dvs. ikke-etniske danskere.
Der er ikke noget, der hedder kvalitativ analyse, der er noget, der hedder kvalitative interviews, og selv her skal talen iscenesættes, diskuteres ud fra diskurser, teorier om kommunikation mm. - vurderes, perspektiveres og fortolkes ift. den teori, man har valgt at bruge.

Og så har vi altså ikke forsøgspersoner på humaniora; vi har forsøgspersoner i nogle psykologiske eksperimenter. På psykologi. Som enten ligger på Humaniora eller på Samfundsvidenskab, alt afhængig af, hvilket universitet, man lige går på.

Større datasæt giver måske nok bedre statistik, altså kan sige noget om, hvor mange personer, der køber økologi, eller hvor mange personer, der køber en bestemt type opvaskemaskine, eller bil. Men de kan ikke sige noget om, hvorfor folk beslutter sig for at købe økologiske produkter på et dybere plan. De kan heller ikke sige noget om, hvorfor folk mon har de holdninger, de har, f.eks. hvorfor de stemmer på højrefløjen eller på højrefløjen. Her må vi have fat i lingvisterne, i de personer fra humaniora, der kan analysere politikeres sprogbrug og sammenligne denne sprogbrug med andre politikeres sprogbrug. Endelig kan man jo ikke lave statistik på, hvordan f.eks. et digt eller en novelle skal tolkes....

Jens Thaarup Nyberg

"Større datasæt giver bedre statistik, og statistik er et glimragende værktøj, når man prøver at konkludere noget. Specielt hvis man ikke har en politisk dagsorden skrevet ind i konklusionen inden man går i gang."
Statusopgørelser er glimrende, når man vil skønne, om tiltag er nødvendig. Men status kan også opgøres kvalitativt, ved systemudredning; yder systemet det nødvendige, og hvad er dets begrænsninger.

En sidste ting: Man har en eller anden idé om, at hvis bare man får nok data, så kan man analysere alt. Og forstå alt. Men se, det kan man ikke. Før man begynder at indsamle data, enten det er big data eller small data, må man have gjort sig formålet klart med indsamlingen af data: Hvad skal det bruges til? Hvad er formålet med indsamlingen af data? Er det at finde ud af, hvor mange personer, der er villig til at betale mere for økologisk mælk end andre? Og i hvilket segment af befolkningen? Er det at finde ud af, hvorfor folk lige netop køber det kjolemærke, og ikke det andet? Er det at finde ud af, om prisen eller det vi kan kan kalde for kvalitet (kjolen holder længere f.eks.) er vigtigt for kunden, der køber kjolen eller?

Tillad mig et personligt eksempel:

Mine forældre havde, som nogle af jer, sikkert ved, en kjolefabrik. Mundtlig feedback fra kunderne over årene var den her: kvalitet, godt syet, kjolerne holder længere, store størrelser er pæne, jeg kan præsentere mig selv pænt i dem. Desværre blev denne feedback ikke sat i system, før det var for sent (før fabrikken lukkede altså). Kvalitative interviews med en fokusgruppe eller fokusgrupper havde måske kunnet give noget her, så fabrikken kunne være blevet omstillet til kun at lave store størrelser, dvs. fra kjolestørrelse 44 og op til 54 eller 60; indsamling af big data eller small data kunne have givet ledelsen (dvs. mine forældre i det her tilfælde) et fingerpraj om, hvem der købte deres kjoler, hvad der var vigtigst for kunderne - pris eller kvalitet osv. osv.

Pointen er egentlig den, at både kvantitave og kvalitative data er vigtige her.

Næ, det gør der ikke :)

Men de matematikere, der var studerende på det universitett, jeg gik på engang i 1980erne, mente at vi, humanisterne, ville have godt af få et kursus i Humanistisk Matematik - for bl.a. at lære om matematiske modeller mm. og om forudsætninger mm. Man skal huske på, at dette var i 1980erne, hvor man ikke lærte så meget om matematiske modeller mm. som man åbenbart gør nu, i 2016, i både gymnasiet og i folkeskolen mm. Derfor mente de, at de ville indføre os i, hvordan verden så ud fra matematikken tankeverden, så vi som humanister kunne gå ud og debattere dette - og forklare og fortælle folk, formidle dette til folk. Netop på grund af humanisternes store tradition for at blande sig i debatten, både den kulturelle og den politiske debat.

Der findes tre slags statistik. Den statistik der bruges til at manipulere med. Den statistisk magthaverne selv skal bruge for at underbygge deres magt. Og så den statistik som der ikke bliver indsamlet data til fordi den undergraver samfundsfortællingen.

Dagpengereformen er et godt eksempel: her opererede man med et vist, lavt antal, der ville falde ud. Tallet holdt dels ikke - men selve den tanke, at man accepterede, at nogle ville miste deres dagpengeret, er et vildspor.

Michael Pedersen, din kommentar er jo faktuel, og jeg er enig deri, og enighed om det faktuelle er vejen til at forstå bevægegrundene i andres holdninger. Et skridt på vejen til mellemmenneskelig forståelse. Det er Ok!

Jens Thaarup Nyberg

Steffen Gliese
21. september, 2016 - 09:34
Jeg tror ikke dagpengereformen er baseret på statistik, men på en formel - som viste sig ufuldstændig.

Har du været med til trafiktælling, Michael Pedersen? Og har du efterfølgende set et køreplansresultat, så ved du, hvis du er gennemgående bruger, at de to ting intet har med hinanden at gøre.

Jens Thaarup Nyberg

rettelse:" ... som viste sig fuldstændig", idet formlen lyder, det skal kunne betale sig at arbejde. - Og så måske alligevel, har man taget statistiken i betragtning.

Christian Larsen

Det er decideret forkert når man sammenblander datasæt, analysemetode og menneskelige valg og konkluderer "Big data er ikke bedre data".

I en analyse skal man selvfølgelig altid være kritisk omkring kvaliteten af de data man analyserer. Men tager man 2 datasæt af samme kvalitet vil et stort datasæt altid være væsentligt bedre end et lille datasæt. Simpelthen fordi der kan analyseres med mindre statistisk usikkerhed.