Læsetid: 3 min.

Big data er ikke bedre data

Store datamængder kan virke mere valide og objektive, men både indsamlingen af big data og især analysen af dem er fyldt med usikkerhed og menneskelige valg. Det påpeger lektor Kristin Veel, der forsker i farerne og mulighederne i big data på humaniora
19. september 2016

Hvad er farerne ved big data, og hvordan forholder vi os til dem? Det er det spørgsmål, som lektor Kristin Veel fra Institut for Kunst og Kulturvidenskab og kollegerne Nanna Bonde Thylstrup og Daniela Agostinho har beskæftiget sig med de seneste to år.

Kristin Veel mener, at faren især er, at big data er omgærdet af retorik om, at store datamængder giver mere valide resultater.

»Big data bliver ofte markedsført som sandhed. Men i virkeligheden accepterer man ofte udregninger i big data, som giver endnu flere usikkerheder, end man ville i normale statistiske beregninger, netop fordi datasættene er så store,« siger hun.

Læs også: Forskere vil analysere vores digitale spor

At store datamængder giver forskningen mere vægt og neutralitet er en anden udbredt forestilling, men der er store usikkerheder forbundet med både indsamlingen og analysen af big data.

 

Vores abonnenter kalder os kritisk, seriøs og troværdig.
Prøv en måned gratis.

Klik her

Allerede abonnent? Log ind her

Vores abonnenter kalder os kritisk, seriøs og troværdig.

Prøv en gratis måned og få:
  • Alle artikler på information.dk
  • Annoncefrit information.dk
  • E-avis mandag til lørdag
  • Medlemsfordele
0,-
Første måned/herefter 200 kr/md. Abonnementet er fortløbende.
Prøv nu

Allerede abonnent? Log ind her

Anbefalinger

  • Kristian Rikard
  • Kurt Nielsen
  • Lise Lotte Rahbek
Kristian Rikard, Kurt Nielsen og Lise Lotte Rahbek anbefalede denne artikel

Kommentarer

Hvis man nu skulle være en drillepind, kunne man pointere at det med store datasæt aldrig rigtigt har været humanioras stærkeste side. Her er man mere vant til at konkludere på alt for få forsøgspersoners alt for subjektive udsagn, i det man kalder så med lidt kreativitet kalder "kvalitativ" analyse.

Ligesom man kan snyde hr. og fru Vildmeddans med tal, kan man også cherrypicke sine data mere eller mindre bevidst, men overskriften er misvisende. Større datasæt giver bedre statistik, og statistik er et glimragende værktøj, når man prøver at konkludere noget. Specielt hvis man ikke har en politisk dagsorden skrevet ind i konklusionen inden man går i gang.

Ib Christensen, Bill Atkins og Lennart Kampmann anbefalede denne kommentar

Nu har jeg faktisk læst både et humanistisk fag (dansk) og et samfundsvidenskabeligt fag (samfundsfag) på universitetet. Og taget et kursus i Humanistisk Matematik, som nogle fremragende og dygtige matematikere på det universitet, jeg gik på, stod for. I både samfundsfagets metode omkring statistik og i kurset Humanistisk Matematik lærte jeg, at man kan snyde med statistik, så vandet driver, og hestene griner, og få løgn, latin og gamle aviser ud af det. Bl.a. kan man indsætte nogle forudsætninger i statistiske kørsler mm. og mv. så man får den statistik, man gerne vil have ud af det. Jeg lærte også, i samfundsfag, at det ikke er nok bare at køre en beskrivende analyse af data, f.eks. beskrive at flere udlændinge end danskere er kriminelle (det viser tallene jo helt klart!); der skal fortolkes, perspektiveres og vurderes bl.a. på, hvorfor somaliere, palæstinensere, afghanere mm. ewr mere kriminelle, og voldelige, måske også end danskerne er. Ifølge Danmarks Statistik. Man kan f.eks. også indsætte den forudsætning (baseret på et spørgeskema fra 1996, hvor man har spurgt cirka 500 mennesker!), at en nedsættelse af skatten med x antal procent vil føre til, at de vil arbejde mere mm. De forudsætninger man opstiller før man laver sin statistiske regnemetode og målemetode mm. påvirker, eller kan påvirke resultatet i den retning, man gerne vil have det.

Endelig som vi har set i serien Yes, Minister, betyder spørgsmålets udformning alt. Spørger man folk om de er imod at unge mennesker hænger ud på gadehjørnerne, og at man derfor skal sørge for mere politi, eller at alle kommer i arbejde, eller om der skal investeres i mere militær mm. er folk mere tilbøjelige til at sige 'ja' til det sidste spørgsmål om militæret end, hvis man spørger dem om de mener militæret er dårligt for nationen som helhed mm.

Jeg lærte også, at kvalitative interviews er en ganske god måde man kan bruge (og skal bruge) til at uddybe den information og de data, man har fået, når man har lavet statistik. Og at det kan give en dybere baggrundsforståelse for, hvorfor så mange tyrkere, tamiler, pakistanere mm. er udenfor arbejdsmarkedet i stedet for bare beskrivende, deskriptivt, at sige og skrive, at 4100 ud 10.000 personer der har været på kontanthjælp i mere end 10 år er udlændinge, dvs. ikke-etniske danskere.
Der er ikke noget, der hedder kvalitativ analyse, der er noget, der hedder kvalitative interviews, og selv her skal talen iscenesættes, diskuteres ud fra diskurser, teorier om kommunikation mm. - vurderes, perspektiveres og fortolkes ift. den teori, man har valgt at bruge.

Og så har vi altså ikke forsøgspersoner på humaniora; vi har forsøgspersoner i nogle psykologiske eksperimenter. På psykologi. Som enten ligger på Humaniora eller på Samfundsvidenskab, alt afhængig af, hvilket universitet, man lige går på.

Større datasæt giver måske nok bedre statistik, altså kan sige noget om, hvor mange personer, der køber økologi, eller hvor mange personer, der køber en bestemt type opvaskemaskine, eller bil. Men de kan ikke sige noget om, hvorfor folk beslutter sig for at købe økologiske produkter på et dybere plan. De kan heller ikke sige noget om, hvorfor folk mon har de holdninger, de har, f.eks. hvorfor de stemmer på højrefløjen eller på højrefløjen. Her må vi have fat i lingvisterne, i de personer fra humaniora, der kan analysere politikeres sprogbrug og sammenligne denne sprogbrug med andre politikeres sprogbrug. Endelig kan man jo ikke lave statistik på, hvordan f.eks. et digt eller en novelle skal tolkes....

Jens Thaarup Nyberg

"Større datasæt giver bedre statistik, og statistik er et glimragende værktøj, når man prøver at konkludere noget. Specielt hvis man ikke har en politisk dagsorden skrevet ind i konklusionen inden man går i gang."
Statusopgørelser er glimrende, når man vil skønne, om tiltag er nødvendig. Men status kan også opgøres kvalitativt, ved systemudredning; yder systemet det nødvendige, og hvad er dets begrænsninger.

En sidste ting: Man har en eller anden idé om, at hvis bare man får nok data, så kan man analysere alt. Og forstå alt. Men se, det kan man ikke. Før man begynder at indsamle data, enten det er big data eller small data, må man have gjort sig formålet klart med indsamlingen af data: Hvad skal det bruges til? Hvad er formålet med indsamlingen af data? Er det at finde ud af, hvor mange personer, der er villig til at betale mere for økologisk mælk end andre? Og i hvilket segment af befolkningen? Er det at finde ud af, hvorfor folk lige netop køber det kjolemærke, og ikke det andet? Er det at finde ud af, om prisen eller det vi kan kan kalde for kvalitet (kjolen holder længere f.eks.) er vigtigt for kunden, der køber kjolen eller?

Tillad mig et personligt eksempel:

Mine forældre havde, som nogle af jer, sikkert ved, en kjolefabrik. Mundtlig feedback fra kunderne over årene var den her: kvalitet, godt syet, kjolerne holder længere, store størrelser er pæne, jeg kan præsentere mig selv pænt i dem. Desværre blev denne feedback ikke sat i system, før det var for sent (før fabrikken lukkede altså). Kvalitative interviews med en fokusgruppe eller fokusgrupper havde måske kunnet give noget her, så fabrikken kunne være blevet omstillet til kun at lave store størrelser, dvs. fra kjolestørrelse 44 og op til 54 eller 60; indsamling af big data eller small data kunne have givet ledelsen (dvs. mine forældre i det her tilfælde) et fingerpraj om, hvem der købte deres kjoler, hvad der var vigtigst for kunderne - pris eller kvalitet osv. osv.

Pointen er egentlig den, at både kvantitave og kvalitative data er vigtige her.

Næ, det gør der ikke :)

Men de matematikere, der var studerende på det universitett, jeg gik på engang i 1980erne, mente at vi, humanisterne, ville have godt af få et kursus i Humanistisk Matematik - for bl.a. at lære om matematiske modeller mm. og om forudsætninger mm. Man skal huske på, at dette var i 1980erne, hvor man ikke lærte så meget om matematiske modeller mm. som man åbenbart gør nu, i 2016, i både gymnasiet og i folkeskolen mm. Derfor mente de, at de ville indføre os i, hvordan verden så ud fra matematikken tankeverden, så vi som humanister kunne gå ud og debattere dette - og forklare og fortælle folk, formidle dette til folk. Netop på grund af humanisternes store tradition for at blande sig i debatten, både den kulturelle og den politiske debat.

Der findes tre slags statistik. Den statistik der bruges til at manipulere med. Den statistisk magthaverne selv skal bruge for at underbygge deres magt. Og så den statistik som der ikke bliver indsamlet data til fordi den undergraver samfundsfortællingen.

Dagpengereformen er et godt eksempel: her opererede man med et vist, lavt antal, der ville falde ud. Tallet holdt dels ikke - men selve den tanke, at man accepterede, at nogle ville miste deres dagpengeret, er et vildspor.

Michael Pedersen, din kommentar er jo faktuel, og jeg er enig deri, og enighed om det faktuelle er vejen til at forstå bevægegrundene i andres holdninger. Et skridt på vejen til mellemmenneskelig forståelse. Det er Ok!

Jens Thaarup Nyberg

Steffen Gliese
21. september, 2016 - 09:34
Jeg tror ikke dagpengereformen er baseret på statistik, men på en formel - som viste sig ufuldstændig.

Har du været med til trafiktælling, Michael Pedersen? Og har du efterfølgende set et køreplansresultat, så ved du, hvis du er gennemgående bruger, at de to ting intet har med hinanden at gøre.

Jens Thaarup Nyberg

rettelse:" ... som viste sig fuldstændig", idet formlen lyder, det skal kunne betale sig at arbejde. - Og så måske alligevel, har man taget statistiken i betragtning.

Christian Larsen

Det er decideret forkert når man sammenblander datasæt, analysemetode og menneskelige valg og konkluderer "Big data er ikke bedre data".

I en analyse skal man selvfølgelig altid være kritisk omkring kvaliteten af de data man analyserer. Men tager man 2 datasæt af samme kvalitet vil et stort datasæt altid være væsentligt bedre end et lille datasæt. Simpelthen fordi der kan analyseres med mindre statistisk usikkerhed.