Hal Varian over sexy statistici
I keep saying the sexy job in the next ten years will be statisticians. People think I’m joking, but who would’ve guessed that computer engineers would’ve been the sexy job of the 1990s?
unsupported characters, or include a non-local or incorrectly linked interwiki prefix. You may be able to locate the desired page by searching for its name (with interwiki prefix, if any) in the search box.
Possible causes are:
If you tried to access a non-local interwiki page, you may be able to access that page by clicking the "article" tab on this page.
Varian, in The McKinsey Quarterly (januari 2009)Het citaat gaat verder:
The ability to take data-to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it-that’s going to be a hugely important skill in the next decades, not only at the professional level but even at the educational level for elementary school kids, for high school kids, for college kids. Because now we really do have essentially free and ubiquitous data. So the complimentary scarce factor is the ability to understand that data and extract value from it. I think statisticians are part of it, but it’s just a part. You also want to be able to visualize the data, communicate the data, and utilize it effectively. But I do think those skills-of being able to access, understand, and communicate the insights you get from data analysis-are going to be extremely important. Managers need to be able to access and understand the data themselves.
Gevonden via de immer inzichtelijke blog FlowingData.



Reacties (7)
Mijn favoriete reactie is "Misschien, maar...", op de voet gevolgd door "Ja, maar..." en "Nee, maar...".
Wat zal ik in dit geval kiezen? Laat ik voor één keer gaan voor het simpele "Nee".
Struikelblok is dat zinnetje "Because now we really do have essentially free and ubiquitous data."
Nope!
Een paar weken geleden nog gepraat met iemand die pas een enquête gedaan had. Haar oordeel? "Statistiek is gemakkelijk. De statistische analyse van data is tegenwoordig meestal vlekkeloos. Het probleem zijn de data."
Data zijn ubiquitous, that's for sure... Maar zijn goede data ubiquitious? Daar heb ik mijn twijfels bij.
Een anekdote. Een maat van mij is docent in een hogeschool. Een jaar of wat gelegen kreeg hij een vragenlijst. "Helemaal mee eens", "Eerder mee eens", "niet mee eens en niet mee oneens", "eerder oneens", etc.
Ik ben het precies aantal vragen vergeten, maar het waren er honderd of zoiets.
Honderd vragen! Naar eigen zeggen heeft hij er dan maar met de pet naar gegooid. Bij navraag bleek dat al zijn collega's hetzelfde gedaan hadden.
Wat een statisticus achteraf ook doet met die antwoorden, ik betwijfel ten zeerste of het erg verhelderend is.
Statistiek kan maar zo goed zijn als de experimentele set up het toelaat, en de vertaling van het onderwerp naar het meetinstrument.
---
Bewerkt door None op Jan 08 12 1:28
Volledig mee eens! Maar de goede statisticus weet toch wel dat garbage in = garbage out? Het is toch niet omdat 95 % van de gegevens garbage zijn (inclusief dit getal 95 %), dat statistici niet belangrijk meer zijn?
---
Bewerkt door None op Jan 08 12 1:28
Belangrijk wel... maar laten we eerlijk zijn: belangrijke mensen zijn zelden sexy. Pech voor Hal Varian...
Overigens maakte mijn wiskundig geschoolde partner mijn onlangs attent op een aardige paradox uit de statistiek. Deze paradox suggereert dat "garbage" niet zo eenvoudig te definiëren valt.
Stel je onderzoekt hoeveel rokers vroegtijdig overlijden. Je deelt de onderzoeksgroep in in categorieën: van 0 tot 20 jaar, van 20 tot 40, etc. Dan is het mogelijk dat in al deze categorieën de rokers meer voortijdige overlijdens tellen dan de niet-rokers, en dat tegelijk in de volledige onderzoeksgroep de rokers MINDER voortijdige overlijdens tellen dan de niet-rokers.
Het lijkt vreemd, maar wat knoeien met een paar getalvoorbeelden toont aan dat die mogelijkheid inderdaad bestaat. (Wellicht bestaat er een stelling over convexe oppervlakken of iets dergelijks die het algemene bewijs levert).
Tja, welke conclusie trek je nu uit dit onderzoek? Dat rokers rapper sterven? Dat rokers niet rapper sterven? Dat het onderzoek slecht gedaan is? Dat je uit deze gegevens geen eenduidige conclusie kunt trekken?
---
Bewerkt door None op Jan 08 12 1:28
Je doet me er aan denken dat ik nog heel wat boeiend materiaal heb liggen over statistiek, waarover ik al lang eens een serietje wil bloggen, maar waarvoor ik nog geen tijd heb gehad. Misschien moet ik dat toch maar eens van onder het stof halen...
---
Bewerkt door None op Jan 08 12 1:28
Ik ben een tikje onduidelijk geweest bij het beschrijven van mijn paradox.
Als ik het heb over meer, minder etc. dan heb ik het over percentages.
"X procent van de rokers tussen 20 en 40 jaar sterft vroegtijdig, terwijl Y procent van de niet-rokers in dezelfde leeftijdscategorie vroegtijdig sterft", etc.
Laat dat boeiende materiaal over statistiek zeker niet liggen!
---
Bewerkt door None op Jan 08 12 1:28
Een kleine aanmerking: het is "het probleem is." Koen zou me een plezier doen als hij die kleine correctie in de tekst zou willen maken. En dit commentaar te wissen.
Nog een klein commentaar op de paginatekst onderin.
Het zou wat duidelijker zijn, indien er underline zou staan i.p.v. underscore. Het is wel correct, maar omdat underscore wordt geassocieerd met het teken, is het enigzins verwarrend.
En het zou ook gebruiksvriendelijker zijn indien meteen verplichte velden gemeld worden.
---
Bewerkt door None op Jan 08 12 1:29
Ik kan me vinden in aliaspg, die de validiteit van de data in twijfel trekt. Ik heb de indruk dat bij de meeste onderzoeken in enquete-vorm te weinig aandacht wordt besteed aan validering van het onderzoek zelf.
Ik denk aan manipulatie door:
*de vraagstelling*
Daar wordt al wel naar gekeken maar als ik sommige conclusies zie en de originele vragen heb ik toch zo mijn bedenkingen.
*de volgorde*
Bij een lang onderzoek zal er vaak minder aandacht door de onderzochte besteed worden aan de laatste vragen.
Bovendien kan een bepaalde volgorde mensen een bepaalde richting opsturen (denk aan Socrates)
Enquetes, die via een computer worden ingevuld zouden prima de reactietijd kunnen meten en daar conclusies uit trekken.
*de mogelijke antwoorden*
Ook al valt het antwoord, dat je in gedachten had, niet binnen de mogelijkheden. Dat betekent dat het antwoord dat je kiest, niet overeenstemt met jouw eigenlijke mening.
Bovendien heb ik de indruk, dat bij veel onderzoeken waar mensen in een bepaalde schaal een antwoord moeten geven er geen rekening gehouden wordt met hoe mensen die schaal interpreteren.
Ik denk dan met name aan negatieve waardering. In een schaal van 1 op 10 is een 3 of een 4 voor mij heel erg slecht. Ik zal dan ook niet snel een 1 geven.
Ik heb de indruk dat hier ook bepaalde maatschappelijke sociale normen meespelen (ofwel ik ben daar niet uniek in, maar het is iets wat meer kenmerkend is voor mijn Nederlander zijn.) Bij een internationaal onderzoek zou hier rekening mee gehouden moeten worden, wanneer je verschillen tussen de landen in kaart wilt brengen, wat natuurlijk erg moeilijk is.
Ik denk dan bijvoorbeeld aan een onderzoek over tevredenheid (hoe tevreden, is de Belg ten op zicht van de Duitser, de Nederlander, etc.)
Altijd als ik in de media resultaten van onderzoeken hoor, wil ik zo graag weten wat de vragen waren en de antwoorden. En de enkele keer dat ik ze terugvind, trek ik meestal de getrokken conclusies in twijfel.
---
Bewerkt door None op Jan 08 12 1:29