Bij het ontwikkelen van wetenschap wil men enkel zekere, en met zekerheid voorspelbare uitspraken doen. De voorspelbaarheid eist dat testen herhaalbaar zijn, en dus bij herhaling de zekere eigenschap vertonen. Dit is allesbehalve evident en de herhaalbaarheid heeft er toe geleid dat men enkel uitspraken over gebeurtenissen wil doen in een laboratorium. In een laboratorium kan men de context immers zodanig beperken en de meetprocedure zodanig goed beschrijven en volgen dat goed getrainde operatoren met zekerheid herhaalbare waarnemingen uitvoeren. Historisch gezien is een laboratorium gegroeid als een omgeving die niet ervaarbare meningen kon afscheiden van herhaaldelijk ervaarbare eigenschappen.
Het laboratorium heeft zijn emanciperende rol goed vervuld, maar een laboratorium heeft ook andere gevolgen. In realistische situaties bevinden we ons immers in een positie waarbij niet alles wat kan gebeuren met zekerheid gekend kan zijn. Daarenboven zijn in onze cultuur gewenste zeldzame gebeurtenissen zeer waardevol en voor sommige ongewenste en zeldzame gebeurtenissen zal men ook alles doen om ze te vermijden. We kunnen dat ook als volgt uitdrukken: alhoewel elkeen met zekerheid kan beschrijven wat elkeen van een gekozen situatie verwacht, toch kan de context die altijd deel is van een realistische situatie niet met zekerheid beschreven worden. De meest zeldzame situaties zijn zeer specifiek, bevinden zich “ver uit evenwicht” en zijn daarom helemaal niet op een vanzelfsprekende manier herhaalbaar. Hoe kunnen we dan de voldoende oorzaken (of minimaal de noodzakelijke oorzaken) van hun optreden leren kennen zonder onze toevlucht te nemen tot een laboratorium? In onze cultuur is het bijvoorbeeld onaanvaardbaar of ondoenbaar om levende wezens in een sterk beperkte context (een laboratorium of meetprocedure) op te sluiten. Daarenboven kan men dan altijd vragen hebben bij hun spontaan gedrag-in-context. Toch heeft de maatschappij er alle belang bij om te proberen om het gedrag van mensen te voorspellen en te beïnvloeden, al was het maar om datgene wat de samenleving waardevol vindt te kunnen doorgeven, om mensen maatschappelijk gewenst gedrag spontaan te laten vertonen, om nieuwe gedragingen mogelijk te maken, om mensen in optimale inzetbaarheid te houden door te vermijden dat ze bijvoorbeeld ziek worden in een evoluerende context die slecht voorspelbaar is, enz.…
We kunnen deze problematiek heel precies beschrijven vanuit het inzicht van het haakformalisme. We moeten dan de vage standaard taal verlaten en we zullen de taal van waarschijnlijkheden gebruiken. We kunnen dat dan Bayesiaans modelleren en klassiek.
De Bayesiaanse modellering geeft de mogelijkheid om maximaal gebruikt te maken wat reeds geweten is in een onbekende situatie (het is een benadering van de waarschijnlijkheid van een gebeurtenis “gegeven een andere gebeurtenis”).
We nemen een voorbeeld van een zeer onwaarschijnlijke toestand A. We stellen dat we de waarschijnlijkheid dat zich A voordoet kennen, bijvoorbeeld 1% (waarmee we illustreren dat het een zeer zeldzame “samenloop van omstandigheden” is). We weten echter niet uitputtend onder welke voorwaarden A optreedt, en we zouden willen te weten komen of dit het geval is in de context die ons interesseert. Hiervoor beschikken we over een test die een testeigenschap B genereert die positief, maar niet in alle gevallen, correleert met A. Dat betekent in de taal van het haakformalisme dat de eigenschap A simultaan aanwezig is met B (“indien B, dan ook A”) maar niet in alle gevallen. A is niet fijner dan B, het is niet zo dat als B geldt dan ook altijd A met zekerheid geldt. Evenmin geldt dat B fijner is dan A, het is evenmin zo dat als A geldt ook altijd B met zekerheid geldt. Er zijn dus toestanden T die simultaan zowel A als B realiseren (als T geldt, dan geldt ook A en dan geldt ook B), maar er zijn ook toestanden die B realiseren en A niet, en toestanden die A realiseren en B niet. De voorwaardelijke waarschijnlijkheid P(A/B) is de waarschijnlijkheid van A, gegeven B (met gerealiseerde of gekende B, gegeven ook het feit dat B niet met zekerheid met A correleert). Om dit concreet te maken veronderstellen we dat we B kennen (uitslag van een test) die simultaan met A optreedt (“indien A dan ook B”) in 80% van de gevallen. We hebben dus ettelijke malen geprobeerd om B te realiseren (stel op de 1000 testen konden we 100 maal B waarnemen) en op de 100 maal dat we B realiseerden werd ook A waargenomen. Dat we zoveel maal faalden om B te realiseren wordt niet gerapporteerd en doet hier ook verder niet ter zake.
Maar we weten nu nog niet genoeg. Om met het totaal aantal toestanden T rekening te kunnen houden hebben we nog meer gegevens nodig: we moeten weten in welk percentage tijdens de test eigenschap B waargenomen wordt zonder dat A zich voordoet. We stellen dat bijvoorbeeld op 10%. A doet zich voor in 1% van de gevallen, dus in 99% van de gevallen is A afwezig (“iets anders dan A” wordt waargenomen) en in 10% van die gevallen zal ook B gedetecteerd worden. In een overzicht:
|
Eigenschap A aanwezig |
Eigenschap A afwezig |
Eigenschap B aanwezig |
0,8 |
0,1 |
We maken nu een aantal berekeningen met de veronderstelde waarschijnlijkheid dat A optreedt: 0,01
P(A) = 0,01
P(A∩B) = 0,8 x 0,01 = 0,008
P(B) = 0,8x0,01 + (1-0,01)x0,1 = 0,008 + 0,099 = 0,107
P(A/B) = P(A∩B)/P(B) = 0,008/0,107 = 0,075
Conclusie: stel dat B gedetecteerd wordt dan zal dit slechts voor 7,5% betekenen dat ook A aanwezig zal zijn. Op 200 maal B waarnemen zal dit slecht gepaard gaan met 15 maal A waarnemen. Dit is een verbijsterende maar zeer correcte conclusie. Maar dit is niet alles. De verbijstering neemt nog toe als men zou verrekenen dat er op een veel groter aantal testen slechts in een beperkte mate B kon gerealiseerd worden (wat niet gerapporteerd werd). De verbijstering kan nog toenemen als men beseft dat het tijd en middelen kost om al die testen te doen en men er dus impliciet van uit gaat dat “in die tijd” en met die beschikbare middelen er niets “fundamenteels” veranderde in de deelnemende agentia en in de context.
Zo’n situaties conflicteren sterk met de intuïtieve inschatting omdat mensen intuïtief niet met alle mogelijke gevallen rekening houden die door de context van de test mogelijk gemaakt worden. Het totaal aantal relevante toestanden wordt spontaan (intuïtief) beperkt gehouden, de werkelijkheid moet door toevoegen van bijkomende aspecten niet ingewikkelder gemaakt worden (“ockhams scheermes”). Zoals we zojuist berekend hebben gebeurt dit dikwijls onterecht en Kahnemann en Tversky hebben daar enorm veel voorbeelden van verzameld.
Elke meting is een nieuwe gebeurtenis in de werkelijkheid die ofwel simultaan een verwachte eigenschap realiseert (een eigenschap die ik voor ogen heb en die ik met zekerheid wil realiseren), ofwel iets realiseert dat anders is dan die eigenschap. Een meting is een unieke gebeurtenis en het zou nu kunnen zijn dat een bepaalde meetcontext relevante aspecten realiseert die ik niet ken en die ik dus niet meer zal kunnen reproduceren om te kunnen blijven verklaren dat ik met zekerheid de bedoelde eigenschap kan realiseren. Bij een meting zullen immers altijd afwijkingen optreden en het zou best kunnen zijn dat deze geen afwijkingen zijn die toevallig en dus irrelevant zijn, maar afwijkingen die een invloed hebben op iets anders dat wat ik verwachtte. Het centraal probleem in de wetenschap is nu of wat ik meet een meting kan zijn van de eigenschap in werkelijkheid die ik voor ogen heb. Elke meting wordt gedaan met een bepaald risico dat men iets anders meet. Met iets anders wordt dan bedoeld een relevante afwijking van een verwachte en bedoelde waarde in één dimensie, de waarde is dus onverwacht groter of kleiner, de waarde bevindt zich “onverwacht” niet in het verwachte interval.
Aangezien het onmogelijk is twee maal hetzelfde te meten (elke toestand sluit een andere uit, de waarschijnlijkheid van een bepaalde waarde is nul, de waarschijnlijkheid van een waarde binnen een interval is positief) moet men grenzen stellen aan wat men nog als verwachte waarde wil beschouwen. Daarom spreekt men van twee hypotheses die simultaan met de gemeten toestand kunnen gerealiseerd worden:
H0: de meting meet iets dat met zekerheid kan gerealiseerd worden en dat ik verwacht te kunnen realiseren bij elke meting. In de (mogelijk normale) verdeling van een aantal metingen en dus een aantal toestanden moet men ergens een grens kiezen en vastleggen: α, waarbij 1-α de fractie geeft van de gemeten toestanden die simultaan H0 realiseren.
H1: de meting meet iets anders dan wat met zekerheid kan gerealiseerd worden en dat ik verwacht te kunnen realiseren bij elke meting. H1 staat dus voor een verandering die het gevolg is van een veranderde meetcontext. In de normale verdeling van een aantal metingen en dus een aantal toestanden moet men ergens een grens kiezen en vastleggen: β, waarbij 1-β de fractie geeft van de gemeten toestanden die simultaan H1 realiseren.
Merk op dat dit met de uitwendige involutie die in het haakformalisme bestudeerd wordt perfect kan genoteerd worden als: H0 kan niet onderscheiden worden van <H1> (en dus ook: <H0> kan niet onderscheiden worden van H1). De klassieke hypotheses gaat er van uit dat het complement van een gebeurtenis volledig kan gekend worden.
“Ja” zeggen aan de hypothese H0 (de hypothese H0 niet verwerpen en H1 wel) of “ja” zeggen aan de hypothese H1 (de hypothese H1 niet verwerpen en H0 wel) geeft aanleiding tot vier mogelijkheden. We kunnen die vier mogelijkheden (in de conventionele bewoording in de standaard taal als een “juiste of foute beslissing”) ook als volgt uitdrukken:
Een beslissing wordt genomen dat H0 juist is, en in werkelijkheid is H0 juist. Een onvermijdelijk verschil hangt af van het toeval.
Een beslissing wordt genomen dat H1 juist is, en in werkelijkheid is H0 juist. Dit noemt men een type 1 fout. De gemeten en de verwachte waarde zijn zodanig erg verschillend dat men zich in deze beslissing gesterkt weet, maar toch was dit grote verschil slechts toevallig zo.
Een beslissing wordt genomen dat H0 juist is, en in werkelijkheid is H1 juist. Dit noemt men een type 2 fout. De gemeten en de verwachte waarde zijn zodanig weinig verschillend dat men zich in deze beslissing gesterkt weet, maar toch was dit kleine verschil slechts toevallig zo, de verwachte waarden in werkelijkheid liggen verder uiteen, de verandering heeft zich voorgedaan.
Een beslissing wordt genomen dat H1 juist is, en in werkelijkheid is H1 juist. Een onvermijdelijk verschil hangt af van het toeval.
De fractie die de hypothese realiseert |
Met zekerheid gerealiseerd |
||
H0 met zekerheid gerealiseerd |
H1 met zekerheid gerealiseerd |
||
Beslissing |
H0 niet verwerpen = H1 verwerpen |
Beslissing is juist 1-α |
Beslissing is fout β |
H1 niet verwerpen = H0 verwerpen |
Beslissing is fout α |
Beslissing is juist 1-β |
In de hypothese van een statistische test wordt dit de type 1 en type 2 afwijkingen van een verwachting genoemd. Conventioneel staat α voor type 1 en β voor type 2.
Vanuit de inzichten van het haakformalisme is dit te begrijpen. Bij elke waarneming van W moet niet slechts één beslissing genomen worden maar twee, een beslissing om “ja” of “neen” te zeggen aan W, en een beslissing om “ja” of “neen” te zeggen aan <W>. De werkelijkheid wordt altijd op twee manieren gerealiseerd. Een manier waarvoor men kan kiezen en een manier die enkel kan gebeuren. Wat we hier dus expliciet gemodelleerd hebben is het samenspel van twee waarnemingen, W0 (als hypothese H0) en W1 (als hypothese H1).
Laten we dit inzicht nog eens op een andere manier kwantificeren. We doen dat op een zodanige manier dat we de impact beseffen op het voorspellen en/of reconstrueren van de voldoende (en dus minimaal noodzakelijke) voorwaarden voor zeer zeldzame gebeurtenissen. We willen dus met zekerheid de voorwaarden vinden die zullen leiden tot een gewenste toestand en we willen dit doen door de context te ontwerpen, te manipuleren. Bijvoorbeeld: we willen een systeem ontwerpen dat altijd veilig is, we willen een spoor achterlaten dat altijd waarneembaar is, we willen een behandeling vinden die altijd een ziektebeeld wegneemt, enz...
Willen we een beoordeling van de situaties dan zullen we verschillende zelf gekozen contexten tegen elkaar moeten afwegen, en elke context is dan een hypothese (indien... dan...) die aanvaard kan worden of die verworpen kan worden. Hoe meer interagerende agentia, hoe complexer de samenleving, hoe meer emergente relaties, hoe meer potentiële hypotheses als relevant kunnen bestempeld worden. Toch zal slechts één van deze vele hypotheses (contexten) gerealiseerd worden, en slechts sommige op een herhaalbare manier (herhaaldelijk zal de “indien... dan...” gerealiseerd worden, of iets anders dan die “indien..., dan...” zal gebeuren). We veronderstellen nu dat we zeer weinig weten over de voldoende oorzaken die de situatie zullen produceren, dat we creatief genoeg zijn om veel hypotheses te bedenken en dat er slechts 1 op 100 potentiële hypotheses gerealiseerd wordt of gerealiseerd werd. Hoeveel hypotheses moeten nu getest worden en hoeveel middelen en tijd zijn hiervoor nodig? Dit is een belangrijke vraag omdat de middelen en de tijd voor onderzoek altijd beperkt zijn. Toch zouden we zo weinig mogelijk correcte hypotheses willen missen tijdens de testen. Wat betekent dat? We doen de moeite om de voorwaarden voor het optreden van H1 te realiseren (we doen een manipulatie in de context), en dan willen we dat we (door toeval) H1 niet verwerpen. Ons samenwerkingsverband, of de samenleving in zijn geheel, wordt gewoonlijk wel overtuigd om voor het onderzoeken van een 80/20 verhouding middelen toe te kennen, we kunnen dus 80% van de correcte hypotheses vinden tijdens de testen (80% dus van de hypotheses die zich in werkelijkheid zullen voordoen), waarbij we 20% verwerpen hoewel ze zich zeker voorgedaan hebben tijdens de testen, die 20% is de β uit de tabel. De 80/20 verdeling wordt niet groter gekozen, want maatschappelijk gezien wordt er een veel grotere waarde toegekend aan het verwerpen van niet correcte hypotheses. De samenleving wil gewoonlijk immers tot 95% van de incorrecte hypotheses verwerpen, dat is de 1-α uit de tabel. De redenering hiervoor is als volgt: indien we hypotheses die zich niet zullen voordoen niet zouden verwerpen, dan hebben we de (schaarse) middelen om die hypotheses te realiseren op voorhand reeds weggegooid, missen we daarentegen sommige hypotheses die zich wel zullen voordoen, dan weze dit maar zo, we hebben er altijd wel genoeg. Maar welke impact heeft dat nu werkelijk op de samenleving? Laten we daar eens getallen op plakken. We laten dus de onderzoekers (agentia die verschillende contexten tegen elkaar moeten afwegen) hun werk doen. We geven hen bijvoorbeeld de middelen en de tijd om 1000 manipulaties uit te voeren, dus 1000 hypotheses te testen, we verwachten dat er 10 zullen gerealiseerd worden maar tijdens de testen zullen we er slechts 8 als zijnde "gerealiseerd" kunnen beoordelen. Van die 1000 hypotheses zijn er dus 990 die niet zullen gerealiseerd worden en daarvan verwerpen we tijdens de testen 95%. Dus 5% van de 990 (veronderstellen we) zullen wel gerealiseerd worden en hebben we dus niet verworpen, dat zijn er dus 49,5. Halve hypotheses zijn niet gedefinieerd en dus maken we er 50 van. We hebben dus 50+8=58 hypotheses waarvan we veronderstellen dat ze wel zullen gerealiseerd worden, maar in werkelijkheid zijn we maar zeker van 8. We bereiken dus maar een rendement van 14% want we hebben de (schaarse) middelen en tijd om die hypotheses te realiseren (hoewel ze zich toch niet zullen voordoen) op voorhand reeds weggegooid. Met die cijfers zouden de onderzoekers de samenleving kunnen overtuigen om bijkomende middelen ter beschikking te stellen om die 58 hypotheses nog eens te testen, wetende dat de meeste van die hypotheses andermaal niet zullen gerealiseerd worden. Maar dan moeten ze de samenleving ook ervan kunnen overtuigen dat de relevante factoren ondertussen niet veranderd zijn, wat een hypothese is die in een woelige, veranderende, zelforganiserende en complexe maatschappelijke context intuïtief niet erg waarschijnlijk is.
Het gevolg hiervan zal niemand spontaan verbazen omdat intuïtief duidelijk is dat, hoe onwaarschijnlijker een gebeurtenis, namelijk 1%, hoe onwaarschijnlijk het is dat men het kan herhalen. Maar een andere formulering van ditzelfde gevolg stuit veel mensen tegen de borst: het meeste wat “wetenschappelijk” bewezen werd buiten de context van een laboratorium is niet herhaalbaar. In een wetenschap die “waarheid” gedefinieerd heeft als dat wat met zekerheid gekend is en dus met zekerheid herhaalbaar is, is het gevolg dus dat het meeste wat “wetenschappelijk” bewezen werd buiten de context van een goed gedefinieerd laboratorium niet waar is. Alle middelen die daarvoor vrijgemaakt werden is “weggegooid geld”. Het enorme leger onderzoekers en onderzoeksmiddelen heeft een laag rendement. Dit hoeft niet dramatisch te zijn voor de samenleving maar is dit wel voor het begrip “waarheid” en maakt de ontwikkeling en aanvaarding dringend van een wetenschap die relevantie niet meer willekeurig definieert maar operationeel inzet buiten een laboratorium. Het totaal aantal relevante toestanden wordt door mensen spontaan (intuïtief) beperkt gehouden (de werkelijkheid moet voor hen door toevoegen van bijkomende aspecten niet ingewikkelder gemaakt worden). Helaas hebben we in het begin van de 21ste eeuw nog geen wetenschappelijke structuren die daarmee kunnen omgaan met als gevolg dat enkel dat wat in een laboratorium-setting gebeurt als waardevol beschouwd wordt.
Ontwerpers kunnen in de praktijk met onzekerheid omgaan omdat ze elke stakeholder-in-context als complexe agens inzetten en samen met hen daarenboven systemisch en modulair ontwerpen zodanig dat elke stakeholders zelf de mogelijkheid krijgt om voortdurend bij te sturen. Ontwerpers respecteren daartoe verschillende soorten intelligentie. Wat we daarmee bedoelen kunnen we illustreren aan de hand van de signaaldetectie theorie die op de type 1 versus type 2 afwijking gebaseerd is. De signaal detectie theorie is ontwikkeld voor één sensor (detector, inclusief kanaal enz...). Bij de signaal detectie theorie stelt men de vraag of wat men ervaart een gevolg is van ruis of van ruis met hierop een signaal. Een signaal wordt gegeven omwille van de informatie inhoud, dus omwille van de verandering die beoogd wordt. Ruis interfereert met het waarnemen van een signaal. Ruis komt uit de omgeving, van buiten (verstoringen in een deel van het kanaal bijvoorbeeld) of van binnen (willekeurige neurale activiteit).
Wanneer men vanaf een bepaalde waarnemingsintensiteit reageert alsof er een signaal ontvangen is, zijn er 4 mogelijke uitkomsten: treffer, vals alarm, misser, correcte afwijzing. De waarschijnlijkheid van de 4 uitkomsten zal afhangen van de distributie van de signaal intensiteit met de ruisintensiteit. Deze waarschijnlijkheid wordt gegeven door het oppervlak onder de curve wanneer men de verdeling van ruis en signaal+ruis in een grafiek uitzet die de intensiteit van de zintuiglijke waarneming ten opzicht van de waarschijnlijkheid van optreden geeft.
Concreet: Elke sensor is beperkt door zijn venster (frequentie, intensiteit en reactiesnelheid) waarin hij gevoelig is. Door de ruis (willekeurige activatie in dit venster) is er een normale distributie op elke parameter in dit venster. In de grafiek is de intensiteit (slechts één van de parameters) van een venster aangegeven en twee normale distributies. Bijvoorbeeld geeft de meest linkse distributie de verdeling van intensiteiten van het lawaai van voorbijrazende auto's. Een signaal (bijvoorbeeld een zware vrachtwagen) zal de distributie verplaatsen in de richting van de toegevoegde intensiteit. Een sensor zal nu ingesteld worden op een deelgebied van dit venster: de drempel die, van zodra hij overschreden wordt, als signaal geïnterpreteerd moet worden. Er is dus een berekenbare waarschijnlijkheid dat die sensordrempel overschreden wordt, dit in het geval van aanwezigheid van het signaal (treffer), van afwezigheid van het signaal (vals alarm), en een berekenbare waarschijnlijkheid dat die sensordrempel niet overschreden wordt ondanks aanwezigheid van het signaal (misser), en als het signaal afwezig is (correcte afwijzing).
Ontwerpers gaan nooit zo'n eendimensionaal signaal gebruiken om veranderingen stuurbaar te maken, want voor hen maakt de signaal detectie theorie duidelijk dat op een niet-redundante manier informatie geven een slechte strategie is. Een signaal kan hooguit als aandachtstrekker gebruikt worden, informatie wordt effectiever doorgegeven door een complex patroon, en dus in meerdere kanalen en dus is er een integrerende intelligentie nodig die gebaseerd is op de correlatie tussen informatie in verschillende kanalen. Immers, indien men ervan uitgaat dat er één bron ligt aan de conjunctie van meerdere signalen dan zal die bron te reconstrueren zijn uit de overeenkomsten in de kanalen ondanks de onvermijdelijke ruis (er zal immers ook altijd iets anders gebeuren dat datgene dat gewenst is). Meerdere sensoren zullen de onzekerheid die aan één enkele sensor gebonden is opheffen, meerdere sensoren maken het mogelijk om het gemeenschappelijke dat simultaan met elke sensoruitslag gerealiseerd wordt te reconstrueren en maakt het dus mogelijk om zelfs uit zeer onwaarschijnlijke situaties relevante informatie te extraheren. Alle levende wezens doen dit spontaan en dit herkennen we als intelligentie. Als dit dan nog gekoppeld wordt aan een actieve bevraging door middel van actuatoren, dan wordt het risico op een niet adequate inschatting van de situatie nog verder verminderd.
Ontwerpers als wetenschappers zullen dus complexe contexten respecteren en verder ontwerpen. Ze zullen dus niet vertrouwen op maar één soort waarneming. Ontwerpers moeten dus dikwijls de mens als de relevante stakeholder zelf inschakelen als complexe patroonherkenner van zijn eigen werkelijkheid en die agens moet actief in de nieuwe context kunnen exploreren en daarin gerespecteerd worden. De prototypes van ontwerpers zijn dus niet alleen het bedoelde ontwerp maar evenzeer het meetinstrument in zijn meetcontext waardoor de betrokken stakeholders hun werkelijkheid kunnen leren kennen en kunnen leren sturen.