Laten we een stochastische variabele voorstellen als Y en zijn waarneming (of meting) als y. De stochastische variabele Y is niet rechtstreeks waarneembaar, tenzij in een welbepaalde waargenomen waarde y. Ondanks het feit dat we de stochastische variabele realiseren als de waargenomen waarde gerealiseerd wordt, kunnen we voor de waargenomen waarde y niet kiezen, deze kan enkel gebeuren. Er geldt echter dat <y>Y↔<>. We merken op dat alle y elkaar uitsluiten, het zijn dus toestanden van een proces. We merken ook op dat y een bepaald soort resultaat is van Y, dit betekent dat het resultaat van de waarneming waar Y deel van uitmaakt veel complexer kan zijn, maar dat we ons beperken tot de relevantie Y, die we echter enkel in zeer eenvoudige modellen a priori kunnen kennen.

We kunnen Y meerdere malen waarnemen. Stel dat we Y waarnemen of meten als y0. We kunnen nu altijd een nieuwe onderscheiding definiëren als het verschil van een nieuwe meting y1 met y0, namelijk y1 - y0. Die onderscheiding is gemeten als nul als y1 - y0 = 0. Dit betekent niet dat er geen onderscheiding is, dit betekent dat y1 en y0 als onderscheiding dezelfde rol spelen, namelijk een zelfde meting van Y. Formeel geldt in dat geval <<y1<y0>><<y1>y0>>↔<>. Elke meting van eigenschap Y, zijnde de toestand yi, is een nieuwe entiteit die simultaan Y realiseert.

Voeren we 2 metingen y0 en y1 uit dan beschikken we over 1 nieuw punt dat aanleiding geeft tot eigenschappen, dit kunnen we dus beschouwen als een nieuwe onderscheiding. Het universum met, stel, n-1 onderscheidingen is immers het universum met de simultane eigenschap Y. We kunnen er dus van uitgaan dat die simultane eigenschap “er is”. De klassieke veronderstelling gaat nog verder en veronderstelt dat alle waarden dus yi (die aanleiding geven tot onderscheidingen) “er zijn”, dus in principe mogelijk zijn. Het aantal mogelijke waarnemingen wordt dus als oneindig genomen. Niet elke waarde zal echter even frequent voorkomen. De frequentie van voorkomen is een maat voor de structuur in de waarnemingen. Dit betekent concreet dat we intervallen kunnen onderscheiden waarin de waarnemingen eerder voorkomen vergeleken met andere intervallen en dat we deze uitspraak kunnen kwantificeren. Het universum met de ene onderscheiding méér om van y0 en y1 te kunnen uitgaan telt een aantal punten dat gegeven wordt door het kwadraat van het aantal punten van het oorspronkelijk universum.

Hiermee hebben we de werkelijkheid vertaald naar een model Y, dat beschreven wordt door het supremum van onderscheidingen. Dat weten we doordat we waarnemingen kunnen uitvoeren die ‘wat betreft dat supremum’ identiek zijn maar toch ook karakteristiek beschreven kunnen worden door een nog niet gebruikt onderscheid te introduceren. Dan veronderstellen we dat dat nieuwe onderscheid zich in een bepaald gebied in oneindig veel vormen kan voordoen. Juist omdat we kunnen blijven meten zeggen we en dat al deze metingen elkaar uitsluiten dus beschreven moeten kunnen worden door nieuwe onderscheidingen.

Het aantal van die nieuwe onderscheidingen kunnen we nu benaderen door klassen in die waarnemingen te onderscheiden, die zijn te tellen, of door de klassegrenzen altijd kleiner te nemen waarbij een continu verdeling kan benaderd worden. De aantallen per klasse zijn de onderscheidingen die niet relevant zijn, ze zijn “gelijk” aan elkaar. Ze realiseren dezelfde klasse simultaan. Ze zijn van de soort “klasse x”. Hierbij drukt men uit dat men enkel entiteiten van dezelfde soort bij elkaar kan optellen. Als x en y van dezelfde soort zijn dan wordt deze soort gegeven door <<x<y>><<x>y>>. Als x, y en z van dezelfde soort zijn dan wordt deze soort gegeven door <<x<y>><<x>y><x<z>><<x>z>>. Dit laatste punt is ruimer dan <<x<y>><<x>y>>. Zowel x, y en z zijn complexen van nog vele onderscheidingen maar dan onderscheidingen die hier niet het verschil maken.

Voert men 120 waarnemingen uit dan beschikt men over 120 –1 onderscheidingen. Conventioneel wordt de klassebreedte gekozen als de totale spreidingsbreedte (grootste onderscheiding, grootste min kleinste waarde) gedeeld door de wortel uit 120. Waarom is dat zo ideaal?

Gemiddelde

Stel dat Y de beschouwde (relevante) stochastische variabele met een continue kansverdeling is. Het populatiegemiddelde m van de waarnemingen yi is de verwachtingswaarde E(Y). Wat doen we nu om E(Y) = m zo goed mogelijk te schatten?

We nemen een aselecte steekproef van n waarnemingen. Wat betekent dat? Aselect betekent dat als er N waarnemingen mogelijk zijn, dat elke waarneming een kans 1/N heeft om als eerste in de steekproef te worden uitgevoerd. De volgende die wordt uitgevoerd moet een kans 1/(N-1) hebben enz… Dit betekent dat we door deze werkwijze niet meer de oorspronkelijke waarnemingen bedoelen, wij konden er immers niet voor kiezen, maar dat een nieuwe waarneming bedoeld is: een waarneming waarvoor we wel kunnen kiezen omdat ze gebeurt aan een eigenschap die al gerealiseerd is en in de tijd stabiel is.

We beschouwen dus een andere entiteit, namelijk een entiteit die bestaat uit de samenstelling van n meet-entiteiten, waarbij elke meetentiteit een andere onderscheiding toevoegde aan de entiteit met eigenschap Y. Dit is wat anders dan te beschikken over een entiteit met toestanden die elkaar uitsluiten. Deze nieuwe entiteit heeft een ongekend aantal eigenschappen, maar het aantal punten (eigenschappen) dat ontstaat op basis van de (niet gekende) onderscheidingen zal het kwadraat zijn van het aantal punten van een onderscheidingen universum met een onderscheiding minder. We gaan er nu blijkbaar van uit dat de som van de kwadraten van het aantal punten van een onderscheidingen universum met een onderscheiding minder van de meetentiteiten gelijk is aan het kwadraat van het aantal punten van een onderscheidingen universum met een onderscheiding minder van de nieuwe entiteit.

Voorbeeld: laat de oorspronkelijke waarneming de productie zijn van een stuk s met onder andere een eigenschap e1, dan vervangen we deze oorspronkelijke waarneming door de meting van slechts eigenschap e1 van een aantal geproduceerde stukken s. Door het warren van de stukken s (dit betekent dat we de waarneming aselect uitvoeren) worden de andere eigenschappen van de oorspronkelijke waarneming, die we dan oncontroleerbare variaties noemen, waarvoor we niet kunnen kiezen, die niet stabiel in de tijd zijn, zonder voorkeur toegewezen aan de stukken die eigenschap e1 bezitten (die we dus wel kunnen kiezen). Hierdoor proberen we de eigenschappen die ons interesseren ‘stochastisch onafhankelijk’ te maken. De verschillen (onderscheidingen) die we dan vaststellen bij eigenschap e1 worden dan niet meer verklaard door een eigenschap (onderscheiding) e2 (die we zouden kunnen zoeken, waarvoor we zouden kunnen kiezen, bijvoorbeeld in een andere meetopstelling) maar door onderscheidingen die enkel relevant zijn voor e1, dus onderscheidingen die simultaan gerealiseerd worden als e1 gerealiseerd wordt, die dus deel uitmaken van de structuur van e1. Alle andere mogelijke onderscheidingen die dan ruimer zijn dan e1 sluiten elkaar ook uit, we kunnen er immers niet voor kiezen.

Indien nu de structuur van e1 reeds door v onderscheidingen beschreven wordt dan voegen we één onderscheiding toe, namelijk e1, de onderscheiding die aan de basis ligt van de eigenschap die we nu willen meten. Het onderscheidingen universum dat ons interesseert heeft nu v+1 onderscheidingen. De verschillen (onderscheidingen) die we vaststellen maken nu effectief het bedoelde verschil uit.

Het aantal punten in het v+1 onderscheidingen universum ten opzichte van het aantal punten in het v onderscheidingen universum is v2. Het kleinst mogelijke bijkomend verschil leidt tot een kwadrateren van het aantal punten in het universum. Het universum verantwoordelijk voor het ontstaan van de eerste meting van e1 sluit het universum verantwoordelijk voor het ontstaan van de tweede meting van e1 uit. We gaan er nu van uit dat E(z) = m in een onderscheidingen universum gedefinieerd is dat bestaat uit een som van de onderscheidingen die we reeds hebben. We willen zeker niet nog meer onderscheidingen toevoegen. We zoeken dus een onderscheidingsreferentiepunt m zodanig dat Σ(yi – m)2 minimaal is voor i van 1 tot n. Deze nieuwe meting (schatter) wordt de kleinste kwadraten schatter genoemd voorgesteld als z (of Y, komend van de notatie van het gemiddelde van de steekproef) en E(z) = E(Y) = m. Hierbij wordt m geschat door een waarde m zodanig dat de som van de kwadraten van de afwijkingen van yi ten opzichte van m, voor de gekozen n stukken minimaal is.

De betrouwbaarheid van deze uitspraak is nu ook te kwantificeren omdat de variabele nu n is en n optreedt in de spreiding van de nieuwe stochastische variabele.

We kunnen dan ook gaan spreken van een variantie voor deze n stukken, door ervan uit te gaan dat we de som van de kwadraten nog moeten delen door het aantal onderscheidingen die door de meting (waarneming) zelf gegenereerd worden, dit is n-1 (een onderscheiding is immers altijd een onderscheiding tussen minimaal 2 punten). Dit is mogelijk omdat we nu zeker zijn dat de waarnemingen elkaar uitsluiten.

Y = m +s.u met u standaardnormale kansvariabele. Te bewijzen: de vermenigvuldiging is verantwoord doordat de onderscheidingen (verschillen, vandaar spreiding) elkaar uitsluiten.

x kan veralgemeend worden naar een functie die dan aan “een verwachting” aanleiding geeft.

Te onderzoeken: m is ook gedefinieerd als een som van vermenigvuldigingen: m = Σxp(x), som over x.

Gauss curve

De Gauss curve drukt eigenlijk de toename uit van het aantal punten van een niveau naar het centrale niveau toe in gelijk welk tralie. Is een limietgeval van veel andere verdelingen, bijvoorbeeld binomiaal. Binomiaal: de kans om in een aselecte steekproef van n stuks uit een populatie waarin een fractie p der elementen een zekere eigenschap bezit, precies x van deze elementen aan te treffen. Vermoedelijk wordt hier een deeltralie gesampled met als infimum de waargenomen eigenschap.

De Gauss curve wordt bekomen wanneer een afwijking van het gemiddelde in de ene zin even waarschijnlijk is dan een afwijking in de andere zin, en is daardoor de beschrijving van de verdeling van de sporen van een willekeurig proces.