In wat volgt zullen we de informatietheorie afleiden uit het ene axioma van het haakformalisme.
De meeteenheid in de informatietheorie is de bit. Eén bit komt overeen met het maken van één keuze zonder a priori tussen alternatieven die elkaar uitsluiten (die niet simultaan kunnen voorkomen, waarvan de conjunctie dus de waarde <<>> heeft). De bit wordt inderdaad ook conventioneel geïnterpreteerd als de onzekerheid over één van twee elkaar uitsluitende keuzemogelijkheden “die even waarschijnlijk zijn”. De definitie vanuit waarschijnlijkheden hebben we niet nodig in het haakformalisme. Twee even waarschijnlijke alternatieven modelleren we door de onvermijdelijke beslissing dat een agens moet kiezen tussen a versus <a>. Eén bit genereert het een-onderscheiding universum, zowel a als <a> bevinden zich op identieke metrische afstand van a<a> en <a<a>>, en dit is de eenheidsafstand. Zo'n a versus <a> is een onderscheiding of een minimaal spoor dat we altijd kunnen veronderstellen. Het ervaren van een van beide “zijden” van de onderscheiding is niet meer waarschijnlijk dan het ervaren van de andere. We hebben inderdaad een telbare werkelijkheid kunnen afleiden uit de inbedding symmetrie. De informatietheorie wordt afgeleid in het haakformalisme op exact dezelfde manier waarop het begrip “waarschijnlijkheid” is afgeleid. Als waarschijnlijkheid nemen we de Bayesiaanse die inderdaad uit het ene axioma van het haakformalisme afgeleid werd en waarbij ook aangetoond werd dat de frequentistische waarschijnlijkheid daaruit kan afgeleid worden door de extra veronderstelling van een vastliggend onderscheidingen universum.
Informatie (I) wordt in de informatietheorie beschouwd als een verschil van entropie (een getal gemeten in bits) voor en na een gebeurtenis of transformatie en is dus ook een getal. We moeten dus ook het begrip “entropie” afleiden.
Laten we daarom met willekeurige onderscheidingen een potentiële tralie opspannen. We nemen willekeurige onderscheidingen omdat we niet a priori willen veronderstellen dat al de opgespannen punten ofwel ervaarbaar, ofwel “gebeurbaar” zijn, hoe dan ook is een opgespannen werkelijkheid een “indien... dan...” constructie, of dat nu ervaarbaar is of niet. Ruimer dan het centraal niveau van die tralie van die opgespannen werkelijkheid, het niveau waar onderscheidingen geïntroduceerd worden, zijn er van niveau tot niveau minder te kiezen punten, tot het uiterste niveau bereikt is waar een minimaal aantal punten kan gekozen worden of kan gebeuren, namelijk 2n (met n het aantal onderscheidingen). Hoewel we altijd een uiterste punt (ten opzichte van het niveau waarin onderscheidingen gecreëerd worden en dus “relatief uiterst”) kunnen vinden dat te kiezen is om te ervaren (we ervaren immers altijd iets), toch is het niet a priori zo dat we met de constructie van de potentiële tralie met willekeurige onderscheidingen een ervaarbaar (of gebeurbaar) atomair niveau bereikt hebben met 2n punten. Inderdaad: doordat we willekeurige onderscheidingen genomen hebben om de werkelijkheid op te spannen is het niet a priori zeker dat sommige conjuncties ervaarbaar zijn (en dus de inbedding hiervan, die een disjunctie is, “gebeurbaar” is). Het niveau dat we wel bereiken om ervaarbare punten te kiezen bestaat uit punten die elkaar uitsluiten, het is onmogelijk een punt te vinden dat bij het ervaren ervan meerdere “relatief uiterste” punten simultaan ervaren maakt. De 2n punten die we atomen van de opgespannen werkelijkheid noemen zijn hoe dan ook symbolen waarmee men op een correcte manier elkaar uitsluitende gebeurtenissen kan labelen gegeven het vast liggend aantal onderscheidingen van de opgespannen tralie. Indien we een van deze atomen zouden kunnen kiezen dan collapst de hele tralie tot één punt dat ervaren is waarbij zijn inbedding gebeurt. In elke opgespannen tralie is er een minimaal aantal 2n te vinden waarvan we altijd kunnen veronderstellen dat ze unieke labels zijn (het begrip tijd, het begrip positie). Eén label zal altijd meerdere gebeurtenissen labelen: namelijk die gebeurtenissen waarbij minstens een van de onderscheidingen die het label opbouwen als irrelevant kan beschouwd worden. Zo'n onderscheiding hebben we een spoor genoemd. Maar het is ook duidelijk dat meerdere onderscheidingen als irrelevant kunnen beschouwd worden als de “relatief uiterste” keuzevrijheid zich niet op atomair niveau bevindt. De traliestructuur zullen we dus terugvinden in de relatie van simultaneïteit tussen de sporen. Indien er N atomen niet kunnen gekozen worden dan kunnen ze enkel gebeuren en aangezien ze niet simultaan kunnen gebeuren betekent dit dat ze even waarschijnlijk zijn. Daarom is een goede maat om iets te kwantificeren in een a priori onbekende opgespannen werkelijkheid om te starten met de log2 te nemen van dat aantal even waarschijnlijke (willekeurige) alternatieven die niet simultaan kunnen optreden en sporen achterlaten wanneer de gebeurtenis E waargenomen wordt. Deze maat geven we de naam H(E) en noemen we de entropie van de gebeurtenis E. De entropie is dus altijd gebonden aan een tralie en H(E) = log2N (met N het aantal even waarschijnlijke alternatieven). Zijn er N even waarschijnlijke atomen dan is de waarschijnlijk voor één atoom, wat we p noemen gelijk aan N-1. Dus H(E) = -log2p. Met enkel twee even waarschijnlijke alternatieven voor een gebeurtenis E is de entropie gelijk aan 1 (immers log2(2) = 1, of -log2(2-1) = 1). Een concreet voorbeeld wordt gegeven door een één onderscheiding universum met a als onderscheiding, is E niet verschillend van <> dan kan een a simultaan zijn met E maar ook <a>. In een twee onderscheidingen universum zijn er vier bits en dus minimaal vier mogelijke toestanden die elkaar uitsluiten: 1110, 1101, 1011 en 0111. Merk op dat er nog meerdere zijn: bijvoorbeeld 1110 en 1001 sluiten elkaar ook uit. Om 1110 uit te drukken zijn twee onderscheidingen nodig, om 1001 uit te drukken is maar één onderscheiding nodig. We kunnen ons dus voorstellen dat sporen die afgescheiden worden een structuur vertonen die door een tralie gegenereerd wordt. Is er geen onzekerheid in welke gebeurtenis de opgespannen werkelijkheid zich bevindt dan is er maar 1 mogelijkheid want de tralie is naar één waarde gecollapst en log2(1) = 0 (bijvoorbeeld als de opgespannen werkelijkheid zich in gebeurtenis a<a> bevindt). Stel dat een opgespannen werkelijkheid zich uitsluitend ofwel in een zekere gebeurtenis, ofwel in een gebeurtenis kan bevinden in één van N elkaar uitsluitende toestanden (die noemen we dan AND-atomen van een tralie die eventueel niet te kiezen zijn) dan is de entropie gelijk aan het aantal AND- (of OR-) atomen die de relevante tralie opspannen, tralie die de toestanden genereert als atomen, toestanden die niet simultaan kunnen optreden. We beschikken hiermee dus over een maat: een aantal atomen. Deze maat is onafhankelijk van hoe de onderscheidingen geïnterpreteerd zullen worden en is goed gedefinieerd of we nu tussenliggende gebeurtenissen tussen deze uiterste toestanden een naam kunnen geven of niet. Als we wel de tussenliggende gebeurtenissen kunnen opspannen die we dus niet kunnen kiezen maar waarvoor we een verwachting kunnen hebben (ze zijn “gebeurbaar”) dan hebben we hiervoor de techniek van de waarschijnlijkheidsleer in het haakformalisme vertaald.
Informatie (I) wordt in de informatietheorie beschouwd als een verschil van entropie van een gebeurtenis E (een getal) voor en na die gebeurtenis of transformatie en is dus ook een getal. Informatie is de vermindering van onzekerheid van de toestand waarin de opgespannen werkelijkheid zich bevindt door een actie (waarin dus iets gekozen wordt en ook iets anders gebeurt). In het haakformalisme is een actie een transformatie die een waarde krijgt waarbij simultaan de ingebedde transformatie de ingebedde waarde krijgt. Die actie wordt in de informatietheorie informatieoverdracht genoemd en de begintoestand en eindtoestand van de informatieoverdracht wordt door een getal gekarakteriseerd: I(E) = H(E)voor - H(E)na. Indien enkel de entropie H(E)na nul is, dan is de informatie gelijk aan de oorspronkelijke entropie (onzekerheid) en is er dus geen informatieoverdracht geweest. Indien de entropie H(E)voor bij de informatieoverdracht nul is dan hadden we volledige zekerheid over de toestand van de opgespannen werkelijkheid. Is H(E)voor bij de informatieoverdracht nul en H(E)na positief dan bevindt de opgespannen werkelijkheid zich dus in verschillende mogelijke toestanden zonder dat we een van die toestanden met zekerheid kennen. Dan is de resulterende informatie na de informatieoverdracht negatief: we zijn informatie verloren op een manier die kwantitatief samenhangt met het aantal onderscheidingen van de werkelijkheid die we dan moeten opspannen om die informatie te beschrijven.
Op deze manier gedefinieerd is de entropie dus een maat voor de onzekerheid aangaande de toestand van de opgespannen werkelijkheid: hoe groter de entropie, hoe meer mogelijke atomen en hoe meer onderscheidingen we zouden moeten creëren om die atomaire toestanden te kunnen beschrijven op een relevante manier, dus hoe minder we (reeds of nog maar) weten over de toestand waarin de opgespannen werkelijkheid zich bevindt omdat de (reeds) beschikbare als relevant veronderstelde onderscheidingen niet onderscheidend genoeg zijn (of niet onderscheidend genoeg meer zijn).
De entropie van een gebeurtenis is een getal en zoals we dat afgeleid hebben uit het ene axioma moet dat getal een maximaal getal zijn: het is de maximale onzekerheid over de toestand waarin een gebeurtenis zich bevindt. Dit komt perfect overeen met de intuïtie dat men meer informatie kan doorgeven als men over meer relevante onderscheidingen beschikt, inderdaad kan men met de uitkomsten van het aantal ogen op een dobbelsteen 6 verschillende situaties modelleren en met de uitkomsten van de zijden van een muntstuk slechts twee. Door de afbeelding van het haakformalisme in een binair formalisme wordt deze overeenkomst dus maximaal ingezet. H(E) = log2N is aan de onderzijde begrensd door 0 en is begrensd naar boven door het maximaal aantal onderscheidingen dat nodig is om een toestand uniek te maken. Dat binair getal zou dus de realisatie kunnen zijn van een getalfunctie (indien... dan... constructie) en de hypothese is denkbaar dat de getallen als realisatie van een functie kunnen beschreven worden.
We kunnen met behulp van het inzicht in de entropie van één gebeurtenis proberen de dynamiek van een veranderende opgespannen werkelijkheid te beschrijven waarin onderscheidingen relevant worden, irrelevant worden en deels onveranderd blijven. We spreken hier van relevantie omdat dit de grond is om de waarschijnlijkheden in het haakformalisme te modelleren. We spreken van dynamiek omdat elke informatieoverdracht de prior opgespannen werkelijkheid kan veranderen en dat is de reden waarom de Baysiaanse waarschijnlijk zo gemakkelijk uit het haakformalisme afgeleid wordt.
Als de waarschijnlijkheid van een toestand (van een k aantal toestanden) 1 is (de toestand is ervaren) en van alle andere toestanden 0 dan is de zekerheid maximaal en de entropie H = 0 (want log21=0). We ervaren dan een punt, en we kunnen altijd veronderstellen dat zich dat op AND-atoom niveau in een tralie bevindt (want nog andere punten met dezelfde karakteristiek zouden mogelijk geweest zijn maar zijn nu uitgesloten). Stel dat we een punt op atoombuur niveau ervaren in dezelfde tralie dan betekent dat dat de waarschijnlijkheid dat een van de toestanden op atoomniveau gebeurd is 2-1 en uiteraard de waarschijnlijkheid dat de atoombuur ervaren wordt 1. We veronderstellen nu dat een toestand op atoomniveau enkel maar kan gebeuren en niet kan ervaren worden (die toestand krijgt dan waarde <<>>, en <<>> impliceert simultaan <>, de inbedding van het AND-atoom is dan onvermijdelijk ervaren en dat is een OR-atoom). Dit is de meest algemene veronderstelling en de reden waarom we kunnen spreken van een atoombuur niveau.
Op nog een niveau lager dan het AND-atoom niveau in dezelfde tralie zijn er al drie bits betrokken en de elkaar uitsluitende toestanden zijn nu als volgt te coderen, waarbij de manier van noteren aanduidt dat er bijkomende structuur te vinden is: {110, 101, 011}, {001, 110}, {010, 101}, {100, 011}, {110, {001, 101, 011}}, {101, {010, 110, 011}}, {011, {100, 110, 101}}. Met de notering {110, {001, 101, 011}} drukken we uit dat elk van de drie elementen van {001, 101, 011} het punt 110 uitsluit, maar dat de punten binnen {001, 101, 011} elkaar niet uitsluiten: er is structuur te vinden: 101 realiseert 001 en 011 realiseert eveneens 001. Enkel bij {110, 101, 011} is er een maximaal aantal elkaar uitsluitende toestanden, en de waarschijnlijkheid van waarnemen is dan 3-1, dit niveau bevindt zich op afstand 3-1=2 van het atoomniveau enz... Dit leidt tot de waarschijnlijkheid die overeenkomt met een ervaren gebeurtenis in één tralie, die we dus gemodelleerd hebben door een creatief product of een “XOR niet verschillend van OR” van AND-atomen. We hebben inderdaad al aangetoond dat het niveau verschil in een tralie een metrische maat is. Het onderzoek met drie bits is belangrijk omdat hiervoor twee onderscheidingen nodig zijn en geen van de twee kan weggelaten worden, het is pas vanaf vier bits dat er een één onderscheiding deelstructuur te modelleren valt.
Dit voorbeeld leidt als volgt tot het modelleren van de entropie van een dynamiek: dynamiek kan gemodelleerd worden door van een ervaren gebeurtenis (collaps naar deeltralie1) die E realiseert over te gaan naar een ervaren gebeurtenis (collaps naar deeltralie2) die E realiseert naar... naar een ervaren gebeurtenis (collaps naar deeltraliei) die E realiseert. Merk op dat geen van die gebeurtenissen E karakteriseert, ze worden opgespannen door bijkomende onderscheidingen die niet ingebouwd worden in de onderscheidingen die E karakteriseren. Hierbij heeft elke potentiële gebeurtenis zijn waarschijnlijkheid (dus bijvoorbeeld 3-1), en dus een diepte in de totale tralie met enkel potentiële punten behalve <> en <<>>. Aangezien al de gebeurtenissen in een dynamisch proces elkaar uitsluiten kunnen we dit modelleren door een som te nemen van de entropie van elke gebeurtenis die E realiseert. Deze som is verantwoord doordat de XOR niet verschillend is van de OR. Dus, met N het aantal elkaar uitsluitende toestanden: H(E)totaal = Σi log2Ni . Hierin wordt de som genomen over de toestanden die deel uitmaken van de dynamiek en elkaar dus uitsluiten. Dus als we overgaan op waarschijnlijkheden wordt dit H(Etotaal) = -Σi(log2pi). Deze som wordt enkel langs een kant begrensd door 0, langs de andere kant niet. Nu zouden we willen dat de entropie H van een dynamiek, getal dat we kunnen construeren, zijn maximum zou bereiken als alle gebeurtenissen even waarschijnlijk zijn en dus de onzekerheid het grootst is zoals in het geval van de entropie van één gebeurtenis. Dit betekent dus dat een proces van toestand naar toestand op het niveau van ervaren gebeurtenissen doorlopen wordt waarbij een ongekend en onkenbaar aantal onderscheidingen irrelevant kunnen zijn. Dit kan bereikt worden door de volgende geconstrueerde relatie tussen getallen: H(EDynamiek) = -Σi(pi(log2pi)). Inderdaad, indien er met één onontkoombaar ervaren punt Ni mogelijke toestanden zijn (die elkaar uitsluiten) dan wordt de waarschijnlijkheid dat één van de toestanden optreedt gegeven door Ni-1. Als we even waarschijnlijke gebeurtenissen veronderstellen dan moeten alle getallen Ni aan elkaar gelijk zijn, stel dat dit N is. Dan wordt H(EDynamiek) = - . N . N-1. -. (log2N) = log2N. Dus dit getal H(EDynamiek) = -Σi(pi(log2pi)) nemen we als de definitie van entropie van een gekozen gebeurtenis E in een dynamiek. Hiermee zorgen we dat er altijd geldt dat 0≤H(EDynamiek)≤log2N met N het aantal elkaar uitsluitende toestanden waarmee we de opgespannen werkelijkheid van die dynamiek zouden kunnen karakteriseren op elk moment en waarvoor er onderscheidingen nodig zijn die E niet karakteriseren.
Hieruit volgt dat een proces dat toestanden doorloopt die niet allemaal even waarschijnlijk zijn, en dus in principe kunnen verwacht maar niet gekozen worden met een bepaalde nauwkeurigheid een entropie zal vertonen kleiner dan of gelijk aan log2N, met N een willekeurig aantal atomen van een willekeurig geconstrueerd universum.
De definitie van entropie wordt dus gereconstrueerd en betekenis gegeven in het haakformalisme onder de bijkomende voorwaarde van het doorlopen van (met andere woorden ervaren van, of laten gebeuren van) elkaar uitsluitende gebeurtenissen (zodanig dat een som van getallen verantwoord wordt) in één en dezelfde potentiële tralie waarin atomen enkel kunnen gebeuren, gebeurtenissen die elk staan voor een punt op een niveau in een tralie waarbij elke gebeurtenis mogelijkerwijze door een aantal AND-atomen gerealiseerd wordt, AND-atomen die ook enkel kunnen gebeuren en niet moeten kunnen gekozen worden (en waarbij dus het corresponderende OR-atoom gekozen wordt). Merk op dat het getal “entropie” afgeleid wordt uit het ene axioma van het haakformalisme vanuit een aantal zeer transparante veronderstellingen die culmineren in het veronderstellen van één maximale tralie met onderscheidingen waarvan de relevantie van moment tot moment kan veranderen. Inderdaad, informatie entropie is gebaseerd op een willekeurig gekozen aantal onderscheidingen. Informatie entropie kan zowel toenemen als afnemen, het relevant geachte universum kunnen we groter of kleiner kiezen. In spontane processen neemt de entropie toe gemeten met behulp van de onderscheidingen die relevant zijn voor het startuniversum, maar neemt de entropie af gemeten met behulp van de onderscheidingen die relevant zijn voor het einduniversum. Het haakformalisme heeft geen probleem met het geven van een operationele betekenis aan relevantie.
De constructie van de entropie kunnen we nu ook interpreteren als een “gemiddelde waarschijnlijkheid”. Dit begrip komt het gemakkelijkst met een voorbeeld tot zijn recht. Het antwoord op een binaire of "ja-nee" vraag (bijvoorbeeld: "Regent het?") geeft 1 bit informatie, tenminste in de veronderstelling dat de twee antwoorden dezelfde waarschijnlijkheid hebben. Je hebt dan maar één onderscheiding nodig om de tralie op te spannen. Wanneer de alternatieven niet even waarschijnlijk zijn, is de informatie overgedragen door een gebeurtenis i gegeven door: Hi= log2(1/pi ) met pi de waarschijnlijkheid van gebeurtenis i. Hoe onwaarschijnlijker het optreden van een gebeurtenis is, hoe meer informatie hiermee gegeven wordt. Veronderstel nu een dynamische werkelijkheid die van toestand tot toestand verandert, bijvoorbeeld de woestijn en dat je de vraag "Regent het nu?" stelt, dan is de kans op het antwoord "ja" zeer klein. In de meeste gevallen zal het antwoord "nee" alleen maar je verwachtingen bevestigen en dus amper enige informatie geven. Enkel in het uitzonderlijke geval dat het antwoord "ja" is, heb je echt relevante informatie gekregen. Onderstel P(nee) = 0,99 (d.w.z. 99% kans dat het niet regent, op 100 waarnemingen van de toestand waarin de woestijn zich bevindt is deze toestand 99 maal een toestand zonder regen), en dus P(ja)= 0,01, dan is: I = -0,99.(log20,99) -0,01. (log20,01) = 0,08 bit. Dit kan ook gezien worden als het gemiddelde (gewogen volgens de waarschijnlijkheid) van I(nee) = -log20,99 = 0,014, en I(ja)= -log20,01 = 6,64. I(nee) is dus veel kleiner dan I(ja), maar omdat "nee" veel meer voorkomt dan "ja" weegt het veel sterker door in de gemiddelde informatie die men krijgt. Hiermee kunnen we dus een “gemiddelde” waarschijnlijkheid interpreteren vanuit de dynamische entropie. Dus de entropie definitie is door zijn constructie eigenlijk een gewogen som, een gemiddelde: Hgemiddeld= Σ(pi(log2(1/pi))), gemiddelde over een aantal waarnemingen waar niet alleen energetische onderscheidingen relevant zijn omdat een waarneming ook energetisch moet mogelijk zijn, maar ook toevallig gecreëerde en gekozen categorieën als relevant beschouwd worden. De dynamische entropie heeft geen betekenis voor maar één waarneming, het is een potentiële maat: “indien ik... dan zou ik...”. Het antwoord op een vraag met meer dan 2 mogelijke antwoorden geeft je in het algemeen meer dan 1 bit informatie. Bijvoorbeeld als de mogelijkheden zijn "zonnig", "half-bewolkt", "bewolkt", "regen", en "sneeuw" en het waarnemingen zijn die elkaar uitsluiten met dezelfde waarschijnlijkheid, dan geeft het weerbericht log 5 = 2,3 bit informatie.