Weerwoord | Tussenstand analyse na 14 dagen

Mijn project loopt nu 14 dagen en heeft al erg interessante resultaten geleverd. Als mensen de gehele opzet van dit onderzoek willen zien dan is dat te lezen in het originele bericht van deze draad. De formules die ik gebruik bestaan uit de volgende onderdelen:

TX = A1*LSS + A2*NNLS + A3*SB

A1, A2, A3 zijn vaste constanten die zijn berekend door middel van een non-negative least squares solution van de componenten LSS, NNLS en SB. LSS is de temperatuur berekend door een least squares solution van de 6 gebruikte modellen (WRF, COSMO, HIRLAM, HARMONIE, AROME, ALARO). NNLS is hetzelfde, maar dan gebruik makend van een non-negative least squares solution direct op de modellen. SB maakt gebruik van de spreiding en bias van modellen en is verder toegelicht in het originele bericht. De huidige waarden van de constanten zijn, A1 = 0.00, A2 = 0.402, A3 = 0.596. Duidelijk is te zien dat de standaard least squares solution eigenlijk verworpen wordt. Dit lijkt me persoonlijk logisch, aangezien deze methode ook negatieve gewichten gebruikt, wat zou inhouden dat weermodellen het tegenovergestelde aangeven van de werkelijkheid. Ik mag hopen dat weermodellen in het echt niet zo slecht zijn (en deze analyse bevestigd ook dat dit niet het geval is). Alle overige gewichten om LSS, NNLS en SB respectievelijk te berekenen:

Model	LSS	NNLS	SB weight De Bilt	SB Bias De Bilt	SB weight NL	SB Bias NL
WRF	-0.1852	0.0000	0.1477	-2.0929	0.1433	-3.5929
COSMO	0.1000	0.1815	0.1385	0.4071	0.2225	0.6214
HIRLAM	0.1307	0.0812	0.1266	-0.3071	0.1427	-1.0214
HARMONIE	0.0327	0.0000	0.1056	-0.5214	0.0926	-1.0214
AROME	0.5196	0.4012	0.2397	-0.5929	0.2182	-0.8786
ALARO	0.3943	0.3413	0.2420	0.6214	0.1806	0.1214

SB bestaat zowel uit gewichten en een bias voor De Bilt en Nederland (nogmaals, originele bericht bevat meer informatie). Er wordt dagelijks nog een beetje geschoven in de gewichten, vooral bij AROME en ALARO (en soms ook COSMO), maar daar het om verschuivingen rond de 0.01 per dag in de grote constanten A1, A2 en A3. In grote lijnen is het combinatiemodel de afgelopen dagen redelijk stabiel gebleven. Hoe scoren de modellen tot nu toe? Er zijn 2 manieren om dit vast te stellen. Je kan gebruik maken van het huidige model om alle vorige dagen te berekenen (dus achteraf) of je kan gebruik maken van de werkelijke verwachtingen die ik een dag van tevoren maakte, dus de echte prestaties van het model. Het is een beetje de theoretisch vs. praktijk performance. Eerst de theoretische 'achteraf' performance. In de rijen met de '3' erachter is het meetpunt 3 augustus verwijderd. Vanwege lokale zware regen kwam de verwachting toen een stuk anders uit. Natuurlijk geen excuus, maar deze rijen geven beter de prestaties weer als we kijken naar standaard zonnige dagen.

Performance type	Bias DB	Standard deviation DB	Bias NL	Standard deviation NL
Theoretisch (achteraf)	+0.018	0.321	-0.104	0.456
Praktijk (vooraf)	-0.029	0.287	0.157	0.532
Theoretisch-3	-0.015	0.310	-0.194	0.318
Praktijk-3	-0.117	0.183	-0.017	0.293

Ik bombardeer dit bericht eigenlijk met getallen, dus wat betekent dit allemaal? Ten eerste is het belangrijk dat de standard deviation bij zowel de praktijk als de theoretisch ongeveer gelijk is. Voor De Bilt is het zelfs nog een stuk lager bij Praktijk-3, maar de sample size van 14 is nu nog iets te klein om daar definitieve conclusies over te trekken. Wat wel duidelijk is, is dat het model nu in een redelijk 'stabiele fase' zit. Aangezien theorie hetzelfde scoort in praktijk zitten we nu niet meer in de situatie dat we de Tmax goed verwachten 'omdat we zoveel constanten te kiezen hebben dat je elke random set van getallen wel kan benaderen'. Het model laat nu ook in de praktijk zien te werken voor het berekenen van de Tmax van morgen. Maar is dit combinatiemodel dan ook echt beter dan de andere modellen? Om dit te beantwoorden hieronder een tabel met de bias en standard deviations van de 6 modellen (laatste tabel, ik beloof het). De bias stond ook al in tabel 1, maar herhaal ik nu om het iets overzichtelijk in één tabel te hebben. Voor de rijen 'combinatiemodel' heb ik theoretisch en theoretisch-3 genomen.

Model	Bias DB	STDEV DB	Bias NL	STDEV NL
WRF	-2.0929	0.945	0.965	1.209
COSMO	0.4071	1.008	0.622	0.829
HIRLAM	-0.3071	1.103	0.970	1.082
HARMONIE36	-0.5214	1.322	1.494	1.408
AROME	-0.5929	0.582	0.634	0.615
ALARO	0.6214	0.577	0.766	0.766
Combinatiemodel	0.018	0.321	-0.104	0.532
Combinatiemodel-3	-0.015	0.310	-0.194	0.318

Dit laat duidelijk zien dat het combinatiemodel significant beter presteert dan de individuele modellen. De bias is vrijwel volledig verdwenen voor De Bilt. Bij Nederland is deze wel iets groter (-0.104 en -0.194), maar ook significant kleiner dan de individuele modellen. Het combinatiemodel kan dus nog verder worden verbeterd door ze te verschuiven met de aangegeven bias, maar ik wacht nog even met het aanbrengen van nog een 'shell' of laag aan het combinatiemodel tot het einde van mijn onderzoek. Belangrijker is de standard deviation. Voor De Bilt is de spreiding (=standard deviation) met 44% afgenomen tov het best scorende model en zelfs met 71% tov het HIRLAM model van KNMI. Voor Nederland is de spreiding met 14% - 48% (afhankelijk van of je het normale combinatiemodel of combinatiemodel-3 gebruikt) afgenomen tov het best scorende model en met 51% - 71% tov van het HIRLAM model van KNMI. Hoewel het onderzoek nog loopt, is deze tussenstand hoopvol en lijkt aan te tonen dat het combinatiemodel significant beter is dan elk individueel model om de Tx te berekenen. Ik zal het onderzoek dagen latenopen (aangezien ik daarna minder tijd heb), dus we zijn bijna halverwege. Een laatste opmerking is dat, net als eerder kleiner onderzoek al leek aan te tonen), AROME en ALARO de best scorende modellen zijn qua Tx, gevolgd door COSMO.

Tussenstand analyse na 14 dagen

Fijnmazige modellen: 7-daagse analyse ( 1469)

Welke Harmonie gebruik je? ( 544)

Harmonie36 ( 596)

Zeer interessant onderzoek ( 654)

Re: Zeer interessant onderzoek ( 576)

Re: Zeer interessant onderzoek ( 535)

Tussenstand analyse na 14 dagen ( 613)