Ik wil eigenlijk niet dat een heet cluster dagen uit dezelfde hittegolf zichtbaar zijn in deze grafiek, dus daarom neem ik de warmste dag uit een periode van 7 dagen. Zoals ik in mijn eerste post uitgelegd heb is dit niet waterdicht (ik zou misschien het beste op basis van anomalieën kunnen werken), maar dit was een redelijk snelle tussenoplossing. Wat je nu dus krijgt is dat 10 en 13 augustus niet in dezelfde periode vallen in mijn script en er allebei als warmste van een 7-daagse periode uitgevist worden. Waarschijnlijk vallen 11 en 12 augustus in de periode samen met 13 augustus waardoor alleen 13 augustus eruit gevist wordt. Niet ideaal, maar voor mijn hobbyprojectje op weerwoord vind ik dat wel prima .
Duidelijk, ik zat er gisteren zelf ook mee te stoeien, vandaar de vraag. Ik kon zo snel geen elegant algoritme vinden of verzinnen. Uiteindelijk heb ik het maar redelijk "brute force" gedaan.
Wat helpt is na het lopend gemiddelde enkel de lokale maxima gebruiken, dat is efficient uit te rekenen en wordt het restant een stuk behapbaarder van. Voor De Bilt ging het daarmee van iets van 40k naar 5k dagen.
Vanaf daar heb ik alles gesorteerd naar maxima, en dan beginnend bij hoogste per periode alles weggegooid wat overlapt maar niet het maximum zelf is. Dat laatste is een enorme veel op veel berekening, weinig charmant. Het duurt op mijn PC nog geen minuut voor een station, maar het moet vast eleganter kunnen.
Quote selectie