TIME-SERIES PREDICTION OF A WASTE WATER TREATMENT PLANT

- A CASE STUDY IN DATA ANALYSIS USING SUPPORT VECTOR MACHINES

MASTER'S THESIS, COMPUTER SCIENCE

AUTHOR: NIKLAS COLLIN

ABSTRACT

This thesis concerns a time-series prediction problem on a waste water treatment plant in Barcelona, Spain. Using a fairly new method called Support Vector Machines (SVM), the problem was to find a model to predict the output of solids at sample day t+1, where samples are obtained each day. The problem was defined as a two class problem where one class signifies normal operating conditions and the other an excess in the output. The goal was to find the single best SVM model during the time available.

This problem needed considerably more time than was available during the project. The most serious factors in affecting performance negatively were unknown important input variables, access to only a year's worth of data and missing values.

The final model identified 73% of the excess cases in an independent test data set, previously unseen, which contained only 6% of these cases. However, due to false alarms, only 50% of the predictions actually came true. The results were thus encouraging but inconclusive.

This thesis will serve the reader best as a data analysis case study. The methods employed herein could prove to be a useful addition to the reader's own toolbox. These include:

TIDSSERIEPROGNOS AV ETT VATTENRENINGSVERK

- EN EXEMPELSTUDIE I DATAANALYS MED SUPPORTVEKTORMASKINER

EXAMENSARBETESRAPPORT, DATALOGI

FÖRFATTARE: NIKLAS COLLIN

SAMMANFATTNING

Detta examensarbete behandlar ett tidsserieprognosproblem av ett vattenreningsverk i Barcelona, Spanien. Projektet gick ut på att hitta en modell för att förutspå utsläppsmängd vid avläsningsdag t+1, då avläsningar gjordes dagligen, genom användandet av en relativt ny metod kallad "Support Vector Machines" (SVM). Problemet definierades som ett tvåklassproblem där ena klassen representerade normalt tillstånd och den andra ett gränsvärdesöverskridande utsläpp. Målet var att finna bästa möjliga SVM-modell under tillgänglig tid.

Detta var ett svårt problem som skulle kräva långt mer tid än vad som var tillgängligt under projektet. De störst bidragande faktorerna till svårigheter var avsaknad av viktiga indatavariabler, tillgång till endast ett års data och saknade mätvärden i datat.

Den slutgiltiga modellen lyckades identifiera 73% av gränsöverskridande fall i en oberoende, ej tidigare använd, testdatamängd i vilken endast 6% av sådana fall existerade. Trots detta, på grund av falsklarm, överensstämde bara 50% av förutsägelserna med verkligheten. Resultaten var således uppmuntrande men otillräckliga i praktiken.

Denna rapport bistår läsaren på bästa sätt i form av en exempelstudie. Metoderna som används häri skulle kunna bli ett värdefullt tillskott till läsarens verktyglåda. Dessa inkluderar bland annat: