TIME-SERIES PREDICTION OF A WASTE WATER TREATMENT PLANT
- A CASE STUDY IN DATA ANALYSIS
USING SUPPORT VECTOR MACHINES
MASTER'S THESIS, COMPUTER SCIENCE
AUTHOR: NIKLAS COLLIN
ABSTRACT
This thesis concerns a time-series prediction problem on a waste water treatment plant in Barcelona, Spain. Using a fairly new method called Support Vector Machines (SVM), the problem was to find a model to predict the output of solids at sample day t+1, where samples are obtained each day. The problem was defined as a two class problem where one class signifies normal operating conditions and the other an excess in the output. The goal was to find the single best SVM model during the time available.
This problem needed considerably more time than was available during the project. The most serious factors in affecting performance negatively were unknown important input variables, access to only a year's worth of data and missing values.
The final model identified 73% of the excess cases in an independent test data set, previously unseen, which contained only 6% of these cases. However, due to false alarms, only 50% of the predictions actually came true. The results were thus encouraging but inconclusive.
This thesis will serve the reader best as a data analysis case study. The methods employed herein could prove to be a useful addition to the reader's own toolbox. These include:
- Data pre-processing by
- Missing value interpolation
- Normalization
- Adaptation of time series data by time windowing
- Data partitioning into training and test data sets for reliable performance analysis
- Feature selection by
- Principal Component Analysis (PCA)
- RELIEF algorithm
- SVM model selection thorugh
- Parameter optimization
- Kernel selection
- Performance measurement by leave-one-out cross validation
TIDSSERIEPROGNOS AV ETT VATTENRENINGSVERK
- EN EXEMPELSTUDIE I DATAANALYS MED SUPPORTVEKTORMASKINER
EXAMENSARBETESRAPPORT, DATALOGI
FÖRFATTARE: NIKLAS COLLIN
SAMMANFATTNING
Detta examensarbete behandlar ett tidsserieprognosproblem av ett vattenreningsverk i Barcelona, Spanien. Projektet gick ut på att hitta en modell för att förutspå utsläppsmängd vid avläsningsdag t+1, då avläsningar gjordes dagligen, genom användandet av en relativt ny metod kallad "Support Vector Machines" (SVM). Problemet definierades som ett tvåklassproblem där ena klassen representerade normalt tillstånd och den andra ett gränsvärdesöverskridande utsläpp. Målet var att finna bästa möjliga SVM-modell under tillgänglig tid.
Detta var ett svårt problem som skulle kräva långt mer tid än vad som var tillgängligt under projektet. De störst bidragande faktorerna till svårigheter var avsaknad av viktiga indatavariabler, tillgång till endast ett års data och saknade mätvärden i datat.
Den slutgiltiga modellen lyckades identifiera 73% av gränsöverskridande fall i en oberoende, ej tidigare använd, testdatamängd i vilken endast 6% av sådana fall existerade. Trots detta, på grund av falsklarm, överensstämde bara 50% av förutsägelserna med verkligheten. Resultaten var således uppmuntrande men otillräckliga i praktiken.
Denna rapport bistår läsaren på bästa sätt i form av en exempelstudie. Metoderna som används häri skulle kunna bli ett värdefullt tillskott till läsarens verktyglåda. Dessa inkluderar bland annat:
- Dataförbehandling genom
- Interpolation av saknade mätvärden
- Normalisering
- Anpassning av tidsseriedata genom tidsfönsterpartitionering
- Datapartitionering i tränings- och testdatamängd för pålitlig prestandaanalys
- Variabelanalys via
- Principalkomponenten
- RELIEF-algoritmen
- Val av SVM-modell genom
- Parameteroptimisering
- Utvärdering av kernel
- Prestandautvärdering via &cit;leave-one-out cross validation&cit;