Spörtle
We are trying to learn more about the other side of the sport interest spectrum - the least popular (but notherless much loved) sports of Switzerland. Right now we have converted a bunch of PDFs into tabular data, and are trying to make sense of statistics from 2004-2012 about 64 sports supported by the Swiss Youth Sport organization.
Demo: open-spoertli
Data
Aus den Jahresstatistiken der Angebotsförderung des BASPO's haben wir die unsere Daten extrahiert. Dabei haben wir uns aus Zeitgründen nur auf Nutzergruppe 1 konzentriert.
Die Extraktion der Daten als CSV aus den PDF-Daten wurde mit Hilfe von Tabula erledigt. Die nun auf Jahresbasis vorliegenden Daten (2004-2012) mussten im nächsten Schritt zusammen gefasst werden in einem gemeinsamen Dataset. Dies gestaltete sich nicht ganz einfach, da sich die Datensets zwischen den Jahren verändert haben. Zudem zeigte sich, dass sich Sportarten-Namen über den Lauf der Zeit verändert haben oder eine andere Schreibweise verwendet worden ist.
Diese kleineren Fehler wurden mit Hilfe des Tools Google Refine korrigiert. Die Daten wurden zudem noch manuell angereichert mit der Sportartengruppe, deren Grundlage der Jahresbericht 2007 war.
Team
Links
<GITHUB loleg/open-spoertli>
- Tabula for extracting tables from PDF
- LibreOffice and OpenRefine were used to aggregate the data