Redezeit im Grossen Rat

Ziemlich tricky war die Ermittlung der Redezeiten von Politquerulant Eric Weber und anderen Plappermäulern im Basler Kantonsparlament. Unter http://protokolle.grosserrat-basel.ch/ sind zwar alle Wortmeldungen als mp3-Files abgelegt, die Indizierung brachte aber einiges an Arbeit mit sich. Ich habe es folgendermassen gelöst (ein php-Wordpress-Template):

loop durch die Startseite, jeder Link wird gescraped (als /script/tocTab.js, eine Javascript-Datei)

Jede Linie des Files wird nach dem Namen durchsucht, wenn gefunden, wird eine URL auf die mp3-Datei im Browser ausgegeben.

Diese URLs habe ich dann in jdownloader kopiert und in ein Verzeichnis heruntergeladen. Als Wiedergabeliste in einem Audio-Player ergibt sich dann die jeweilige Total-Dauer. Um alle Files in ein einziges mp3 zusammenzufassen, wie ich es für Weber gemacht habe, war das Tool mp3wrap von grosser Hilfe. Per Eingabeaufforderung akzeptiert dieses Tool bis zu 100 mp3-Filenamen (erstellt aus der ursprünglichen Link-Liste und kopiert) und fügt diese zu einer einzelnen Datei zusammen.

Ein unerwartetes Problem bot sich beim Hochladen des Mega-MP3 (17 Stunden, 900 Megabytes): Soundcloud akzeptierte das File auch im Pro-Account, sodass nur eine Einbindung via FTP und HTML blieb – so wie hier:

<audio controls>
 <source src="http://www.samuelhufschmid.ch/weber_MP3WRAP.mp3" type="audio/mpeg">
Your browser does not support the audio element.
</audio>

Autor: Samuel Hufschmid

Jounalist bei bz Basel, Papi, Organisator Swiss Kubb Open, mit Interesse an Datenjournalismus.

Kommentar verfassen