Tölfræði úr útvarpsþætti Breakbeat.is
Eftir að við settum saman árslistann okkar um síðustu helgi fór ég að spá hvort hann væri góð endurspeglun á því sem við höfum verið að spila undanfarið ár. Með itunes og last.fm er maður orðinn svo vanur því að hafa allskyns tölfræði við hendina en slík gögn eigum við ekki um Breakbeat.is eða um tónlist sem við spilum í hliðrænu formi í raunheimum almennt.
Mér datt þó í hug að hægt væri að vinna slík gögn úr lagalistunum sem við setjum á vefinn með upptökum af þáttunum í hverri viku. Lagalistarnir eru í textaformi en með tiltölulega staðlaðari uppsetningu, oftast nær höfum við þennan háttinn á:
Listamaður - lag (Útgáfufyrirtæki)
Þetta var því tilvalið til úrvinnslu með reglulegum segðum. Ég byrjaði á að setja div id="lagalisti" tögg í kringum lagalistana hverju sinni í vefumsjónarkerfinu okkar. Svo skrifaði ég html scraper sem tók inn html-ið af tónasvæðinu okkar og las inn textann sem var innan lagalista tagana. Úr þeim texta las ég svo úr listamannanöfnin, lagatitlana og nöfn útgáfufyrirtækjana og strippaði út html kóðan, númerin og fleira.
Loks skrifaði ég lítið fall sem greindi þessi gögn og taldi hversu oft hvert gildi kom fyrir. Útkomuna þurfti ég svo að snyrta lítillega til, samræma tvítalningar og laga frávik, áður en ég smellti því inn á töflureiknisskjal á Google skjölum.
Hér að neðan eru topp tíu listarnir úr þessum þrem flokkum en listana í heild sinni má skoða á hlekknum hér að ofan. Mér sýnist árslistinn vera í nokkuð góðu samhengi við þetta en annars er margt sem kemur á svolítið á óvart, til að mynda hversu sjaldan við erum í raun að spila sömu lögin og hversu mikið af döbbum við erum með.
1. Dub
2. Tempa
3. Hyperdub
4. Metalheadz
5/6. Critical
5/6. Hemlock
7. Swamp 81
8. Planet Mu
9. FreeP3
10. Hospital / Tectonic
1. Ramadanman
2. Skream
3. Untold
4. Hypno
5. Zomby
6. Instra:mental
7. Breakage
8. Calibre
9. Ilo
10. Silkie
1. Footcrab
2. Forbidden
3. Work Them
4. ?
5. Glut
6. If U Want Me
7. Over the Top
8. Palamino
9. Siberian Poker
10. Aidy's Girl Is A Computer
Rétt að setja nokkra fyrirvara við þessar upplýsingar samt, þótt ég haldi að þetta virki allt saman og sýnist það stemma af má vera að mér hafi yfirsést einhver vitleysa í kóðanum fyrir gagnavinnsluna (setti þetta saman núna í eftirmiðdeginum bara). Þá er rétt að hafa í huga að þetta nær yfir árið allt og aðeins inn í desember 2009 og fram í janúar 2010. Rétt rúmlega 50 þættir og um 1300 lög spiluð í þeim.
Mér finnst þetta engu að síður forvitnilegt, það var gaman að pæla í þessum gögnum og gagnavinnslu (dýfa tánni í data-mining pakkann). Ef einhver er með hugmyndir um svipuð gögn sem gaman væri að setja í samhengi (en of mikið fyrir handavinnu) væri gaman að heyra af því.