Resources for student success; moving away from punitive models
seen from China
seen from Russia

seen from Singapore
seen from China
seen from China
seen from Türkiye
seen from Yemen
seen from China
seen from China
seen from United States

seen from Malaysia
seen from Türkiye
seen from India
seen from Netherlands

seen from United States
seen from T1

seen from Malaysia
seen from T1
seen from China
seen from United Kingdom
Resources for student success; moving away from punitive models
Spring 2014 Course Tumblrs
http://introtopopularculture.tumblr.com/
http://raceandspeculation.tumblr.com/
Digital Humanities #5 - popularita Čechů v NHL
Následující post se nevztahuje přímo k nějaké konkrétní hodině Digital Humanities, spíše k projektu, ke kterému mě hodiny DH inspirovaly.
Jelikož mám rád sport, zejména pak hokej a letos jsem už strávil nejeden večer sledováním zápasů v NHL (až do časných ranních hodin), rozhodl jsem se zjistit a porovnat, jak jsou čeští hokejisté hrající v této kanadsko-americké soutěži celosvětově populární.
Můj index popularity hráčů jsem vypočítával z počtu jazykových verzí wiki stránky daného hokejisty a počtu fanoušků jeho fanpage na Facebooku. Jak? Počet jazykových verzí jsem zlogaritmoval a vyšla mi čísla v rozsahu 0,3-1,5 s mediánem i průměrem kolem 0,95. Totéž jsem udělal s počty fanoušků jednotlivých fanpages, zde mi vyšla čísla 1,4 - 5,3 s mediánem a průměrem kolem 3,4 (vyšší čísla jsou dána výrazně vyšším počtem fanoušků než je jazykových verzí). Jelikož považuji počet jazykových verzí na wikipedii za o něco málo více relevantní číslo (vzhledem k popularitě daného hráče) hledal jsem číslo, kterým vynásobím zlogaritmované počty jazykových wiki verzí tak, aby průměr i medián byli o něco větší než ten, co vyšel u FB fanoušků. Zjistil jsem, že hledané číslo je 4, jelikož po vynásobení všech logaritmů jazykových verzí právě tímto číslem, se mi medián a průměr jazykových verzí zvýšili na požadovaných cca 3,8.
Výsledný vzoreček tedy vypadá takto:
Log("počet jazykových verzí")*4 + Log("počet fanoušků FB fanpage)
A kteří hráči jsou tedy dle mého indexu popularity nejznámější? Na to vám odpoví následující obrázek:
Z první pětky je nejpřekvapivější jméno letošního nováčka - Tomáše Hertla, který se velmi rychle vyhoupl až skoro na vrchol popularity (srovnáván s Jágrem a pod.). Pokud by vám první pětka nestačila, můžete si prohlédnout celou tabulku, do které jsem i znázornil nováčky v letošním ročníku NHL (tučně) a také hráče nominované na ZOH 2014 v Soči (žluté podbarvení). Z toho je zřejmé, že kromě Hertla, který je zraněný v nominaci chybí Havlát, Hudler a Mrázek (ten málo chytal) naopak překvapivá je nominace Ondřeje Paláta (stejně jako ve skutečnosti).
Zajímavá je i korelace mezi počty fanoušků a počtem jazykových verzí, ta vychází 0,78 (zde jsem čekal možná i o něco větší).
poznámka na závěr: FB profily jsem považoval za méně významné proto, že někteří hráči jich měli víc a tak by se výsledný počet fanoušků mohl lišit, já vždy vybral ten s nejvíce fanoušky.
Digital Humanities #4 - co píší kina
Jaké je vaše oblíbené pražské kino? Asi každý máte své (já mám samozřejmě Ponrepo:-) ). Stejně tak (z pohledu kina) má každé svou cílovou skupinu diváků. Chovají se kina dle toho i na sociálních sítích? A jak vlastně postují?
Při jedné z dalších hodin Digital Humanities na STUNOME jsme si hráli se slovy, přesněji s wordcloudy. Na tvorbu wordcloudů existuje mnoho nástrojů, do kterých jen nahrajete textové korpusy, přidáte stopwords a pak už si upravujete výsledný vizuál (např. Voyant, Wordle a mnohé další). Proč ale dělat něco jednoduše, když to jde složitě. Rozhodli jsme se být frajeři a wordcloudy jsme si kreslili přímo v R Studiu, pomocí balíčku "wordcloud". Takovýto přístup k tvoření je na první pohled složitější, ale dal nám nahlédnout hlouběji pod pokličku Rka (to hlavně) a možná i díky tomu vystoupily (na hodinách zmiňované) nedostatky wordcloudů (zavádějící délka slova atd.).
Rozhodl jsem se zanalyzovat posledních 500 statusů většiny* pražských kin. Statusy posloužily jako korpus a výsledkem mé snahy byl pro každé kino jeden wordcloud. Také jsem se pokusil "spatlat" svou první "infografiku", ve které jsem porovnal distribuci příspěvků na profily jednotlivých kin.
Jak to celé dopadlo? Na pročištěné wordcloudy jednotlivých kin se můžete podívat na samostátné stránce (album na G+). Tady je pouze okomentuji.
Stopwords - použil jsem na internetu nalezený seznam českých stopslov, plus jsem pro každé kino přidal specifická slova, jako například název kina v různých tvarech (např. Aeru, Aera...atd.). Hodně jsem přemýšlel, zda mezi stopwords zařadit i slova "dnes" a "zítra", která se u většiny kin vyskytovala hojně. Nakonec mi přišlo lepší, nechat je tam. Díky tomu pak působí kontrastně profily kin, kde se tato slova nevyskytují tak často - mají tedy jiný způsob komunikace.
Pokud vezmeme kina Aero/Oko/Světozor, můžeme si všimnout podobnosti wordcloudů s dominantním slovem "dnes". I přes podobnost se ale kina liší, nejvíce vybočuje asi kino Světozor, u kterého mě překvapil výskyt slova "pondělí" (asi postují často o tom co hrají od pondělí?) a také různé formy slova "dokument". Velmi podobnou strukturu slovníku tomuto triptychu má i "mé" Kino Ponrepo. Zde je navíc stejně dominantní slovo "zítra" a podobně i různé varianty slova "promítneme", což značí naší snahu dát lidem vědět, že u nás se filmy promítají z klasického filmového pásu. U kina Atlas jsou termíny zastoupeny mnohem rovnoměrněji a kromě dominantní "režie" mezi nimi nalezneme opět i slova "dnes" a "zítra". To v Evaldu se oproti kinům předchozím nachází niancí více. Dominantním termínem je "snímek" a následují ho "rezervace" a "promítneme" (zde nejspíš v jiném kontextu než v Ponrepu;)). Kino Lucerna bylo ve svých statusech strohé a nejčastěji používaná slova jsou podobná všem předchozím kinům. Nejzajímavěji tak působí kino Premiere Cinemas v Hostivaři, které se od všech předchozích kin velmi liší. Krom toho, že se chlubí svým jedinečným zvukem Dolby Atmos je nečastěji zastoupeno slovo "čtvrtka". Čtvrtek se tak často vyskytuje z důvodu toho, že kinotýden v multikinech vždy začíná právě čtvrtkem, a tak vždy postují co od čtvrtka hrají. Dále můžeme vidět i hodně slov o soutěžích, které na profilu probíhají.
Tím se dostáváme k druhému bodu tohoto postu, tím je slibovaná infografika.
Z infografiky je zřejmé, že vyjma Atlasu, Evaldu a Lucerny je nejčastějším typem příspěvku kin obrázek. Nejaktivnějším přispěvatelem je Oko, zatímco nejméně postů za den má kino Evald. Nejvíce lajků na post získávají příspěvky kina Oko a Aero. Překvapivě v nejvíce komentářích ale ani jedno ze zmiňovaných kin nevede, předběhlo je kino Premiere Cinemas. Proč? Důvodů může být více, dle mě největší roli hraje ve wordcloudu zmiňovaná diference oproti ostatním kinům a s tím spojené i soutěže. Nejvíce sdílení má opět kino Aero. Nezapomínejme, že tato čísla jsou do značné míry ovlivněna i počty fanoušků (nejvíce mají Oko a Premiere Cinemas) a případným (ne)promováním jednotlivých postů.
* Neanalyzoval jsem kina MAT a Modřanský biograf (protože postují převážně pouze robotické odkazy na vlastní web), dále pak sítě multikin CinemaCity a Cinestar, ty bych rád porovnal někdy v budoucnu. Některá kina ani 500 statusů neměla, tam jsem samozřejmě veškerá čísla počítal z počtu analyzovaných statusů.
Digital Humanities #3 - vztahový striptýz
Jestli si myslíte, že sociální sítě a jejich zkoumání je devízou posledních několika let, jste na omylu. Jak jsem se dočetl, tak tento obor se začal formovat již v 70. - 80. letech minulého století v USA, kde bylo na základě analýz sociálních sítí například zkoumáno, jakým způsobem vyhledávají ženy lékaře, který by jim provedl potrat, nebo třeba jak si lidé hledají práci. Pomocí těchto analýz se zjišťovala příslušnost subjektů k nějaké sociální skupině, která se vyznačovala do jisté míry podobným vzorcem chování. Na základě těchto vzorců se navíc dá předpovědět, jak se v které situaci subjekt pravděpodobně zachová a možná i proto zažil tento obor boom v letech následujících.
V současné době jsou možnosti analýzy sociálních sítí již poměrně pokročilé a značně matematizované (využívajíc PC). Připočteme-li k tomuto i velké množství virtuálních přátelství na sociálních sítích typu Facebook (kde je už více jak 15% populace), nemůže nás napadnout jiná otázka než: Kdy jindy analyzovat sociální sítě (a vazby v nich), než právě teď?
Není tedy divu, že jsme i my, v další hodině Digital Humanities, do tohoto oboru zabrousili. S BIG DATY se už přeci skoro kamarádíme a FB API nás (doufám) již brzy bude zdravit pověstným "ahoj pyčo", tak proč to nezkusit. Co budeme potřebovat? Předně nějak TA data ze (svého) FB profilu stáhnout. Způsobů je několik, my jsme využili jeden z těch jednodušších, aplikaci Netvizz. Zde (poté co si jí povolíte) stačí kliknout na "here" na řádku "Step 2 - create a gdf file from your personal network by clicking - here". Po chvilce čekání si už můžete stáhnout svůj osobní GDF soubor. V něm jsou zaznamenány vazby mezi vámi a vašimi přáteli. A čím otevřeme GDF soubor? No třeba programem GEPHI. V něm si můžete "hrát" s vizualizací dat v souboru obsažených. Návody na to, jak si "hrát", jsou jednoduché a povaluje se jich na internetu mnoho. Nebudu zde tedy plácat játrama a raději vás odkážu na nějaké tutoriály. Jako základní zdroj vám postačí prezentace a odkazy ze stránek samotného programu.
Dat je na Facebooku mnoho, a tak raději upřesním, že jsme se rozhodli analyzovat osobní profil na základě přátelských vazeb. A jak tedy vypadá má sociální síť? Koukněte na obrázek (můžete si ho zobrazit i v plném rozlišení). V následujícím textu se jej pokusím popsat.
Tak a teď kdo je kdo. Začnu z levého horního rohu a půjdu (plus mínus) po směru hodinových ručiček.
zelená (nebo teda tyrkysová) - lidé z a okolo základky
oranžová (vpravo od zelené) - spolužáci Anet B.
žlutá - lidé ze střední školy
fialová (nad žlutou) - tři lidé, s kterými jsem seděl v komisi u voleb v roce 2010(?) na Praze 1
světle modrá - rodina a lidé s vazbou na rodinu
červená - lidé od filmu (zaměstnanci NFA, holky s kterejma jsem byl v Sokolově, lidé z K4)
tmavě modrá - ÚISK (+STUNOME)
světle zelená - lidé z letní knihovnické školy, kterou pořádal KISK
zelená (osamocená vlevo dole) - zaměstnanci Cinema City
růžová - holky s kterejma jsem se potkal v Rumunsku
8 dalších "sólo" skupin, které bych shrnul do jedné - to jsou lidé, které jsem potkal na různých akcích, či při různých jiných "speciálních" příležitostech (např. jsme měli společný tělocvik od FF UK :-D) a nemají žádné vazby na mé ostatní přátelé.
Velikost tečky (nodu) je dána hodnotout betweenness centrality (česky se to prý řekne mezilehlost :-D), která je výsledkem počtu nejkratších možných cest ze všech vrcholů do všech ostatních, které procházejí daným nodem (uzlem). Jednoduše řečeno, nejvyšší je hodnota tehdy, pokud cesty mezi libovolnýma dvěma uzlama sítě vždy procházejí tímto uzlem. A teď k detailům, které mě při pohledu na vizualizaci zaujaly:
Mými nejhlavnějšími uzly jsou Ivet H. (donedávna přítelkyně, logicky se zná s lidmi z většiny skupin), Aneta B. (ještě více bývalá přítelkyně, která navíc chodila na stejnou základku jako já), Jakub H. a Sandra H. (jediní lidé ze střední, s kterými se pravidelně vídám), velká je i Míša P., která má vazby na mou základku.
Překvapilo mě, jak malá a poměrně stranou je Kristýna L. (jediný člověk ze základky, s kterým se pravidelně vídám).
Dále mě zaujala pozice Sandry H., která se mnou chodila na střední (do vedlejší třídy), ale zároveň nyní studuje na stejném VŠ oboru, jako kolegyně z NFA (Filmová studia). To, že je spíše červená než žlutá, bude následek toho, že jsem se na střední bavil z její třídy vždy jen s ní, a tak nevzniklo moc dalších vazeb a vazby z Filmové skupiny jednoduše přepraly ty ze Střední.
Zajímavé je i prostředí mezi Anetou B. a Davidem Hawaiiem H. S oběma jsem se vídal na hokeji na Spartě a lidé mezi nimi jsou známí právě z holešovické arény a společných sparťanských akcí.
Na skupině ÚISKu mě nejvíce zaujalo rozdělení na KNIHOVNÍKY (tedy povětšinou mé kolegy ze třídy) a na STUNOMÁKY, které znám z předmětů Studií nových médií, které rád navštěvuji. Středobodem této skupiny je Marie K., která rok studovala s námi a rok na STUNOME. Dál je zajímavá pozice Pavla S., který už má, alespoň dle konexí, značně nakročeno na STUNOME ;).
Ve skupině z Letní knihovnické školy se mísí lidé z brněnského KISKU s letošními druháky ÚISKu, kteří na letní škole byli, proto jsou i tyto skupiny blízko sebe.
Skupiny Cinema City, Rumunsko a "sólo" skupiny byly ve skutečnosti ještě více separovány od ostatních skupin, pro přehlednost (a velikost) obrázku jsem je přetáhl blíže.
Z obrázku by se dalo vyčíst i daleko více. Myslím si ale, že těchto pár zajímavostí stačí. Ještě si dovolím přiložit jeden obrázek a to je koncentrace pohlaví. Z něj je pěkně vidět, jak jsme byli na střední škole třída plná kluků. Narušuje jí jen Zuzka K., učitelka matematiky a Adéla T. přítelkyně jednoho ze spolužáků. Další dvě holky na okraji jsou zase kamarádky Jakuba H. :).
Doufám, že se vám můj vztahový striptýz, ve kterém jsem na sebe možná odhalil více, než jsem chtěl, líbil. V jednom z příštích blogpostů se pokusím shrnout vztahy 5 FB stránek (resp. toho co lajkují). Konkrétně jsem si vybral 5 kin.
Digital Humanities #2 - Rrrrrrr
Ve své druhé blokaci tohoto semestru se budu věnovat Rku. Resp. úvodu do něj, který nám zprostředkoval @JosefSlerka na další hodině Digital Humanities.
R? Pod jednopísmenným názvem se skrývá programovací jazyk určený pro statistickou analýzu dat, v kterém lze data snadno vizualizovat. Vznikl v roce 1993 a navrhli ho pánové Ross Ihaka a Robert Gentleman. Nejnovější release je z 25.9.2013 a jedná se o verzi 3.0.2. Z mnoha různých GUI nám bylo doporučeno RStudio, které je aktuálně ve verzi v0.97.
Úkol - zadání Nejdříve jsme se naučili pár základních úkonů, jako vytvářet proměnné a různé matematické operace s nimi a pak také import CSV souborů. Na procvičení do příští hodiny jsme dostali za úkol:
sehnat si data o počtech obyvatel v obcích kraje, kde jsme se narodili
naimportovat je do RStudia a zjistit z nich medián a průměr a zjistit, kterým obcím kraje jednotlivá čísla přibližně odpovídají
Úkol - výsledek Obstarat si dobře zpracovatelná data se nakonec ukázalo, jako jeden z největších problémů. Nakonec jsem čerpal ze stránek Českého statistického úřadu. Data jsem si vyexportoval do XLS a ten pak upravil pomocí Google Refine. Odtud jsem si vyexportoval výsledné CSV, s kterým jsem pak pracoval následovně:
> praha <- read.csv("PocetObyvatel-Praha.csv") - načetl jsem si CSV do proměnné "praha"
> praha2012 <- praha$X2012 - do proměnné "praha2012" jsem si vybral sloupec s daty z roku 2012 (csv obsahovalo data i z let předchozích)
> sum(praha2012) - součet všech obyvatel z všech částí Prahy [1] 1246780
> summary(praha2012) - funkcí summary jsem dostal základní přehled o datech z roku 2012 Min. 1st Qu. Median Mean 3rd Qu. Max. 289 2453 5327 21870 29420 127600
Medián tedy vyšel 5327, což je stejný počet obyvatel, jako má Praha-Zličín a průměr vyšel 21870, což je někde mezi Prahou 17 a 18.
Digital Humanities #1 - New Semestration
Se začátkem nového školního roku znovu oživuji tuto Mediální blokaci a budu zde (opět) sdílet zážitky z hodin Josefa Šlerky. Tentokrát jsem si zapsal předmět Digital Humanities, a tak mě čeká další povinné blogování. Pokud by vás zajímalo, co se za anglickým názvem předmětu skrývá, můžete se pomocí youtube kanálu STUNOME vrátit v čase do minulého roku a většinu přednášek si pustit. Jednoduše řečeno se jedná o aplikaci kvantitativních metod na obory (např. politologie), kde to dříve nebylo možné a nyní, díky vysokým výkonům počítačů, to možné je. Pomocí těchto metod hledáme kontext tam, kde bychom ho dříve najít nemohly a získáváme tak nový pohled na objekt zkoumání.
Co nás čeká letos? R. Letos se už nedočkáme streamování přednášek a mění se i jejich koncepce. Budeme se více do hloubky věnovat Rku, takže se v něm snad konečně naučím i něco víc, než jen chytrou kalkulačku ;). Celý předmět by měl být oproti loňskému roku více kompaktní a jednotlivá cvičení na sebe budou více navazovat (alespoň tak to na mě z prvních hodin působí).
Projekt "Profilové fotky fanoušků politických stran" Hned na úvodní hodině jsme dozvěděli, co bude naším prvním úkolem: identifikace 200 náhodných profilových fotek fanoušků vybraných politických stran (ODS, Zelení, Svobodní, TOP09, Piráti, VV, Zemanovci, KDU-ČSL, Hlavu vzhůru, Úsvit, ČSSD, KSČM, DSSS a ANO). Každý z nás si vybral jinou politickou stranu a k ní dostal set fotek (cca 200 ks) v Dropboxu. Dle parametrů, které jsme si domluvili na hodině druhé, pak každý zapsal do Google Spreadsheetu, zda se jedná o člověka, zda je identifikovatelný, zda je venku či uvnitř atp. viz ukázková tabulka.
Takto jsme si vytvořili vlastní dataset, s kterým nejspíše budeme v dalších hodinách pracovat a na jehož základě se pokusíme najít nějaké zajímavé patterny.
Jak jsme pokročili a jak jsme poměrně úspěšně začali zápasit s Rkem se dočtete v dalších postech.