Tipy - témata pro zadání seminárních prací
Problém č. 1: Párování kandidátů napříč volbami v ČR
Typ zadání: shlukování, deduplikace
- Cílem je zjistit, jestli došlo u kandidáta ke změně strany, za kterou kandiduje
- Párovat kandidáty napříč roky
- Párovat kandidáty napříč typy voleb (volby do zastupitelstev, do senátu, …)
- ČSU nepublikuje data, ze kterých by se toto dalo jednoduše zjistit
-
Volitelnou součástí by měla být vizualizace
- Vstupy csv soubory z ČSU, každý soubor jedny volby
- Výstup: seznam shluků (shluk = 1 kandidát, v rámci shluku jsou )
Data
- https://volby.cz/opendata/opendata.htm
Problém č. 2: analýza registru smluv
Typ zadání: číštění dat (odstranění nevhodných smluv), reprezentace dat pomocí grafu, analýza grafů - nalezení komunit, vlivných uzlů, apod. Síla vazby mezi uzly (organizacemi) je velikost finančního toku mezi těmito uzly.
Z registru smluv je možné zjistit, které státní firmy spolu obchodují a jaké jsou velikosti finančních toků.
- Data o registru smluv: https://smlouvy.gov.cz/stranka/otevrena-data
- Data o rozpočtu státních firem: http://monitor.statnipokladna.cz/2018/
Ze státní poklady je možné získat seznam IČO různých typů státních organizací (jednou kategorií budou např. příspěvkové organizace)
Náměty na nástroje:
- https://gephi.org/
- https://www.hlidacstatu.cz/
Problém č. 3: analýza trendů v justici
Typ zadání: statistická analýza
Trestní soudy
- Dostupnost dat: https://www.irozhlas.cz/zpravy-domov/rychlost-justice-data_1808270600_cib (trestní soudy)
Správní soudy
- Motivace: https://www.irozhlas.cz/zpravy-domov/informacni-zakon-soud-platy-uredniku_1807310625_cib (správní soudy)
- Dostupnost dat: http://nssoud.cz/Uvod/art/1 (nutno vytvořit web scraper na výsledky vyhledávání)
Další data:
- https://cro.justice.cz/ (Centrální registr oznámení)
Výsledek:
- např. analýza výkonnosti jednotlivých soudců
- analýza výkonnosti advokátů (např. jaké procento podání bylo zamítnuto z formálních důvodů), více viz https://www.irozhlas.cz/zpravy-domov/spolek-zverejnil-zebricek-advokatu-komora-zuri-a-vola-na-pomoc-ochrance-osobnich_1709150559_cib
Problém č. 4: analýza a predikce zpoždění vlaků
Typ zadání: průběžný scraping dat, predikce (regrese)
Data:
- informace o vlacích z webu ČR
- informace jsou průběžně zobrazována (automaticky se nearchivují): https://www.cd.cz/vlak/6707/5.9.2018/5454599/11.38
Podklady:
- https://kam.mff.cuni.cz/~babilon/zpmapa
- https://www.irozhlas.cz/ekonomika/zpozdeni-vlaku-v-okoli-prahy_1804100721_cib
Problém č. 5: analýza dat o přestupcích
Typ zadání: vizualizace, predikce
Data
- Na vyžádání pro přestupky
- Trestné činy: mapakriminality.cz, https://mapakriminality.docs.apiary.io/#
- Geografická data: https://nahlizenidokn.cuzk.cz/stahniadresnimistaruian.aspx
Podklady
- https://www.irozhlas.cz/zpravy-domov/data-mestske-policie-bezpecny-bronx-problemovi-tricatnici-i-bezdomovectvi-jako_1707210600_jab
Problém č. 6: analýza dopravních nehod, která místa jsou nebezpečná
Typ zadání: web scraping, predikce
Data:
- http://maps.jdvm.cz/cdv2/apps/nehodyvmape/Search.aspx