Problém č. 1: Párování kandidátů napříč volbami v ČR

Typ zadání: shlukování, deduplikace

  • Cílem je zjistit, jestli došlo u kandidáta ke změně strany, za kterou kandiduje
  • Párovat kandidáty napříč roky
  • Párovat kandidáty napříč typy voleb (volby do zastupitelstev, do senátu, …)
  • ČSU nepublikuje data, ze kterých by se toto dalo jednoduše zjistit
  • Volitelnou součástí by měla být vizualizace

  • Vstupy csv soubory z ČSU, každý soubor jedny volby
  • Výstup: seznam shluků (shluk = 1 kandidát, v rámci shluku jsou )

Data

  • https://volby.cz/opendata/opendata.htm

Problém č. 2: analýza registru smluv

Typ zadání: číštění dat (odstranění nevhodných smluv), reprezentace dat pomocí grafu, analýza grafů - nalezení komunit, vlivných uzlů, apod. Síla vazby mezi uzly (organizacemi) je velikost finančního toku mezi těmito uzly.

Z registru smluv je možné zjistit, které státní firmy spolu obchodují a jaké jsou velikosti finančních toků.

  • Data o registru smluv: https://smlouvy.gov.cz/stranka/otevrena-data
  • Data o rozpočtu státních firem: http://monitor.statnipokladna.cz/2018/

Ze státní poklady je možné získat seznam IČO různých typů státních organizací (jednou kategorií budou např. příspěvkové organizace)

Náměty na nástroje:

  • https://gephi.org/
  • https://www.hlidacstatu.cz/

Problém č. 3: analýza trendů v justici

Typ zadání: statistická analýza

Trestní soudy

  • Dostupnost dat: https://www.irozhlas.cz/zpravy-domov/rychlost-justice-data_1808270600_cib (trestní soudy)

Správní soudy

  • Motivace: https://www.irozhlas.cz/zpravy-domov/informacni-zakon-soud-platy-uredniku_1807310625_cib (správní soudy)
  • Dostupnost dat: http://nssoud.cz/Uvod/art/1 (nutno vytvořit web scraper na výsledky vyhledávání)

Další data:

  • https://cro.justice.cz/ (Centrální registr oznámení)

Výsledek:

  • např. analýza výkonnosti jednotlivých soudců
  • analýza výkonnosti advokátů (např. jaké procento podání bylo zamítnuto z formálních důvodů), více viz https://www.irozhlas.cz/zpravy-domov/spolek-zverejnil-zebricek-advokatu-komora-zuri-a-vola-na-pomoc-ochrance-osobnich_1709150559_cib

Problém č. 4: analýza a predikce zpoždění vlaků

Typ zadání: průběžný scraping dat, predikce (regrese)

Data:

  • informace o vlacích z webu ČR
  • informace jsou průběžně zobrazována (automaticky se nearchivují): https://www.cd.cz/vlak/6707/5.9.2018/5454599/11.38

Podklady:

  • https://kam.mff.cuni.cz/~babilon/zpmapa
  • https://www.irozhlas.cz/ekonomika/zpozdeni-vlaku-v-okoli-prahy_1804100721_cib

Problém č. 5: analýza dat o přestupcích

Typ zadání: vizualizace, predikce

Data

  • Na vyžádání pro přestupky
  • Trestné činy: mapakriminality.cz, https://mapakriminality.docs.apiary.io/#
  • Geografická data: https://nahlizenidokn.cuzk.cz/stahniadresnimistaruian.aspx

Podklady

  • https://www.irozhlas.cz/zpravy-domov/data-mestske-policie-bezpecny-bronx-problemovi-tricatnici-i-bezdomovectvi-jako_1707210600_jab

Problém č. 6: analýza dopravních nehod, která místa jsou nebezpečná

Typ zadání: web scraping, predikce

Data:

  • http://maps.jdvm.cz/cdv2/apps/nehodyvmape/Search.aspx