Data jsou údaje, které popisují svět kolem nás. Získáváme je třeba pozorováním nebo měřením. Data můžeme evidovat a analyzovat i na papíře (dříve se to tak běžně dělalo). Dnes pro práci s daty většinou používáme počítače a data ukládáme třeba pomocí tabulkového editoru nebo databází.

Data jsou nejčastěji číselná (čas běhu při závodech, počet hlasů ve volbách, cena výrobku, počet obyvatel), ale mohou být i textová (jméno studenta, oblíbená barva, název státu).

V rámci Umíme informatiku členíme toto téma na několik podtémat:

  • Sběr a evidence dat: Porozumění tomu, jakou podobu data mohou mít a jak je získávat.
  • Základy práce s daty: Základní úkony při práci s daty, jejich vyčítání z tabulek, řazení a znázorňování pomocí tabulek a grafů.
  • Vizualizace dat: principy: Pomocí vizualizací můžeme datům daleko snáz porozumět. Pro přípravu dobrý vizualizací potřebujeme rozumět jejich základním principům.
  • Vizualizace dat: typy grafů: Přehled typy grafů, které často používáme pro vizualizace, a jejich použití.
  • Tabulkový editor: Základní způsob zpracování dat na počítači nabízí tabulkové editory (např. Microsoft Excel, Google Sheets, LibreOffice Calc).
  • Databáze (pokročilé téma): Rozsáhlá data ukládáme do databází a pracujeme s nimi pomocí specializovaných programovacích jazyků jako je SQL.
  • Regulární výrazy (pokročilé téma): Při práci s textovými daty často využíváme regulární výrazy, které umožňují popisovat vzory v textu.

Inspirace pro učitele

Inspiraci pro začlenění těchto témat do výuky nabízí výukové moduly, které poskytují konkrétní náměty, jakým způsobem učivo procvičovat a v jakém pořadí:

Práce s daty: základy 4.–6. ročník ZŠ Úplné základy práce s daty, zápis dat do tabulky, řazení, sloupcové grafy.
Tabulkový editor: základy 5.–7. ročník ZŠ Základy práce s tabulkovým editorem.
Tabulkový editor: výpočty 7.–9. ročník ZŠ Zpracování dat pomocí tabulkového editoru
Vizualizace dat 7.–9. ročník ZŠ Vizualizace dat pomocí grafů, základní principy vizualizace, nevhodné vizualizace.
Pokročilá práce s daty 1.–4. ročník SŠ Zpracování dat pomocí tabulek a vizualizací, základní znalosti z oblasti databází.

Abychom mohli s daty pracovat, musíme je nejdříve získat a přehledně zaznamenat, případně najít již existující data. Data mohou mít různou podobu: například textu nebo čísla, mohou mít určitý formát. Při sběru dat je vhodné myslet na to, že získaná data mohou zkreslovat popis skutečnosti.

Při získávání dat je velmi často efektivní je uspořádat do tabulky.

K získávání dat slouží například:

  • pozorování – Využívá lidské smysly.
  • měření – Výsledkem jsou číselné údaje, které lze porovnávat. Obvykle mají určitou jednotku (např. m, kg). Pro měření bývají často využívané přístroje. Měření může být podle způsobu provedení různě přesné.
  • využití dotazníků – Zahrnuje získávání informací od většího množství lidí. Často se využívá ve výzkumech veřejného mínění. Data zjištěná dotazníkem můžeme spojit s identitou (např. jménem) určitého člověka, či je sbírat anonymně.
  • analýza (zpracování, vyhodnocení) jiných dat

Získaná data lze zaznamenávat do digitálních zařízení, ale třeba i jednoduše na papír.

Různá data se získávají různě obtížně. Člověk zpravidla snáze bude získávat data, která se týkají skutečností v jeho okolí, data, která se týkají menšího množství lidí či data, k jejichž získání nejsou potřeba specializované přístroje.

Mnohá data byla již zjištěna a není nutné je získávat znovu. Stačí je vyhledat ve vhodném zdroji (např. počet obyvatel Brna v minulém roce zjistíme na webu ČSU). Již existující data ale nejsou vždy volně dostupná.

Při získávání i zpracování dat se mohou vyskytnout chyby či zkreslení. Zvláště při získávání/zpracování větších souborů dat se těmto jevům nelze zcela vyhnout, je však vhodné pokusit se jejich výskyt omezit.

Abychom mohli s daty pracovat, musíme je nejdříve získat a přehledně zapsat. Základní způsob, jak si data o světě kolem nás udržovat, je použít tabulku. Některá data můžeme získat přímo v tabulkové podobě, například na Wikipedii lze najít řadu zajímavých tabulek o světě (třeba státy podle počtu obyvatel).

Co když chceme zpracovávat informace ze svého okolí? Například data o tom, jaká domácí zvířata mají doma spolužáci, na Wikipedii nenajdeme. Můžeme si ale vyrobit vlastní tabulku.

Vyjádření informací slovně a číslem

Přejít ke cvičením na toto téma »

Některé informace vyjadřujeme číslem. Jedná se např. o počty, míry či časové údaje. Číselné hodnoty jsou mnohdy spojeny s určitou jednotkou (např. cm, kg, Kč). S čísly jde provádět početní operace (např. sčítání, násobení). Například:

  • Můj bratr se narodil v roce 2023.
  • Eva má 2 morčata.
  • Představení začíná v 19.00 hodin.
  • Kopretina bílá dorůstá výšky asi 0,5 m.
  • Předplatné stálo 500 Kč.

Mnohé informace se vyjadřují slovy či slovním popisem. Například:

  • Žofie má přátelskou povahu.
  • Martin má hnědé oči.
  • Film měl skvělé vizuální efekty, ale nezajímavý příběh.

Někdy lze vlastnost obvykle popisovanou slovy přeneseně vyjádřit pomocí čísla. S číslem se mnohdy snáze pracuje, případně se s číselnými hodnotami dá počítat. Například:

  • „Ponorný tyčový mixér AppetitChef Turbo“ může obdržet např. katalogové číslo 1 334 751. Tak produkt v e-shopu jednoznačně identifikujeme.
  • Delší slovní recenzi filmu můžeme úderně shrnout třeba tak, že filmu dáme hodnocení 3 hvězdičky z 5 možných.

Data mohou mít různý formát. V základu mohou mít tvar textového řetězce (např. želva), čísla (např. 1) nebo logické hodnoty (TRUE – pravda, FALSE – nepravda).

Čísla mohou mít rozličnou podobu. Pokud 0 zastupuje číslici (respektive v některých případech celé číslo), můžeme získat například:

  • 0,0 – desetinné číslo
  • 000 000 000 – telefonní číslo bez předvolby
  • 000 00 – poštovní směrovací číslo
  • 0/0 – zlomek
  • 0 % – procento

Specifické je formátování času. Uvažme, že Y zastupuje rok, m měsíc, d den, H hodinu, M minutu a S sekundu. V rámci tohoto formátu získáme například:

  • H.M – čas v rámci dne, uplynulé hodiny a minuty
  • M:S – uplynulé minuty a sekundy
  • d. m. Y – datum (formát typický pro češtinu)
  • m/d/Y – datum (formát typický pro americkou angličtinu)

Zástupné znaky (jako výše) se pro formátování dat používají např. v rámci programovacích jazyků či tabulkového procesoru. Na podobném principu fungují regulární výrazy, které se používají hlavně pro vyhledávání v datech.

Využít konkrétní formát (či kontrolu) dat je výhodné třeba v dotaznících: pokud chceme od respondenta získat PSČ, hodí se vstup omezit pouze na 5 číslic. Zamezíme tak zadání chybných dat.

Při práci s daty se může snadno stát, že dostupná data jsou nějakým způsobem zkreslená. Taková data pak nevypovídají dobře o skutečnosti. Pokud zkreslení nevezmeme v úvahu, může zpracování takových dat vést k matoucím závěrům. Je proto užitečné základní typy zkreslení znát.

Výběrové zkreslení

Při sběru dat většinou není reálné posbírat „všechna data“, často používáme jen nějaký výběr. Tento výběr by měl ideálně představovat takzvaný reprezentativní vzorek, které dobře odpovídá charakteristikám celkové populace. Pokud tomu tak není, tak jsou data zkreslená.

Příklady nereprezentativních vzorků

  • Průzkum názorů na politiku, který agentura provede pouze v Praze na náměstí.
  • Výzkum účinků léku, do kterého jsou zapojeni pouze studenti sportovního gymnázia.

K tomuto typu zkreslení může dojít například tak, že se účastníci průzkumu sami rozhodují, zda se zúčastní či nikoliv (zkreslení neúčasti). Ti, kteří se rozhodnou neúčastnit, se často liší v důležitých ohledech od těch, kteří se účastní. Příklad: Dotazník o počítačových hrách vyplní s větší šancí ti, kdo rádi hrají počítačové hry.

Na výběrovém zkreslení se může podílet také množství získaných dat. Příklad: Když budeme zjišťovat zpětnou vazbu k výuce pouze u 2 žáků ve třídě, pravděpodobně to nebude vypovídat o celé třídě.

Zkreslení odpovědí

Pokud sbíráme odpovědi dotazníkovým šetřením, může se stát z různých důvodů stát, že poskytnuté odpovědi neodpovídají přesně realitě. Účastníci výzkumu například mohou upravovat své odpovědi podle společenských očekávání či mohou odpovídat nepřesně, protože si přesnou odpověď nedovedou vybavit. Odpovědi mohou ovlivnit také takové detaily, jako je pořadí odpovědí v dotazníku.

Příklady zkreslení odpovědí

  • Účastníci výzkumu o stravování mohou ve svých odpovědích přeceňovat konzumaci zdravých potravin nebo podceňovat příjem nezdravých potravin.
  • Průzkum trávení času o loňských prázdninách může být zkreslen nepřesnými vzpomínkami.

Potvrzující zkreslení (konfirmační zkreslení)

Lidé mají přirozeně tendenci upřednostňovat informace, které podporují vlastní názory, a naopak ignorovat či podceňovat informace, které jsou s názory v rozporu. To se může přímo či nepřímo projevit i při sběru dat.

Příklad potvrzujícího zkreslení

  • Výzkumník zkoumá vliv videoher na agresi.
  • Má hypotézu, že videohry vedou k násilnému chování.
  • Při průzkumu dostupných studií věnuje větší pozornost sběru a analýze dat, které odpovídají jeho hypotéze.

Publikační zkreslení

K publikačnímu zkreslení dochází, když výsledek experimentu či analýzy ovlivňuje rozhodnutí, zda data publikovat nebo jinak šířit.

Příklad publikačního zkreslení

V lékařském výzkumu mohou farmaceutické společnosti rozhodnout o publikování pouze studií, které prokazují pozitivní výsledky nového léku, zatímco utají nebo nepublikují studie s nepříznivými výsledky. Toto zkreslení zpráv může vést k nadhodnocení účinnosti léku a zastření potenciálních rizik nebo vedlejších účinků.

Hlavní prostředek pro práci s daty jsou tabulky. S těmi na počítači pracujeme například v tabulkovém editoru. Nejdříve se však hodí si procvičit základní porozumění tabulkám, což jsou cvičení s připravenými tabulkami, která bychom klidně mohli používat i na papíře.

Je užitečné umět data řadit, a to i v tabulkách. Tak najdeme například nejmenší a největší hodnoty či uspořádáme textové údaje podle abecedy.

Pro získání lepší představy o datech používáme vizualizace dat pomocí grafů. To je další větší téma, ke kterému je prvním krokem porozumění vztahům mezi grafy a tabulkami.

Tabulky: základní porozumění

Přejít ke cvičením na toto téma »

Základem práce s daty jsou tabulky. S tabulkami můžeme na počítači pracovat v tabulkovém editoru, vykreslovat podle nich grafy, nebo je ukládat do databází. Ale před tím, než se do těchto činností pustíme, musíme rozumět prosté tabulce, kterou máme třeba před sebou na papíře.

Velice užitečnou pomůckou pro lepší přehlednost dat je řazení. Když si data seřadíme, snadno vidíme největší a nejmenší hodnoty. Také si třeba všimneme rozestupů mezi jednotlivými záznamy či zajímavých pravidelností.

Data mohou být seřazena:

  • vzestupně – Od nejmenších čísel po největší, od dřívějšího data (času) po pozdější, od A do Z. Mějme např. čísla 4, 10, 2, 9. Seřadíme-li je vzestupně, dostaneme 2, 4, 9, 10.
  • sestupně – Od největších čísel po nejmenší, od pozdějšího data (času) ke dřívějšímu, od Z do A. Mějme např. jména Linda, Jirka, Aneta, Vincent. Seřadíme-li je od Z do A (sestupně), dostaneme Vincent, Jirka, Linda, Aneta.

Řazení dat v tabulkách

Přejít ke cvičením na toto téma »

Pro práci s daty se často využívají tabulky, v nich lze různě řadit zahrnutá data. Uvažme třeba následující tabulku evidující data o tom, kolik má kdo z kamarádů rybiček:

jméno příjmení počet rybiček
Linda Veselá 3
Jirka Novák 0
Aneta Procházková 12
Vincent Černý 5

Data v tabulkách se obvykle řadí podle určitých sloupců. Pokud má tabulka záhlaví (tedy první řádek, který říká, jaká data budou následovat), záhlaví při řazení zůstává na svém místě. Řadí se jen data, která se k němu vztahují.

Použijeme-li vzestupné řazení podle příjmení, dostaneme kamarády v tomto pořadí:

jméno příjmení počet rybiček
Vincent Černý 5
Jirka Novák 0
Linda Veselá 3
Aneta Procházková 12

Všimněte si, že společně s příjmeními jsme vždy seřadili i související data v řádcích (jméno, počet rybiček). Pokud bychom řadili samotný sloupec s příjmením, data by se nám „pomíchala“:

jméno příjmení počet rybiček
Linda Černý 3
Jirka Novák 0
Aneta Veselá 12
Vincent Procházková 5

Data často zaznamenáváme do tabulek, ale pro lepší porozumění je pak znázorňujeme graficky. S grafickým znázorněním dat se můžeme často setkat například i v médiích nebo reklamních materiálech. Pro jakoukoliv práci s daty je potřeba rozumět oběma těmto způsobům znázornění dat a umět mezi nimi přecházet.

Vizuální kódování dat

Přejít ke cvičením na toto téma »

Řekněme, že jsme posbírali data a máme je zapsaná v tabulce. Abychom jim lépe porozuměli, je užitečné je vizualizovat, tj. zobrazit formou obrázku. To můžeme udělat mnoha způsoby. Například následující obrázek ukazuje několik způsobů znázornění stejných dat (A → 5, B → 2, C → 4).

Způsob ztvárnění volíme podle účelu vizualizace. Pokud chceme být schopni hodnoty snadno porovnávat, použijeme délku nebo polohu bodů, protože velikosti plochy, úhly a barvy se lidem srovnávají hůře. Pokud ale chceme být schopni rychle odhadnout, jak velkou část z celku něco tvoří, je většinou výhodnější použít úhly.

Můžeme též různé způsoby znázornění kombinovat. Například následující vizualizace zobrazuje délku života mužů a žen v různých státech světa. Klíčová informace o délce života je kódována pomocí polohy bodů, což usnadňuje srovnání států. Velikost a barva bodů pak zobrazují doplňkové informace (velikost států a příslušnost ke kontinentu).

Zdroj obrázku: Our World in Data

Grafy sestávají z jednotlivých součástí, které se obvykle ztvárňují a uspořádávají podle určitých pravidel. Díky tomu je možné se snadněji orientovat v různých grafech. Čtenář může bez váhání rozeznat, co která součást grafu vyjadřuje.

Grafy zpravidla mívají nadpis, který stručně shrnuje data v grafu.

U grafů, které vyznačují data pomocí vzdáleností (sloupcové, spojnicové, bodové), jsou základní součástí osy. Svislá osa směřuje odshora dolů, také se označuje jako osa y. Vodorovná osa směřuje zleva doprava, také se označuje jako osa x. V souvislosti s osami může být uveden jak název samotné osy (co která osa značí), tak popisy hodnot/kategorií.

Datové řady jsou řádky či sloupce tabulky obsahující data, která graf znázorňuje. Data mohou být v grafu vyznačena např. pomocí sloupců či bodů (mezi těmi mohou být spojnice).

Mřížka usnadňuje orientaci v oblasti se znázorněnými daty. Mezi úsečkami hlavní mřížky bývají větší vzdálenosti, oblast grafu je jemněji dělena (zpravidla méně výraznou) vedlejší mřížkou.

U grafů může být přítomna spojnice trendu (anglicky trendline), která vyjadřuje odhad postupného vývoje hodnot.

Legenda popisuje, kterých dat se týká určitá datová řada či výseč. Často spojuje název určité kategorie dat s barvou či grafickým vzorkem.

U koláčových (výsečových) grafů bývá přítomen nadpis, samotné výseče s případnými textově vyjádřenými hodnotami dat a legenda.

Vizualizace dat: typy grafů

Přejít ke cvičením na toto téma »

Pojem „graf“ má bohužel v češtině několik odlišných významů. Mimo jiné máme grafy funkcí, grafy modelující vztahy mezi objekty a grafy znázorňující data. Zde se zabýváme posledním zmíněným významem.

  • Sloupcové grafy typicky používáme pro znázornění hodnot pro několik kategorií (např. počet obyvatel pro jednotlivé státy). Data jsou vyjádřena jako sloupečky.
  • Koláčové grafy využíváme především pro vyjádření „části z celku“ (např. jaká část lidí žije na jednotlivých kontinentech), mají blízký vztah k procentům. Data jsou vyjádřena jako výseče kruhu.
  • Spojnicové grafy využíváme pro data, která jsou přirozeně uspořádána do posloupností, především pro data měnící se v čase (např. průměrná teplota v měsících). Data jsou vyjádřena pomocí lomených čar.
  • Plošné grafy jsou podobné jako spojnicové, ale znázorňují hodnoty pomocí plochy.
  • Bodové grafy využíváme pro vyjádření vztahu mezi dvěma veličinami (např. vztah mezi výškou a hmotností žáků ve třídě). Data jsou vyjádřena pomocí bodů.

Výše uvedené typy grafů je dobré umět rozlišovat. Též se hodí znát jednotlivé součásti grafů a jejich použití.

Rozlišování typů grafů

Přejít ke cvičením na toto téma »

Pro různá data se hodí využít různé typy grafů. Tato kapitola se věnuje základnímu přehledu v těchto typech.

Sloupcový graf znázorňuje data pomocí obdélníků (sloupců), ty mohou být uspořádány svisle nebo vodorovně.

Bodový graf popisuje vztah dvou proměnných, jedna je vyznačena na svislé, druhá na vodorovné ose.

Spojnicový graf do určité míry připomíná bodový graf, body jsou navzájem spojeny křivkami. Na vodorovné ose spojnicového grafu jsou obvykle údaje o čase.

Plošný graf podobně jako spojnicový obvykle popisuje vývoj dat v čase. Oblast mezi vyznačenou hodnotou a osou je vyplněna.

Koláčový (výsečový) graf vyznačuje část celku pomocí úhlu. Čím větší je určitá výseč, tím větší část celku znázorňuje.

Pokročilé typy grafů

Histogram zobrazuje rozložení dat pomocí sloupců, jejichž výška odpovídá četnosti dat v daném intervalu. Narozdíl od sloupcového grafu nejsou na vodorvné ose kategorie, ale spojitá proměnná (např. věk).

Krabicový graf (boxplot) umožňuje rychle porovnat vícero rozložení dat. Obdélník zobrazuje interval, ve kterém leží polovina dat, čára uvnitř obdélníku značí medián. Význam čar výcházejících z obdélníku se různí, můžou například zobrazovat maximální rozsah dat.

Sloupcový graf (bar chart) znázorňuje data pomocí obdélníků (sloupců), jejichž délka odpovídá hodnotě, kterou představují. Sloupce mohou být uspořádány svisle nebo vodorovně. Vodorovně uspořádané sloupcové grafy se také někdy označují jako řádkové či pruhové.

Typ zobrazených dat

Sloupcový graf se používá především pro vyjádření hodnot příslušných ke kategorickým datům.

kategorická proměnná (jednotlivé sloupce) příslušná hodnota (délka obdélníku)
nemoci počty úmrtí
státy rozlohy
města počty obyvatel
sociální sítě počty uživatelů

Sloupcový graf většinou není vhodný pro zobrazení změn v čase, k tomu lépe slouží spojnicové grafy.

Varianty grafu

Skupinový sloupcový graf (grouped bar chart, clustered bar chart) pro každou skupinu zobrazuje několik hodnot formou sloupců vedle sebe. Následující příklad pro každou zemi zobrazuje spotřebu zvlášť piva a vína.

Skládaný sloupcový graf (stacked bar chart) zobrazuje také pro každou skupinu několik hodnot, ale ty jsou nyní poskládány nad sebe, díky čemuž můžeme snadno porovnávat jejich součet. Následující graf zobrazuje zisky medailí z olympiád. Medaile jsou dělené podle své hodnoty (zlato, stříbro, bronz), současně však snadno vidíme i celkové zisky.

Nevhodná zobrazení sloupcového grafu

Sloupcové grafy se někdy zobrazují pomocí 3D znázornění (kvádry místo obdélníků). Tento způsob zpracování většinou není vhodný, protože je náročnější z něj přesně odhadnout zobrazené hodnoty.

Sloupce někdy nebývají přesně úměrné příslušné hodnoty („graf nezačíná od nuly“), což může být zavádějící a uměle vytvářet dojem, že rozdíly mezi kategoriemi jsou větší než ve skutečnosti.

Koláčový graf je kruhový graf s různě barevnými výsečemi. Někdy se též označuje jako výsečový.

Velikosti jednotlivých výsečí (přesně řečeno jejich délky oblouků, středové úhly a obsahy) odpovídají tomu, jakou část z celku tvoří zobrazovaná hodnota. Někdy jsou výseče popsané počty procent z celku, jindy přímo hodnotami.

Co například vidíme z grafů na obrázku:

  • Perníčků je ve spíži 23 % z celkového množství cukroví. To je jen o trochu méně než 25 % – neboli necelá čtvrtina.
  • Lineckého a pracen je dohromady 50 %, tedy polovina celkového množství.
  • Do zázvorek se dává 20 gramů sušeného zázvoru. To je mnohem méně, než kolik se dává cukru. Cukru se dává 280 gramů.
  • Světle modrá výseč odpovídající cukru je čtrnáctkrát větší než šedivá výseč odpovídající sušenému zázvoru.

Koláčové grafy můžeme použít ke znázornění relativních četností hodnot znaku.

Pro čtenáře není úplně jednoduché přesně v koláčovém grafu porovnávat velikosti jednotlivých výsečí, proto bývá doporučováno:

  • Nijak koláčové grafy nenaklápět, aby perspektiva příliš nezkreslila skutečnost.
  • Pokud by výsečí měl být větší počet (než 7) nebo by byly některé výseče hodně malé, je lepší použít pro větší názornost raději jiný typ grafu (například sloupcový).

Spojnicový graf znázorňuje data pomocí bodů spojených do lomených čar nebo křivek. Dává nejvíce smysl pro data, která jsou přirozeně uspořádána do posloupností, třeba podle času.

Ukázka:

Jak je vidět na grafu v ukázce, hodnoty na osách (například délka vlasů v centimetrech) nemusí vůbec začinat nulou. V našem grafu začínají hodnoty na svislé ose číslem 60.

V ukázce jsou zobrazované hodnoty délky vlasů dvou princezen v závislosti na čase. Tmavě modrá lomená čára ukazuje délku vlasů princezny Lociky od ledna do prosince. Vidíme, že princezně postupně rostou vlasy. Od ledna do února se délka vlasů Lociky zvětšila z 80 cm na zhruba 81 cm.

Oranžová lomená čára znázorňuje délku vlasů princezny Elsy od ledna do prosince. Na spojnicovém grafu můžeme jednoduše porovnat hodnoty na svislé ose (délka vlasů) u bodů se stejnou hodnotou na vodorovné ose (stejný měsíc). Například v dubnu měla Elsa vlasy dlouhé zhruba 72 cm a Locika zhruba 83 cm.

Na první pohled si všimneme, že oranžová lomená čára se nachází pod tmavě modrou lomenou čárou a nikde se nekříží. Takže Locika má vžycky delší vlasy než Elsa. Kdyby se v některém časovém bodě lomené čáry překřížily nebo překrývaly, znamenalo by to čas, kdy měly obě princezny stejně dlouhé vlasy.

Bodový graf (scatter plot) znázorňuje hodnoty dvou proměnných vztahujících se ke stejnému objektu. Například následující graf zobrazuje průměrnou teplotu v lednu a červnu pro různá evropská města.

Bodový graf může zobrazovat informace i o další proměnných pomocí různých ztvárnění bodů. Například v následujícím graf ukazuje pro státy světa dvě hlavní proměnné: střední délku života mužů a střední délku života žen. Tyto proměnné určují polohu bodů. Krom toho graf ještě zobrazuje velikost populace jednotlivých států (velikost bodů) a jejich příslušnost ke kontinentům (barva bodů).

Varianta bodového grafu s různě velkými body se někdy nazývá bublinový graf (bubble chart).

Histogram znázorňuje počet výskytů různých hodnot sledované veličiny a často se používá, pokud měříme stejnou veličinu pro různé subjekty nebo v různých časech. Například následující histogram ukazuje hmotnost 200 různých lidí:

Měřená veličina (hmotnost) je rozdělena do několika intervalů, přičemž každý interval je reprezentován sloupcem. Výška sloupce ukazuje, kolikrát změřená hodnota padla do daného intervalu. Graf ukazuje, že hmotnost mezi 65 a 70 kg má právě 30 lidí.

Volba šířky intervalů

Důležitou volbou při tvorbě histogramů je velikost intervalů. Příliš široké intervaly mohou skrýt důležité rozdíly, protože odlišná pozorování shromáždí do stejného intervalu. Použití příliš úzkých intervalů naopak znamená, že v každém bude příliš málo pozorování, a vynikne statistický šum.

Histogramy s více třídami

Pokud je v datové sadě zastoupeno několik různých tříd (např. muži a ženy), je možné histogramy pro obě třídy překrýt, aby lépe vynikly rozdíly mezi těmito třídami. Následující histogram ukazuje, že ženy jsou zpravidla menší než muži, ale existuje i značný překryv – nejvyšší ženy jsou větší než nejmenší muži.

Použití histogramů

Histogramy umožňují rychle identifikovat nejčastější nebo naopak neobvyklé hodnoty. Používají se také jako odhad rozložení pravděpodobnosti. V takovém případě jsou místo počtů výskytů na ose y relativní četnosti v procentech.

Věkové pyramidy

Speciálním typem histogramu je věková pyramida, která ukazuje věkové rozložení populace. Měřená veličina (věk) bývá vynesena na svislé ose a šířka sloupců nalevo, resp. napravo od svislé osy ukazuje počet mužů/žen daného věku.

Histogramy vs. sloupcové grafy

Histogramy se podobají sloupcovým grafům, jen místo kategorických tříd sledují spojitou veličinu (např. hmotnost, výška, teplota, rychlost). Použitím intervalů uměle rozdělíme data do oddělených tříd, ty jsou ale stále seřaditelné. Občas se můžete setkat i s různě širokými intervaly v rámci jednoho grafu.

Tabulkový editor (též tabulkový procesor, anglicky spreadsheet) je program pro zpracování tabulkových dat. Mezi známé tabulkové editory patří Microsoft Excel, LibreOffice Calc a Google Spreadsheets. Cvičení na Umíme informatiku není vázané na jeden konkrétní program, ale soustředí se na základní principy, které jsou společné všem těmto editorům:

  • Buňky, řádky, sloupce – značení buněk v tabulce, základní orientace v tabulkách.
  • Početní operace – zápis výpočtů v tabulkách, použití aritmetických operací (sčítání, odčítání, násobení, dělení).
  • Rozsahy – vyjádření rozsahů v tabulkovém editoru, základ pro použití rozsahů v jednoduchých funkcích.
  • Odkazy – rozdíl mezi absolutním a relativním odkazem, jejich použití.
  • Funkce – použití funkcí pro součet, průměr, počet, zaokrouhlování a podobně.
  • Podmínky – použití podmínek v tabulkovém editoru.

Tipy k procvičování tabulek na Umíme

  • Rozhodovačka je vhodná pro úvodní seznámení s tématem nebo pro zopakování pojmů (např. po prodlevě v používání).
  • Jako další krok je vhodné Přesouvání, které spočívá v doplňování chybějících dílčích částí do předpřipravené statické tabulky.
  • Cvičení Tabulky je již založeno na plnohodnotné práci s tabulkovým editorem. Zadaná předpřipravená data si otevřete v libovolném tabulkovém editoru a máte za úkol zjistit z nich určitou informaci. Jaké bylo nejčastější křestní jméno dětí narozených v roce 1960?

Tabulky: buňky, řádky, sloupce

Přejít ke cvičením na toto téma »

V listech tabulky v tabulkovém procesoru (editoru) jsou data uspořádaná do řádků a sloupců. Sloupce jsou označené písmeny (A, B, C…) a řádky čísly (1, 2, 3…). Každá buňka má tedy určitou pozici, kterou lze vyjádřit označením sloupce a řádku, v nichž se nachází. Například:

  • A1 – Odkaz na obsah buňky ve sloupci A a v řádku 1.
  • C10 – Odkaz na obsah buňky ve sloupci C a v řádku 10.

Rozepsaný příklad: adresy buněk v tabulce

A B C D E F
1 A1 B1 C1 D1 E1 F1
2 A2 B2 C2 D2 E2 F2
3 A3 B3 C3 D3 E3 F3
4 A4 B4 C4 D4 E4 F4

Záhlaví (to se nachází zpravidla v prvním řádku) či první sloupec tabulky obvykle obsahují informace o tom, jaká data jsou obsažena v dalších řádcích či sloupcích.

Příklad tabulky se záhlavím: vymyšlení živočichové

A B C D E
1 oči nohy umí plavat počet v bažině
2 mažout 5 9 ano 15
3 pabuch 6 5 ne 3
4 slizolop 9 3 ano 7
  • V buňce C1 informace o tom, že ve sloupci následují počty nohou.
  • V buňce A3 je informace o tom, že v řádku budou následovat informace o pabuchovi.
  • Počet nohou pabucha je pak v buňce C3.

Tabulky: početní operace

Přejít ke cvičením na toto téma »

Tabulkový procesor lze využít k výpočtům. Vzorce vždy začínají znakem rovná se (=), tedy např. po zadání =5+2 do buňky se vypíše 7.

Základní početní operace se provádějí s použitím následujících znamének.

  • sčítání: +
  • odčítání: -
  • násobení: *
  • dělení: /

Při počítání je výhodné využívat odkazy na jiné buňky. Pokud se změní hodnota v buňce, z níž se berou data pro výpočet, změní se i výsledek výpočtu.

Příklady výpočtů: vymyšlení živočichové

A B C D E
1 oči nohy umí plavat počet v bažině
2 mažout 5 9 ano 15
3 pabuch 6 5 ne 3
4 slizolop 9 3 ano 7
  • =B2+B4 spočítá součet očí mažouta a slizolopa
  • =C2-C3 spočítá rozdíl mezi počtem nohou mažouta a pabucha
  • =C3*E3 spočítá počet nohou všech pabuchů v bažině

V tabulkovém procesoru je mnohdy výhodné rozšířit vzorec do nových řádků, a to sice obvykle kliknutím na pravý dolní roh buňky a tažením.

Příklad: rozšíření vzorce

Pokud bychom v řádku 2 spočítali hmotnost avokád, mohli bychom jednoduše rozšířit vzorec s výpočtem do řádků, které se týkají dalších druhů zeleniny.

Rozsahy, které obsahují víc než jednu buňku, zapisujeme pomocí dvojtečky. Například:

  • A2:A4 zadává rozsah tvořený třemi buňkami (A2, A3 a A4) v prvním sloupci.
  • C3:F7 zadává rozsah, který se táhne přes pět řádků (3, 4, 5, 6, 7) a čtyři sloupce (C, D, E, F). Tento rozsah má 5 * 4 = 20 buněk.

Rozsahy A3:F3 a C1:E4 mají společné buňky C3, D3 a E3.

Funkce mohou brát jako některé ze svých vstupních argumentů rozsah(y). Například =SUM(B1:C2) vypočítá součet čísel v buňkách B1, B2, C1 a C2.

Odkazy umožňují používat ve vzorcích hodnoty z jiných buněk. Mějme např. odkaz B3, který směřuje na hodnotu ve sloupci B na řádku 3. Vzorec =B3*2 by pak vypsal dvojnásobek hodnoty v buňce B3.

Často se hodí vzorec rozšířit do dalších buněk tabulky přetažením či pomocí schránky, abychom podobný výpočet provedli na dalších datech.

Relativní odkaz se změní, když jej rozšíříme či nakopírujeme do jiné buňky. Pokud bychom vzorec =B3*2 rozšířili směrem doprava, v nové buňce by se změnil na =D3*2.

Absolutní odkazy obsahují znak dolaru ($). Část odkazu za tímto symbolem se „uzamkne“ a při kopírování/přesouvání odkazu se nemění. Pokud bychom vzorec =$B$3*2 rozšířili směrem doprava, v nové buňce by měl zcela stejnou podobu.

V rámci absolutních odkazů je možné při přesouvání/kopírování učinit neměnným jen sloupec ($B3 se změní jen při přesunu nahoru/dolů) či jen řádek (B$3 se změní jen při přesunu doleva/doprava).

Absolutní odkazy lze používat i při vyjadřování rozsahů v argumentech funkcí, např. =SUM($A1:$E1) sečte vždy prvních pět buněk v řádku.

V tabulkovém procesoru lze používat funkce. Jejich využití vypadá takto: =NÁZEVFUNKCE(argument). Argument představuje data, s nimiž funkce bude pracovat. Může se jednat o číselné hodnoty (např. 2, 0,01), odkazy na buňky či rozsah (např. B2, B2:C5), vzorce či další funkce. Argumenty se v českém uživatelském prostředí oddělují středníkem (;), v anglickém čárkou (,).

Základní funkce (mimo těch souvisejících s podmínkami) uvádíme dále. Cvičení v této kapitole pracují hlavně s anglickými názvy funkcí (ty často odpovídají označení funkcí v programovacích jazycích).

funkce význam název v češtině
SUM(rozsah) Spočítá součet hodnot v rozsahu. Např. =SUM(A1:A3) spočítá =A1+A2+A3. SUMA
MIN(rozsah) Najde nejmenší hodnotu v rozsahu.
MAX(rozsah) Najde největší hodnotu v rozsahu.
AVERAGE(rozsah) Spočítá aritmetický průměr hodnot v rozsahu. Aritmetický průměr čísel 1, 1, 1, 2, 55 je 12. PRŮMĚR
MEDIAN(rozsah) Spočítá medián hodnot v rozsahu (medián je číslo, které je větší nebo rovno alespoň polovině hodnot a zároveň menší nebo rovno alespoň polovině hodnot). Medián čísel 1, 1, 1, 2, 55 je 1.
COUNT(rozsah) Spočítá počet buněk s číselnými hodnotami v rozsahu. POČET
ABS(číslo) Spočítá absolutní hodnotu čísla.
SIGN(číslo) Spočítá znaménko čísla (-1 pro záporné, 0 pro nulu a 1 pro kladné číslo).
ROUND(číslo; počet) Zaokrouhlí číslo na zadaný počet desetinných míst, pokud není zadaný počet, zaokrouhluje se na celá čísla. ZAOKROUHLIT
ROUNDUP(číslo; počet) Zaokrouhlí číslo nahoru na zadaný počet desetinných míst. Pokud není zadaný počet, zaokrouhluje se na celá čísla. Lze zadat záporný počet desetinných míst, např. počet -3 znamená zaokrouhlení nahoru na tisíce.
ROUNDDOWN(číslo; počet) Zaokrouhlí číslo dolů na zadaný počet desetinných míst. Pokud není zadaný počet, zaokrouhluje se na celá čísla. Lze zadat záporný počet desetinných míst, např. počet -1 znamená zaokrouhlení dolů na desítky.
DEGREES(úhel) Převede úhel v radiánech na úhel ve stupních. DEGREES(1,570796327) vyjde 90.
RADIANS(úhel ve stupních) Převede úhel ve stupních na úhel v radiánech. RADIANS(90) vyjde 1,570796327.
SIN(úhel) Spočítá sinus úhlu, úhel je zadaný v radiánech. SIN(1,570796327) vyjde 1.
COS(úhel) Spočítá kosinus úhlu, úhel je zadaný v radiánech. COS(1,570796327) vyjde 0.

Použití podmínek v tabulkovém editoru umožňuje určité buňky ovlivnit přítomností hodnot v jiných buňkách. Dále uvádíme přehled funkcí souvisejících s podmínkami včetně příkladů navázaných na ukázkovou tabulku.

funkce použití příklad (s tabulkou níže) obvyklý název funkce v češtině
IF(podmínka; když pravda; když nepravda) Vypíše text či použije vzorec na základě obsahu jiné buňky. =IF(E2>10;"hodně";"málo") vypíše hodně (Diorit má více než 10 předmětů). KDYŽ
COUNTIF(rozsah; podmínka) Spočítá výskyty hodnot v rozsahu odpovídající podmínce. =COUNTIF(E2:E5;">10") vypíše 2 (2 pračlověci mají více než 10 předmětů).
SUMIF(rozsah; podmínka) Sečte hodnoty v rozsahu, které odpovídají podmínce. =SUMIF(E2:E5;">10") vypíše 30 (sčítáme předměty těch pračlověků, kteří jich mají více než 10).

V rámci kritérií podmínek je možné používat logické spojky NOT (negace, česky NE), AND (A) či OR (NEBO). Např. =IF(OR(B2>3;C2>3);TRUE;FALSE) vypíše, zda má Diorit více než 3 rohy pratura či perly (TRUE).

Řazení dat v tabulkách

Přejít ke cvičením na toto téma »

Pro práci s daty se často využívají tabulky, v nich lze různě řadit zahrnutá data. Uvažme třeba následující tabulku evidující data o tom, kolik má kdo z kamarádů rybiček:

jméno příjmení počet rybiček
Linda Veselá 3
Jirka Novák 0
Aneta Procházková 12
Vincent Černý 5

Data v tabulkách se obvykle řadí podle určitých sloupců. Pokud má tabulka záhlaví (tedy první řádek, který říká, jaká data budou následovat), záhlaví při řazení zůstává na svém místě. Řadí se jen data, která se k němu vztahují.

Použijeme-li vzestupné řazení podle příjmení, dostaneme kamarády v tomto pořadí:

jméno příjmení počet rybiček
Vincent Černý 5
Jirka Novák 0
Linda Veselá 3
Aneta Procházková 12

Všimněte si, že společně s příjmeními jsme vždy seřadili i související data v řádcích (jméno, počet rybiček). Pokud bychom řadili samotný sloupec s příjmením, data by se nám „pomíchala“:

jméno příjmení počet rybiček
Linda Černý 3
Jirka Novák 0
Aneta Veselá 12
Vincent Procházková 5

Databáze slouží ke strukturovanému ukládání informací a mají dnes široké použití. Nejrozšířenějším typem databází jsou relační databáze, ve kterých se data ukládají v podobě tabulek.

Pro práci s databázemi se používají dotazovací jazyky (query languages). Tyto jazyky obvykle umožňují nejen databáze vytvářet a modifikovat, ale především v nich vyhledávat informace. Velmi často se používá jazyk SQL.

  • Základy SQL: tvorba tabulek, vkládání a aktualizování záznamů, jednoduché vyhledávání.
  • Select: příkaz pro vyhledání informací v databázi.

Databáze slouží ke strukturovanému ukládání informací. Jako uživatelé se s nimi běžně nesetkáme, existují však na pozadí mnoha webových stránek a služeb, které využíváme. Data v databázi musí být snadno vyhledatelná. Také je žádoucí, aby bylo možné nová data snadno přidávat. Protože se v databázích často ukládají i citlivá data, pro zajištění bezpečnosti uložených informací se databáze obvykle šifrují. Pro vytváření a práci s databází se v praxi obvykle používají databázové softwary, například MySQL, NoSQL nebo Microsoft Access.

Aby se v databázích dalo snadno vyhledávat a rozšiřovat je, používají se různé databázové architektury, které nám toto umožní.

Nejrozšířenějším typem jsou relační databáze. Data se zde ukládají v tabulkách. V řádcích tabulky jsou uložené jednotlivé záznamy, každý záznam odpovídá jedné entitě (například konkrétní osobě, věci apod.). Sloupce tabulky odpovídají atributům, tedy jednotlivým vlastnostem záznamů. V hlavičce tabulky najdeme názvy jednotlivých atributů. Vyhledávání v tabulce nám zjednodušují kandidátní klíče — skupiny atributů, které jednoznačně identifikují a odliší každý záznam v tabulce. Z kandidátních klíčů se pro každou tabulku vybírá jeden primární klíč. Jedna relační databáze se obvykle skládá z většího množství tabulek, které mezi sebou můžeme propojovat pomocí primárních klíčů a vyhledávat tak odpovědi na složitější dotazy o našich datech.

Existují i další hojně používané typy databází. V posledních letech se rozšiřují možnosti ukládat nestrukturovaná data, například NoSQL databáze.

Příklady použití příkazů jazyka SQL

Vytvoří tabulku z názvem fish a atributy name typu varchar(80) a age typu int.

Odstraní celou tabulku fish.

Přidá do tabulky fish nový záznam o rybě Julii

Odstraní záznam o rybě jménem Alice. Pomocí WHERE můžeme definovat různé podmínky výběru záznamů.

Nastaví věk všech ryb na 0. Přidáním WHERE můžeme omezit záznamy, které upravíme.

Zobrazí jména všech ryb, kterým je 7 let

Všechny příkazy kromě SELECT nějakým způsobem modifikují tabulky, SELECT obsah databáze nijak nemění a pouze vrací informace v podobě tabulky.

Kdykoliv potřebujete v textu něco nahradit, najít nebo poupravit, můžete k tomu využít regulárních výrazů. Především u rozsáhlejších textů je jejich používání velice užitečné. Regulární výrazy široké uplatnění v mnoha programovacích jazycích (především skriptovacích jako Python, PHP, Perl, JavaScript). Můžete je ale použít i unixových příkazech (např. grep) nebo v textových editorech (např. Notepad++, Emacs). Regulární výrazy jsou velice bohaté. V našich příkladech shrneme především základní operátory.

Základní vyhledávání

Přejít ke cvičením na toto téma »

Základními prvky regulárních jazyků jsou obyčejná písmena. Ty při vyhledávání odpovídají sami sobě. Pokud tedy zadáme regulární výraz kr, tak mu budou odpovídat slova, která obsahují podřetězec „kr“.

Tečka odpovídá libovolnému znaku.

Metaznaky jsou speciální znaky, které používáme na konstrukci regulárních výrazů (např. .*+?). Co když ale chceme hledat právě tyto znaky? Na to použijeme zpětné lomítko, které ruší význam metaznaku a chápe jej jako znak obyčejný.

Pomocí následujících speciálních znaků můžeme v regulárním výrazu označit skupiny písmen:

[] výběr znaku v závorkách, např. [aeiouy] značí libovolnou z uvedených samohlásek
[ - ] výběr znaku z intervalu, např. [a-z] značí libovolné malé písmeno anglické abecedy
[^ ] negovaný výběr znaku, např. [^aeiouy] značí vše kromě uvedených samohlásek
\d číslice (to samé jako [0-9])
\D vše kromě číslic (to samé jako [^0-9])
\w alfanumerické znaky (to samé jako [a-zA-Z0-9_])
\W vše kromě alfanumerických znaků (to samé jako [^a-zA-Z0-9_])
\s „bílé” znaky (mezera, tabulátor, znaky pro zalomení řádků)
\S vše kromě „bílých” znaků

Dále můžeme využít následující konstrukce, které vymezují více možností, případně seskupují znaky k sobě:

| odděluje několik dílčích výrazů (ahoj|nazdar odpovídá právě jednomu z pozdravů)
() podřetězec, na nějž je možno aplikovat kvantifikátor (ko(ko)?s odpovídá právě kos a kokos)

Kvantifikátory v regulárních výrazech vyznačují, kolikrát se má předcházející výraz opakovat. Například hvězdička v pe*s značí libovolný počet výskytů písmene e.

* libovolný počet opakování
+ jedno nebo více opakování
? volitelný výskyt (~ 0 nebo 1 opakování)
{n} právě n výskytů
{n,m} nejméně n, nejvíce m výskytů

Pomocí následujících speciálních znaků můžeme v regulárním výrazu označit hranice (začátek, konec) slov i celých řetězců:

^ začátek řetězce
$ konec řetězce
\b začátek či konec slova
NAPIŠTE NÁM

Děkujeme za vaši zprávu, byla úspěšně odeslána.

Napište nám

Nevíte si rady?

Nejprve se prosím podívejte na časté dotazy:

Čeho se zpráva týká?

Vzkaz Obsah Ovládání Přihlášení Licence