Data, data, data
Abychom odemkli mobil rozpoznáním obličeje, musí nás mobil umět rozpoznat. Stejně tak, když chceme vytvořit program s AI, který umí rozpoznat škodlivé e-maily, potřebujeme dostatek příkladů takových e-mailů. Nebo pokud chceme překládat jazyky, potřebujeme dostatek textů. Obrázky, texty, zvuky, videa, … to všechno můžeme pojmenovat jako data.
Data můžeme v principu rozdělit na dva hlavní druhy:
-
Strukturovaná data: Představte si, že pravidelně sledujete a zapisujete počasí. Máte připravenou tabulku v počítači, která má jasně dané sloupce (například datum, teplota a tlak vzduchu). Každé ráno uděláte měření a zapíšete výsledek do nového řádku tabulky. Data jsou uspořádána do předem jasného formátu, s jasnými pravidly pro zapisování dat. Taková data se programům snadno zpracovávají.
-
Nestrukturovaná data: Mohou zahrnovat umělecký text, zvuky, obrázky nebo videa. Tato data jsou pro počítačové programy mnohem složitější na další zpracování, protože nejsou uspořádaná do přehledných tabulek. A hlavně: nejsou to jen čísla, je to zaznamenaná lidská kreativita. Představte si, že rádi fotíte ptáky. Máte v mobilu spoustu fotek a ihned víte, na které je vlaštovka nebo kos. Počítač to ale neví, dokud ho to někdo nenaučí. Zde už jsme velmi blízko tzv. strojovému učení, o kterém si povíme za chvíli.