Program DataCollector

Nová aplikace pro sběr dat

Uživatelé pořizující rozsáhlé soubory dat například z dotazníkových šetření stojí před úkolem, jak převést sebrané údaje do datové podoby. Pro tento účel jsou nejčastěji používány takové aplikace jako MS Excel, což však přináší řadu nevýhod. Jednou z nich je vysoká pravděpodobnost zápisu chybných údajů, protože sebrané údaje je potřeba nějakým způsobem kódovat. Programy jako MS Excel totiž dovolí do pole zapsat jakoukoli hodnotu. Proto se zpracovatelům dat často stává, že například v poli, kde mají být pouze číselné údaje, jsou nalézány i údaje textové, kód může být zapsán do neodpovídajícího pole atd. Proto byla vyvinuta nová aplikace DataCollector, která dokáže zajistit správné kódování údajů, které zapisuje do databázové tabulky. Používány jsou tabulky dBase/FoxPro (dbf), případně lze zajistit konektivitu programu s většinou používaných databází. Data je možné exportovat i do jiných formátů.

Struktura databázových tabulek je určována na základě charakteru a struktury sbíraných dat, nejčastěji tedy na základě dotazníku.

V současnosti je k dispozici první verze programu, která byla uplatněna a testována při dotazníkovém šetření ve vybraných chráněných oblastech ČR v rámci projektu GA ČR Protected areas – social deal on nature protection. Vlastní dotazník pro sběr dat lze nalést zde. Zájemci o bezplatné časově omezené vyzkoušení aplikace mohou napsat žádost na ids@infodatasys.cz. Program je distribuován zdarma těm uživatelům, kteří objednají zpracování příslušných dat u firmy IDS. Pro ostatní je program k dispozici za běžnou cenu.

 

Nastavení - specifikace struktury dat

To, jak bude program vypadat, tedy jaké bude mít ovládací prvky, je definováno v souboru nastavení. Jedná se jednoduchý INI soubor - tedy textový soubor, který je možno vytvářet a modifikovat v libovolném textovém editoru, například v Poznámkovém bloku Windows. Data jsou členěna na "moduly", které odpovídají jedné otázce reprezentované jedním nebo několika sloupci ve vytvářené databázové tabulce. Příkladem může být část nastavení jednoho modulu:

[Oblast]
Text=Chráněné území
FN=Region
Type=NUMERIC(2,0)
Field=Switch
Item1=NP Šumava 
Value1=1
Item2=CHKO Šumava
Value2=2
Item3=CHKO Třeboňsko 
Value3=3
Item4=CHKO Křivoklátsko 
Value4=4
Item5=CHKO Lužické hory 
Value5=5
Item6=CHKO Labské pískovce 
Value6=6
Item7=CHKO České středohoří 
Value7=7
Item8=NP České Švýcarsko 
Value8=8
Jednodušší je však užít příslušný nástroj aplikace DataCollector.
Každý případ - vyplněný dotazník bude v datech odpovídat jednomu řádku databázové tabulky.

Nastavení se řídí strukturou sbíraných dat, tedy například jednotlivými otázkami dotazníkového šetření a povolenými možnostmi odpovědí. Každá otázka představuje samostatný modul, pro který je potřeba definovat jeho název, zadat příslušný text (nejlépe text vlastní otázky), definuje se jméno pole v databázové tabulce a typ tohoto pole. V případě otáky s možností výběru jedné nebo více odpovědí z předem zadaného seznamu je definován příslušný seznam přípustných odpovědí. Ke každé odpovědi je možno přiřadit textové pole, kam je později možno zapsat libovolný text.

Vlastní sběr dat

Nejjednodušší moduly typu Edit a Memo představují pouze editační řádek pro vyplnění odpovídající datové hodnoty (tou je zpravidla celé číslo, reálné číslo, datum, čas nebo jeden až několik málo libovolných znaků) nebo box pro zápis libovolného textu odpovědi.

Okno aplikace má následující tlačítka:

Tvorba nového projektu, tedy souboru nastavení (*.ini), s nímž bude spojen nový soubor dat.
Editace stávajícího souboru nastavení. Stávající datový soubor bude vymazán, takže je potřeba jej zálohovat v případě potřeby uchování stávajících dat. Zálohování je možno provést jako export dat do nové databázové tabulky. Tento export lze uskutečnit z okna pro zobrazení dat ve formě gridu. Viz též Příprava zpracování dat.
Otevření projektu - dat pro editaci. Data se vybírají otevřením příslušného souboru nastavení (*.ini)
Zavření datové tabulky.
Zobrazení celé datové tabulky ve formě gridu. Editace dat v této podobě se doporučuje pouze zkušeným uživatelům. Zde lze celou tabulku před dalším zpracováním dat rovněž exportovat do jiného datového formátu.
Spuštění nebo ukončení módu zadávání dat po jednotlivých datových modulech (otázkách).
Informace o definovaných datových modulech v projektu. Tyto informace zahrnují jména polí v datové tabulce a seznam přípusných hodnot. Jedná se o dokument, který lze uložit ve formě textu.
Tlačítka navigátoru slouží pro přechod mezi jednotlivými záznamy (řádky) tabulky.
Přidání nového záznamu (řádku).
Vymazání stávajícího aktivního záznamu (řádku).
Vytvoření SQL dotazu SELECT pro zobrazení výběru z dat nebo jiného dotazu nad daty pomocí vizuálního nástroje.
Import dat.
Tvorba grafu (Field categorized graph). Tento nástroj lze využít pro první vizuální analýzu sebraných dat.
Informace o programu
Předchozí datový modul (otázka) v rámci stávajícího záznamu (řádku). Tlačítko je viditelné pouze v případě spuštění módu pro zadávání dat.
Následující datový modul (otázka) v rámci stávajícího záznamu (řádku). Jedná-li se o poslední datový modul posledního záznamu, bude uživatel dotázán, přeje-li si vytvořit nový záznam (řádek) v datech. Tlačítko je viditelné pouze v případě spuštění módu pro zadávání dat.

Výběr z několika možností: přepínač

V rámci dotazníkových šetření je nejčastěji odpověď vybírána z několika předdefinovaných možností. Takto lze zapsat nejen odpovědi typu ANO/NE, ale i volbu z libovolně rozsáhlého seznamu. Důležité však je, že se do databázové tabulky zaznamenává pouze jediná odpovídající hodnota. Není-li taková hodnota pro položku seznamu zapsána v souboru nastavení, zapisuje se pořadové číslo odpovědi ze seznamu odpovědí.

Odpovídající nastavení modulu (část INI souboru) je uvedeno výše.

Přepínač doplněný textovým polem

Jedna nebo i více možností v seznamu může být doplněna pdpovídajícím textovým polem nebo souborem textových polí, jak ukazuje následující obrázek. Zde je možno odpověď ANO doplnit libovolným textem.

Takovýto modul je definován následující sekcí INI souboru:

[Otázka 3]
Text=Uvažujete o tom, že byste se z oblasti odstěhovali?
FN=Q3
Type=Boolean
Field=Switch
Count=2
Item1=ano
Value1=True
Item2=ne
Value2=False
CondText=1;ano - můžete uvést proč?

Několik možností současně: zaškrtávací boxy

V případě, že je potřeba vybrat ze seznamu odpovědí více možností, je potřeba odpovídající modul realizovat ve formě souboru zaškrtávacích boxů, jimž v databázové tabulce odpovídá příslušný počet sloupců s logickými hodnotami. Každá volba v seznamu může být případně opět doplněna textovým polem.

Odpovídající sekce INI souboru:

[Osobní údaje 6a]
Text=Pokud ano, mohli byste v seznamu označit, oč se jedná: 
FN=REALT
Type=MultiBool
Field=Check
Count=12
Item1=pole
Item2=les
Item3=zahrada
Item4=rybník
Item5=dům k trvalému bydlení
Item6=rekreační objekt
Item7=výrobní objekt (např. dílna, sklady, kravín ...)
Item8=stavební pozemek
Item9=něco jiného
CondText=9;něco jiného

Příprava zpracování dat

Data je možno exportovat do různých typů souborů - prostý text, tabulka Paradox (*.db), tabulka dBase/FoxPro (*.dbf) nebo soubor MS Excel (*.xls). Exportovat je možno všechna data nebo jejich část vytvořenou SQL dotazem SELECT. SQL dotazy lze vytvářet v obecném nástroji. Pomocí SQL funkcí COUNT, AVG, SUM, MAX a podobných lze získat i základní přehled o sbíraných datech.

Grafy - první náhled na sebraná data

Kategoriální nebo ordinální proměnné lze dobře charakterizovat jejich frekvencemi. Program umožňuje vytvářet frekvenční grafy jedné proměnné (tu lze vybrat v levém sloupci v okně pro tvorbu grafů) nebo dvou proměnných, přičemž první proměnná představuje hlavní kategorie a druhá (kategorizovaná) proměnná vytváří subkategorie v rámci první. Následující obrázek ukazuje takový příklad s vykreslenými absolutními frekvencemi, přičemž přehled všech použitých hodnot a celková sumu jejich frekvencí jsou uvedeny v příslušné tabulce:

Často se stává, že hodnota u některé proměnné není vyplněna. Tehdy může být užitečné nezapočítávat frekvence takových případů s nevyplněnými hodnotami, což se jeví jako důležité zvláště při porovnávání relativních frekvencí. Ty může uživatel rovněž vykreslit po zaškrtnutí příslušného políčka, jak uvádí následující příklad.

Je-li potřeba analyzovat pouze nějakou podmnožinu zaznamenaných dat v projektu, mohou být použity omezující podmínky, které je potřeba zapsat v poli Common conditions. Podmínky mohou být zapsány například způsobem

REGION=4
nebo
Q3=True and Q5>0
Jedná se o libovolný výraz, který může být v SQL příkazu SELECT zapsán v klauzuli WHERE.

Tvorba grafu, jeho úprava a případný export se provádějí pomocí tlačítek:

Show graf - vykreslí graf podle nastavených proměnných.
Properties - vyvolá okno pro nastavování vlastností grafu.
Copy graph - kopíruje graf do schránky Windows.
Save graph - umožňuje uložit graf do souboru (jako metasoubor nebo bitmapu).

 


© Karel Matějka - IDS (2012-2013)