Digitalizace fytocenologických tabulek
Karel Matějka, IDS - Praha
Velmi náročným úkolem bývá převod fytocenologických tabulek z jejich původní písemné podoby do datové formy tak, aby byly obsažené fytocenologické snímky použitelné při následujícím počítačovém zpracování. Existují v podstatě dvě možnosti. Jednou je manuální přepis tabulek nebo jejich částí do určitého datového zdroje (většinou databáze) pro nějaký výpočetní systém používaný při zpracování fytocenologických snímků. Jedná se vlastně o nové pořizování dat, které je velmi časově náročné a navíc může při něm snadno docházet k zanášení nových chyb do dat. Druhou možností je použití nějaké technologie, která značnou část prací může automatizovat. V dalším je představena právě takováto technologie, která používá vhodné nástroje firmy IDS.
Postup prací
Databáze skenovaných materiálů
Fytocenologické tabulky je možné skenovat a výsledné soubory uchovávat i bez použití nějakého informačního systému. Takový postup však velmi brzo začíná narážet na možnosti pracovníků orientovat se ve velkém množství shromážděných dat. Zde se naskýtá možnost použít nějaký informační systém, který dokáže popsat jednotlivé soubory s rastry vzniklými skenováním. Takovým systémem je produkt TextSearch, který je vlastně databází souborů s bitmapami, které jsou provázány s dalšími informacemi v databázi a v řadě dalších textových souborů. Další informace o použití systému TextSearch je možné najít na jiných místech.
Nyní je již možné vybírat potřebné materiály přímo v databázi a prohlížet si je. Výběry je možné provádět i podle názvů tabulek, přiřazených klíčových slov a dalších metainformací, které jsou do databáze zařazeny. Stále však nelze pracovat s daty vlastních fytocenologických snímků.
Základní okno programu TextSearch podává hlavní informace o zařazených dokumentech:
V okně pro prohlížení bitmap (rastrů) lze přímo studovat jednotlivé strany vybraného dokumentu. Z tohoto okna lze přímo vyvolat i vhodné programy pro automatické rozpoznávání textu:
Rozpoznávání tabulek
Převod do textu se provádí s použitím vhodných OCR systémy (systémů pro automatické rozpoznávání textu. Pro tento účel byl vyzkoušen program Recognita (použita byla verze5.0), který dokáže pracovat i s tabulárně uspořádanými texty a navíc je použitelný přímo v návaznosti na program TextSearch. Jeho dalšími výhodami je například
Jako vhodný postup se jeví převod rozpoznaných tabulek do formátu MS Word. Zde je možné text tabulky upravit a dále zkontrolovat. Na závěr úpravy tabulku převedeme na plynulý text, kde jednotlivé buňky tabulky budou oddělovány středníkem.
Takový prostý text uložíme do nového souboru s koncovkou (extension) CSV. Tento soubor bude mít již podobnou strukturu, jakou mají tabulky programu DBreleve - používané databáze fytocenologických snímků.
Databáze fytocenologických snímků
Program DBreleve má několik výhodných vlastností, které jej předurčují pro ukládání dat fytocenologických tabulek různého původu, jejich úpravu a následné zpracování. Za jeho výhodné vlastnosti je možné pokládat například
Soubor *.CSV uložený pomocí MS Word je možné otevřít v programu DBreleve nejdříve jako textový soubor. V této podobě je možné soubor upravit do podoby vyžadované v databázi fytocenologických snímků. Jedná se především (a většinou jedině) o označení jednotlivých oddílů v souboru. Tyto oddíly označují parametry celé tabulky, parametry snímků a jednotlivé etáže E0 až E1. K tomuto účelu program obsahuje jednoduché nástroje v menu pod položkou "Editace souboru".
Vzhledem k použitému formátu dat lze jednoduše importovat i data z MS Excel.
Po uložení takového souboru je možné otevřít tabulku již běžným způsobem. Zde jsou jednotlivé části tabulky rozděleny na jednotlivé listy - samostatný pro popis parametrů snímků:
Další listy obsahují informace o druhovém složení jednotlivých etáží:
Možnosti dalšího zpracování
Mezi další možnosti práce s importovanými daty patří například
Tvorba tabulky charakteristik snímků z jejich záhlaví - ze záhlaví řady tabulek v databázi je možné automaticky vytvářet databázovou tabulku formátu DBF.
Výpočet charakteristik celkové diversity, druhové bohatosti a vyrovnanosti je možné provést pro jednotlivé etáže.
Výběr snímků do nových tabulek pomocí SQL dotazů. Pro užití jednoduchých výběrů nemusí uživatel znát syntax SQL dotazů, které je možné vytvářet pomocí návrháře.
Jednoduché uspořádání nových tabulek a jejich úprava. Pomocí výběru a dalších nástrojů je možné tabulky spojovat nebo jinak přetvářet.
Tisk tabulek je možný přes libovolný textový editor.
Export dat pro další zpracování se v současnosti provádí přes formát PC-ORD. Soubory tabulek však lze přímo načíst i v jiných programech - například v MS Excel.
Rozvoj systému DBreleve
V současnosti se pracuje na dalším rozvoji systému DBreleve, který by měl umožňovat například následující:
Přímý export do formátu DECORANA/TWINSPAN - V současnosti je možný export do formátu pro PC-ORD a převod dat do formátu DECORANA/TWINSPAN se provádí externím nástrojem.Přímý export do systému TURBOVEG bude další možností exportu. V současnosti je možný pouze přes formát DECORANA/TWINSPAN.Načtení charakteristik snímků z externích zdrojů bude výhodou pro zjednodušení práce s daty.
Parametry snímků se uchovávají v jedné tabulce. Informace o snímcích, které jsou uloženy v tabulkách jiných je v současnosti možno použít pouze při manuálním zadávání SQL dotazu pro výběr snímků. V budoucnu se plánuje možnost načtení údajů z relačně svázaných tabulek, obdobně i ze souborů textového formátu.
Zapracování některých statistických metod vyhodnocování dat: hierarchická aglomerativní klasifikace, metoda HSCA a některé jiné by měly být přímo součástí programu DBreleve.
Při rozvoji systému budou přednostně řešeny požadavky oficiálních zákazníků firmy IDS. Proto se tito zákazníci mohou přímo obracet na firmu se svými požadavky.
Závěrečné poznámky
V systému DBreleve lze zpracovávat i jiné tabulky dat - při analýze vegetace tak mohou vznikat tabulky popisující hmotností složení biomasy nebo obsahy chemických elementů v biomase jednotlivých druhů. Systém lze využít i v rámci jiných oborů, kde se sleduje složení společenstev nejrůznějších organismů - v takovém případě je pouze potřebné definovat, co znamenají jednotlivé listy E0 až E3, které standardně popisují vegetační etáže.
Zpět na hlavní stránku IDS
© Karel Matějka - IDS (2003)