Komentovaný přehled mnohorozměrných statistických metod používaných v ekologii

Karel Matějka

Příspěvek byl přednesen na semináři "Problematika lesnické typologie IV" uspořádaném Lesnickou fakultou ČZU Praha-Suchdol v Kostelci nad Černými lesy 30. a 31. lesna 2002.

 

Úvod

Mnohorozměrné matematicko statistické metody se v současnosti již široce používají v mnoha oblastech biologie a ekologie. Stejně uplatnitelné jsou i v lesnické typologii, která poskytuje data svým charakterem odpovídající jiným datům - zvláště snímkům klasické fytocenologie. Předkládaný příspěvek by měl ukázat některé aspekty charakteru a použití těchto metod - to bez nároku na úplnost předkládaných informací, a vzhledem na charakter článku i na kompletní autorskou originálnost. Mnoho předložených thesí již bylo publikováno a něcoje i dostatečně známo např. v biomatematických kruzích.

Za mnohorozměrné matematicko statistické metody jsou považovány ty, kde jsou zpracovávána data vzniklá jako realizace vícerozměrného náhodného procesu - jednoduše řečeno, při jednom měření nebo na jednom vzorku získáváme řadu jednoduchých údajů, které nám popisují stav šetřeného objektu a takto získaná data dále zpracováváme. Klasickým případem se nám může stát šetření na lokalitě, kde zjišťujeme například složení vegetace (výskyt každého druhu rostlin představuje jednu proměnnou) a/nebo řadu půdních vlastností. Dalších příkladů a jejich modifikací je možné najít vlastně neomezeně.

Prvním úkolem po získání dat je jejich logické uložení do nějakého strukturovaného datového souboru, včetně potřebného kódování dat. Přitom je potřebné vycházet z reálně předpokládané (nebo známé) vazby mezi jednotlivými proměnnými a z požadavků na možné dotazování v datech. Tyto otázky jsou řešeny v rámci problematiky databází a “data warehousing”, což jsou dnes do značné míry samostatně rozvíjené obory.

Druhým krokem je hledání odpovědí na základní otázku "Jaké jsou skryté informace v datech?" Oblast zpracování dat řešící tuto problematiku bývá nazývána "data mining". Zde bývají uplatňovány nejrůznější postupy - například neuronové sítě nebo metoda GUHA (Hájek et al., 1983). Sem lze zařadit rovněž matematicko statistické postupy zpracování dat a v prvé řadě i mnohorozměrné metody.

Tyto metody vycházejí z pravděpodobnostních a statistických základů, někdy však stránka statistické interpretace bývá potlačena - statistické testování tak nemusí být prvořadým cílem. Tím se potom stává “Exploratory data analysis”. Původní základ však nesmí být přehlížen, protože v opačném případě by mohlo docházet k chybné interpretaci výsledků.

Členění mnohorozměrných statistických metod

Mezi mnohorozměrné metody lze řadit například

Do skupiny mnohorozměrných metod mimo další pak náleží i dvě zvláště významné skupiny postupů - klasifikace a ordinace.

Klasifikační metody

Členění metod

Hierarchické

Nehierarchické

Dále je možné mezi klasifikační metody zařadit

Popis metod

Existuje řada publikací, kde je možné najít popis používaných klasifikačních metod. V češtině to byla například publikace Lukasová et Šarmanová (1985). Dále je vhodné upozornit například na na dnes již klasické publikace Whittaker (1973), van der Maarel (1980) nebo Legendre et Legendre (1983).

Porovnání klasifikačních metod

Pro porovnání byla použita data fytocenologických snímků z bukových porostů Orlických hor (17 ploch snímkovaných opakovaně mezi lety 1951 a 2001; data S. Vacek, VÚLHM Výzkumná stanice Opočno, viz Matějka, 2001).

Počítány byly následující klasifikace podle složení bylinného patra

Porovnání klasifikačních metod je možné provést na základě grafů vývoje shlukování - viz Obr. 5 a 6. Zde je rovněž patrný rozdílný podíl řetězení vzorků u jednotlivých metod.

Divisivní klasifikační metody

Klasickou metodou je procedura TWINSPAN (Hill, 1979).

Klasifikace uspořádaných vzorků

Pro uspořádané vzorky bylo vyvinuto několik postupů, které shlukují vzorky podle jejich předem zadaného pořadí (případně uspořádání ve vícerozměrném prostoru) - viz Gordon (1973), Legendre (1987) nebo Matějka (1993).

Uspořádání vzorků může být podle rozložení vzorků v geografickém prostoru (lineární - podél transektu nebo dvourozměrné - v ploše krajiny). Další možností je uspořádání podle jedné nebo více os proměnných prostředí.

Další poznámky ke klasifikačním metodám

Vliv transformace dat je možné ukázat výhodným způsobem při použití klasifikace uspořádaných vzorků - tak tomu je například u metody HSCA/Sq. Ve výsledném obraze jsou totiž vzorky stále ve stejném pořadí, čímž vynikne vliv požadovaného efektu.

V presentovaném příkladu to je mocninná transformace dat s použitými exponenty 0,1 až 2,511. První hodnota ukazuje výsledky blížící se klasifikaci snímků na základě dat presence/absence druhů, poslední nejvyšší hodnota klasifikuje snímky podle zjištěných dominantních druhů.

Data v tomto příkladě byla použita z transektu číslo 106 (z roku 1986) pořízeném podél gradientu bylinnou vegetací na opuštěných polích v oblasti Chelčic v jižních Čechách (Obr. 7).

Pomocí klasifikace uspořádaných vzorků lze hodnotit rovněž chování klasikačních metod vzhledem ke gradientům prostředí a ekotonů. Ekoton si tak můžeme představit jako takové místo na topografickém gradientu, kde se silně mění charakter prostředí. Vzorky z ekotonu mohou být klasifikovány jako samostatný shluk nebo mohou být přiřazovány ke dvěma sousedním shlukům (Obr. 8).

Ordinační metody

První skupina ordinačních metod je založena sledování vzdáleností mezi hodnocenými vzorky (Distance-based techniques) - sem náleží

Druhá, dnes snad významnější skupina metod pracuje s vlastními čísly a vektory matic podobností, korelačních nebo kovariačních matic (Eigenanalysis-based techniques). Zde byly rozlišeny postupy

Correspondence Analysis (CA) [Reciprocal averaging]

Detrended Correspondence Analysis (DCA) (viz Hill and Gauch 1982)

Vztah mezi oběma metodami a jejich možnosti pro zobrazení gradientů prostředí jsou znázorněny na obr. 14

Canonical Correspondence Analysis (CCA) (viz ter Braak, 1986)

obdobně jako u skupiny nepřímých ordinačních metod, i zde byla vyvinuta metodat detrended CCA (DCCA)

Příklady použití ordinačních metod pro hodnocení vývoje lesních porostů

Dříve uvedená data opakovaných fytocenologických snímků v bukových porostech Orlických hor byla použita jako příklad pro srovnání několika ordinačních metod:

Uveden je rovněž graf ordinace druhů, který byl konstruován na základě výsledků poslední uvedené ordinační metody (Obr. 13)

Typy PCA

Metoda hlavních komponent má různé varianty, které se liší úpravou dat před vlastním výpočtem. Přehled používaných možností je uveden v následující tabulce.

 

Vektor vzorků

Vektor druhů

"Scaling"

"Ordinary"

 

centrován

Euclidean distance biplot

"Standardized"

 

3

Euclidean distance biplot

"duble centred"

centrován

centrován

symetrical scaling

"standardized by sample norm"

standardizován na jednotkovou normu

 

Euclidean distance biplot

"standardized by sample norm & centred by species"

standardizován na jednotkovou normu

centrován

Euclidean distance biplot

"centred and standardized by samples"

centrován a standardizován

 

Euclidean distance biplot

"noncentred"

   

Euclidean distance biplot / symetrical scaling

principal coordinates analysis (PCoA)

centrován

centrován

symetrical scaling

 

Porovnání NMDS a DCA

Computation time

High

Low

Distance metric

Highly sensitive to choice of distance metric

Do not need to specify

Simultaneous ordering of species and samples

No

Yes

Arch effect

Rarely occurs

Artificially and inelegantly removed

Related to direct gradient analysis methods

No

Yes

Need to pre-specify numbers of dimensions prior to interpretation

Yes

No

Need to specify parameters for number of segments, etc.

No

Yes

Solution changes depending upon number of axes viewed

Yes

No

Handles samples with high noise levels

No(?)

Yes

Guaranteed to reach the global solution

No

Yes

Results in measures of beta diversity

No

Yes

Used in other disciplines (e.g. psychometry)

Widely

(?)

Axes interpretable as gradients

No

Yes

Derived from a model of species response to gradients

No

Yes

 

Dalším příkladem použití ordinačních metod je hodnocení vztahu vegetace a půdy podél lučního transektu na pobřeží Kratochvílského rybníka, který byl složený z kvadrátů 1m2. Porovnávat tak je možné například druhové složení vegetace a charakteristika humusových látek na základě výsledků dvou nezávislých ordinačních analýz (Obr. 15).

Závěrečné poznámky

Mezi metody, které jsou často používány nebo si zasluhují pozornost, je možné najít následující

Informace k těmto metodám lze najít i v síti Internet, kde je možné najít i citace další důležité literatury.

Literatura

Gordon, A.D. (1973): Classification in the presence of constraints. - Biometrics, 29: 821-827.

Hájek,P.; Havránek, T.; Chytil, M.K. (1983): Metoda GUHA. – ACADEMIA Praha, 314p.

Hill,M.O. (1979): TWINSPAN - a FORTRAN program for arranging multivariate data in an ordered two way table by classification of individuals and attributes. - Ithaca(NY): Cornell Univ. 48p.

Legendre, P. (1987): Constrained clustering. In Legendre, P. & Legendre, L., Developments in Numerical Ecology - NATO ASI Ser.G, Vol. 14, pp. 289-307.

Legendre,L.; Legendre,P. [Ed.] (1983): Numerical ecology. In Developm. in environmental modelling, Vol. 3., Amsterdam 419p.

Lukasová,A.; Šarmanová, J. (1985): Metody shlukové analýzy. - SNTL Praha, 210p.

Matějka, K. (1993): Hierarchical semi-cluster analysis (HSCA): a new method of gradient analysis - Ekológia (Bratislava), 12: 131-152.

Matějka, K. (2001): Dynamika vegetace na studijních plochách v Orlických horách v letech 1951 až 2001 (zpracování dat). - Ms. [IDS Praha]

van der Maarel,E. [Ed.] (1980): Classification and ordination. In Advances in vegetation science, Vol. 2, Dordrecht: Kluwer, 188 p.

Whittaker,R.H. [Ed.] (1973): Ordination and classification of communities. In Handbook of vegetation science, Vol. 5, 738 p.

Obr. 1. Klasifikace opakovaných fytocenologických snímků bukových porostů Orlických hor podle složení bylinného patra metodou Nearest neighbour (použita Euclidovská distance jako míra nepodobnosti).

 

Obr. 2. Klasifikace opakovaných fytocenologických snímků bukových porostů Orlických hor podle složení bylinného patra metodou Farthest neighbour (použita Euclidovská distance jako míra nepodobnosti).

 

Obr. 3. Klasifikace opakovaných fytocenologických snímků bukových porostů Orlických hor podle složení bylinného patra Wardovou metodou (použit kvadrát Euclidovské distance jako míra nepodobnosti).

 

Obr. 4. Klasifikace opakovaných fytocenologických snímků bukových porostů Orlických hor podle složení bylinného patra metodou Group average (použit Sörensenův index podobnosti jako míra nepodobnosti).

Obr. 5. Vývoj shlukování pro porovnávané klasifikační metody - hladina shlukování.

 

Obr. 6. Vývoj shlukování pro porovnávané klasifikační metody - podíl hladiny shlukování z celkové nepodobnosti všech vzorků.

 

Obr. 7. Vliv mocninné transformace dat (použitá mocnina u grafu vpravo) na klasifikaci uspořádaných vzorků podél transektu bylinnou vegetací na opuštěných polích v oblasti Chelčic. Použitá metoda HSCA s indexem podobnosti Sq (Matějka, 1993).

 

Obr. 8. Dvě různé možnosti (A, B) klasifikace uspořádaných vzorků rozmístěných na gradientu se dvěma ekotony.

 

Obr. 9. Ordinace opakovaných fytocenologických snímků bukových porostů Orlických hor podle složení bylinného patra metodou PCA - zobrazeny prvé dvě osy.

 

Obr. 10. Ordinace opakovaných fytocenologických snímků bukových porostů Orlických hor podle složení bylinného patra metodou CA - zobrazeny prvé dvě osy.

 

Obr. 11. Ordinace opakovaných fytocenologických snímků bukových porostů Orlických hor podle složení bylinného patra metodou DCA (detrending by segments) - zobrazeny prvé dvě osy.

 

Obr. 12. Ordinace opakovaných fytocenologických snímků bukových porostů Orlických hor podle složení bylinného patra metodou DCA (detrending by 2nd order polynomials) - zobrazeny prvé dvě osy.

 

Obr. 13. Ordinace druhů z opakovaných fytocenologických snímků bukových porostů Orlických hor, metoda DCA (detrending by 2nd order polynomials) - zobrazeny prvé dvě osy.

 

Obr. 14. Znázornění rozdělení výskytu (abundance) druhů podél environmentálního gradientu a znázornění tohoto gradientu na základě ordinační metody CA a DCA.

 

Obr. 15. Porovnání prvých ordinačních os dat vegetace a dat o složení humusu v půdě podél transektu luční vegetací. Použita metoda CA pro obě datové sady.


Zpět na hlavní stránku IDS

© Karel Matějka - IDS (2003)