SeqAn Popis programu

SeqAn - Sequential data distribution analyse

Základní popis vlastností programu

Autor Karel Matějka - IDS, Praha

Úvod

Při hodnocení výsledků chromatografie / elektroforézy gelové / na tenké vrstvě / papírové a podobných metod jsou k dispozici media, kde u série několika vzorků (relativně malého počtu) je sledována poloha vzorku (jeho části) po jeho unášení v médiu. Měřitelná je tak vlastně rychlost pohybu vzorku. Lze předpokládat, že logaritmus těchto rychlostí má pro vzorky jednoho druhu normální rozdělení. Vzhledem k malému počtu vzorků je obtížné běžnými statistickými postupy rozlišovat vzorky různého charakteru - z malého počtu hodnot většinou nelze porovnat odchylky rozdělení skutečně naměřených hodnot od očekávaného normálního rozdělení a tak stanovit, že některé vzorky jsou odlišného druhu. Vhodnější je vzestupně seřadit naměřené hodnoty a analyzovat jejich diference. Na základě použitého kriteria lze stanovit, které diference jsou již tak velké, že s pravděpodobností přesahující určitou nastavenou hladinu, oddělují hodnoty náležející do dvou různých rozdělení (odpovídají vzorkům jiného charakteru).

Předpokládejme, že máme skupinu hodnot X_i (i = 0 ... n-1) [představujících proměnné v programu označované

Rf, případně jejich logaritmy] představujících výběr z normálního rozdělení N(x,s_x²) a nechť je tento výběr uspořádaný vzestupně (X_i<=X_i+1).

Potom můžeme říci, že nějaká jiná hodnota X_K není z téhož normálního rozdělení N(x,s_x²) s pravděpodobností větší než P (s chybou menší nežli 1-P) tehdy, když X_K-X_n > D_P nebo X₀-X_K > D_P, kde D_P je určitá kritická hodnota.

Testování lze tak provést následujícím způsobem:

Vytvoříme neklesající posloupnost všech naměřených hodnot X_i.
Vypočítáme rozdíly mezi sousedními hodnotami D_i = X_i – X_i-1 (i = 1 ... n).
Jedna nebo více největších hodnot D_i rozděluje celý výběr na dvě nebo více podskupin.
Podskupina hodnot X_i1 až X_i2 (i₁<i₂) se liší od všech ostatních nižších hodnot Xj (j<i₁) na hladině pravděpodobnosti a= 1-P tehdy, když D_i1>D_P(n), kden = i₂-i₁+1.
Podskupina hodnot X_i1 až X_i2 (i₁<i₂) se liší od všech ostatních vyšších hodnot Xj (j>i₂) na hladině pravděpodobnosti a= 1-P tehdy, když D_i2+1>D_P(n).

Testování tímto způsobem provádí program SeqAn.

Tabulky a grafy kritických hodnot

Kritické hodnoty D_P(n) byly odhadnuty pro rozdíly uspořádaných hodnot z normálního rozdělení N(0,1) na základě generování velkého počtu náhodných výběrů ze zmíněného rozdělení a byly tabelovány (n značí počet analyzovaných hodnot). Kritické hodnoty pro rozdělení N(x,s_x²) je možno vypočítat jako s_x–násobek tabelovaných hodnot.

	P
n	0,50	0,95	0,99
2	0,9602	2,7710	3,6191
3	0,6871	2,1720	2,9086
4	0,5469	1,8202	2,4865
5	0,4478	1,5929	2,2076
6	0,3800	1,4094	2,0326
7	0,3338	1,2830	1,8758
8	0,2949	1,1809	1,7579
9	0,2640	1,0889	1,6557
10	0,2393	1,0017	1,5637

Příslušné kritické hodnoty jsou zobrazeno rovněž na následujícím grafu

Program SeqAn provádí odhady (přibližné výpočty) těchto kritických hodnot a pro opětovné použití je zapisuje do vlastní tabulky. Umožňuje zobrazení okna pro výpočet odhadů kritických hodnot diferencí. Zde lze vypočítat i kritické hodnoty pro diference mezi seřazenými hodnotami výběru z některých dalších typů rozdělení (vedle normálního též pravidelné, chi-kvadrát, t-rozdělení a F-rozdělení).

V horní části okna jsou definovány základní vlastnosti rozdělení a používaná kritická hodnota. Ve střední části okna je možné počítat kritické hodnoty pro základní používaná rozdělení.

Rozdělení diferencí mezi seřezenými hodnotami náhodného výběru je možné počítat ve spodní části okna. Zde je potřebné vybrat především typ základního rozdělení (program SeqAn používá pro vlastní analýzy normální rozdělení) a velikost výběrového souboru. Pro vlastní výpočet je potřebné uvést i počet iterací z nichž se distribuční funkce diferencí počítá (součin obou uvedených hodnot by většinou neměl přesahovat cca 100 000, protože jinak se proces výpočtu může stávat příliš náročný, nízké hodnoty však vedou k nepřesnostem).

Hlavní okno programu

Zobrazení dat

Existují dvě základní možnosti zobrazení dat:

Příklad okna se zobrazením distribuce všech uspořádaných hodnot. Z takového grafu jsou patrné diference mezi sousedními hodnotami.
Příklad okna se zobrazením jednotlivých datových členů - zde je zřejmý charakter dat vzhledem k pořadí členů v sérii.

Tabulka diferencí, hranice tříd dat

Sestupně uspořádané diference jsou vypsány též numericky v pravé spodní části okna. Prvý sloupec označuje definovanou hranici třídy hodnot, případně její statistickou průkaznost, ve druhém sloupci je uvedena velikost diference a v posledním sloupci indexy hodnot, mezi nimiž je diference vypočítána.

Dvojitým kliknutím na jednotlivých řádcích je zde možné přidávat hranice pro oddělení tříd hodnot. Tyto hranice jsou současně vykreslovány v grafu. Hranice je označena znakem +, který je po výpočtu statistik nahražen symboly pro významnost hranice:

x x	hranice je statisticky průkazná vzhledem k rozdělení hodnot spodní i horní třídy
o o	statisticky neprůkazná hranice
x o	hranice je statisticky průkazná zvhledem k rozdělení hodnot spodní třídy, ale neprůkazná vzhledem k rozdělení hodnot horní třídy
o x	opačný případ vzhledem k předchozímu
x _	hranice je statisticky průkazná zvhledem k rozdělení hodnot spodní třídy, pro nedostatek hodnot v hodní třídě ji nelze testovat
_ x	opačný případ vzhledem k předchozímu
_ _	hranici nelze testovat ani proti spodní třídě hodnot, ani proti horní třídě (obě mají nedostatek hodnot pro výpočet)

Další kombinace o _ nebo _ o jsou zřejmého významu.

Výpočet základních statistik

Vypočte základní statistiky definovaných datových tříd a seznam diferencí, které přesahují příslušné kritické hodnoty. Výsledky jsou shrnuty v samostatném okně.

Ke každé třídě hodnot je zde uveden následující údaj (obdobná tabulka je i součástí tištěného výstupu):

Class	označení třídy (první třída je vždy označena A, dále B, ...)
First	index první hodnoty dané třídy (pořadové číslo hodnoty ve vzestupně uspořádaném seznamu hodnot, první hodnota je vždy označena 0)
Last	index poslední hodnoty dané třídy
AVG	aritmetický průměr všech hodnot dané třídy
STD	odhad směrodatné odchylky hodnot patřících do dané třídy (je porovnatelný i pro třídy s různým počtem prvků)
CritVal	vypočítaná kritická hodnota pro rozdíl mezi dvěma hodnotama náležejícíma do dané třídy: pokud je vypočítaná diference mezi dvěma hodnotama větší, pak je odůvodněné rozdělení třídy na dvě položením nové hranice mezi tyto hodnoty
Important	označení diferencí, které jsou větší než uvedená kritická hodnota

Používané datové soubory

Přímé použití dat zapsaných v textových souborech

Možné je načítat data z textových souborů, kde položky jsou odděleny středníkem (standardně s extension CSV). V každém souboru je umístěna jedna zpracovávaná datová série.

Data z databázové tabulky formátu DBF

Data lze načítat z databázové tabulky formátu dBase-FoxPro (DBF) pomocí SQL dotazu SELECT. Klasická tabulka formátu DBF musí mít atributy

ID (celočíselná hodnota jako identifikace pozice vzorku), Start (počíteční poloha vzorku), Rf1 (případně Rf2 až Rf[n] - dosažené polohy jednotlivých složek vzorku). Dále může obsahovat atribut Factor (pro vyrovnání dat při srovnávání více datových sérií), Clas pro zápis výsledků zpracování, Inc1 (až Inc[n]) pro logickou hodnotu o zařazení příslušné Rf hodnoty do zpracování a libovolný počet dalších údajů sloužících k identifikaci datových sérií a jednotlivých vzorků.

Importovaná textová data

Importovat lze textová data odělované libovolným separátorem nebo data s pevnou šířkou sloupce, přičemž speciálním případem je import dat z programu ImageMaster.

Další funkce programu

Regrese dat

Rychlost pohybu vzorku může být závislá na poloze vzorku na médiu (to je časté v případě elektroforézy, kde intensita elektrického pole může být závislá na místě). Proto lze provést vyrovnání dat podle polynomu vybraného stupně.

Porovnání více datových sérií

Dvě nebo více datových sérií (například vzorky na dvou gelech) nelze přímo porovnávat - Rf hodnoty (nebo lépe jejich logaritmy) si nemusí přímo odpovídat přes to, že se jedná o totožné vzorky. Pokud je známo, že hodnoty určitých tříd si odpovídají (například třída 1 na gelu A odpovídá třídě 2 na gelu B), je možné provést vyrovnání na průměr těchto tříd (postupně pro každý gel zvlášť) a poté obě série porovnávat společně.

Uložení výsledků klasifikace

Při výpočtu statistik je každá hodnota zařazena do jedné třídy hodnot (třídy jsou značeny velkými písmeny postupně A, B, ...). Funkce umožní zapsat zjištěnou kombinaci všech tříd hodnot pro každý vzorek do databáze.

Změna vlastností grafu

Ve standarním dialogovém okně je možné editovat základní vlastnosti grafu a zobrazených datových sérií. Vlastnosti datové série je možné editovat po jejím vybrání ze seznamu a jejím označení pravým tlačítkem myši - objeví se menu se základními vlastnostmi, které je možné změnit.

Uložení grafu do souboru

Vytvořený graf je možné uložit jako specifikovaný grafický soubor.

Tisk výsledků

Vytiskne sestavu analýzy dat s grafem a základními statistikami definovaných tříd.

Propojení s dalšími programy

Program SeqAn je možné propojit s jinými programy - může totiž pracovat jako COM server. Toho bylo využito pro zapojení programu do informačního systému budovaného pro klienta.

Zpět na hlavní stránku IDS