Program TextSearch - Text and bitmaps database

Copyright © Ing. Karel Matějka, CSc. - IDS (2000-2003)

Ing. Karel Matějka, CSc. - IDS
Na Komořsku 2175/2A, 143 00 Praha 4 - Komořany
telefon (+420) 603 444 768, (+420) 244 400 781
e-mail ids@infodatasys.cz

 

Úvodní obrazovka programu

 

Úvodní poznámky

Jedná se o hybridní systém, kde jsou odděleny popisné informace k datům (shromážděny v databázi) a vlastní data - textové soubory a bitmapy (nazývané též rastry). Databázový systém je vystaven nad tabulkami ve formátu Paradox. Tyto tabulky jsou uloženy v jednom adresáři.

Datové entity tvoří přirozené celky - Systémy souborů (File systems). Jedná se o skupinu textových souborů a bitmap (každá bitmapa představuje jednu stranu dokumentu), které jsou uloženy v jednom adresáři (pouze textové soubory lze v případě potřeby vyjímečně uložit i jinam). Běžně systém souborů představuje jednu knihu - její digitální representaci. Jednotlivé bitmapy tak jsou jednotlivými naskenovanými stranami této knihy.

Označení bitmap by se mělo volit tak, aby po jejich abecedním seřazení byly stránky uspořádány v přirozeném pořadí (tak, jak je tomu ve skutečné knize). V případě potřeby je možno volit pojmenování bitmap tak, aby je bylo možné setřídit i v jiném pořadí při využití třídění souborů počínaje některým jiným (nežli prvým) znakem v názvu souboru.

Popis systému souborů odpovídá jedné bibliografické citaci. Mimo běžného popisu lze systém souborů opatřit klíčovými slovy (keywords; vždy jedno slovo) a/nebo frázemi (phrases; standardní slovní spojení).

Systémy souborů jsou seřazovány do celků - Ssložek (Sets). Záleží pouze na volbě uživatele jaké složky vytvoří. V případě potřeby lze systém souborů přeřadit do jiné složky.

Instalace

Aktuální verzi programu je možné získat na zvláštní stránce. Pro úspěšnou instalaci je nutné získat přístupový kód, který bude uživateli sdělen po zakoupení a zaplacení tohoto produktu.

Jazykové verze

Počínaje verzí programu 1.0.6.0 může uživatel libovolně volit mezi nabízenými jazyky, v nichž program komunikuje. Prvními jazyky jsou angličtina a čeština. Nastavení jazyku provádíme pomocí položky menu System (viz Main program menu).

Další informace

Se systémem jsou instalovány i následující textové soubory, které obsahují některé informace, zvláště pak ty, které se týkají posledních změn v dodávané verzi a překladu systému TextSearch.

Systém je určen a vyzkoušen pro operační systémy MS Windows 9x, ME, NT a 2000.

Hlavní okno aplikace

Příklad hlavního okna aplikace s vyplněnými daty o skenované knize.

 

Panel: Set / Složka

ID: Needitovatelné číslo složky. Automaticky je přiřazeno při založení nové složky.

Name / Jméno: Libovolný text jako jméno složky.

Year / Rok: Rok pořízení složky.

Comment / Poznámka: Libovolná poznámka.

Pohyb mezi skupinami je možný pomocí navigátoru nebo kombinací kláves Shift+PageUp a Shift+PageDown. Pomocí tlačítka Select set from list / Vybrat složku ze seznamu (umístěného vedle položky Name a označeného ?) je možné vybrat potřebnou složku bez nutnosti postupného listování pomocí navigátoru nebo rychlých kláves. Potvrzení výběru z příslušného seznamu položek je prováděno dvojitým kliknutím myší nebo klávesou Enter.

Panel: Disk

ID: Needitovatelné číslo disku.

Check-box External / výměnný disk: Označení externího disku (například disketa, CD).

Driver / Jednotka: Needitovatelné označení jednotky písmenem.

Label / Jméno: Needitovatelná jmenovka disku.

Zvláště popis externích disků a jejich umístění je možné provést s použitím polí Group / Skupina (libovolný text), Portion / Část (libovolný text) a Number / Číslo (celé číslo - archivní pořadové číslo disku).

Panel: File system / Systém souborů

Popis systému souborů odpovídá běžné bibliografické citaci, čemuž je uzpůsobeno i pojmenování používaných polí databázové tabulky.

ID: Needitovatelné číslo položky. Automaticky je přiřazeno při založení nového systému souborů. Vedle ID je umístěn check-box pro případné označení systému souborů za vybraný. Jednoduchý výběr lze provést nebo zrušit použitím tohoto pole.

Name / Jméno: Jméno autora (libovolný text).

Year / Rok: Rok publikace (celé číslo).

Title / Titul: Titul (libovolný text).

Periodical / Časopis: Označení časopisu, serie (libovolný text).

Volume / Svazek: Ročník, díl (celé číslo).

Issue / Číslo: Číslo, svazek (celé číslo).

Start page / Strana od: První strana (celé číslo).

End page / do: Poslední strana (celé číslo).

Publisher / Vydavatel: Vydavatel (libovolný text).

Comment / Poznámka: Poznámka (libovolný text).

Directory / Adresář: Pracovní adresář aktivní položky (File system). Zde jsou uloženy všechny bitmapy.

Rastr type / Typ rastru: Jeden vybraný rastrový formát v němž jsou uloženy bitmapy v přiřazeném adresáři. Preferovaný je formát JPG (JPEG), pracovat lze i s BMP, TIF (přípustné verze jsou závislé na používané knihovně Shvtif.dll pro čtení těchto souborů - viz Čtení bitmap formátu TIFF) a GIF. Není-li tento údaj zvolen, pak se program sám dotazuje na typ bitmapy, pokud jej potřebuje.

Files / Soubory: Seznam všech zařazených textových souborů (editovatelné formáty TXT a RTF, zobrazitelné HTML). Soubory by měly být uloženy ve výše zvoleném adresáři, ale nemusí tomu tak být. Pravým tlačítkem myši lze vyvolat kontextové menu s prvky Add file / Přidat soubor (přidání nového textového souboru do seznamu), Delete file link / Odstranit propojení (vymazání označeného souboru ze seznamu, ve skutečnosti však na disku zůstane soubor zachován), Change file link / Změnit propojení (přejmenování souboru v seznamu - volbu používáme, pokud došlo ke změně jména souboru jinými prostředky) a Edit text / Editovat textový soubor (zobrazení souboru v okně Text file edit, stejného efektu lze docílit dvojitým kliknutím myší přímo na příslušném řádku v seznamu souborů). Vytvořit nový textový soubor, přidat jej do seznamu a začít jej editovat je možné pomocí položky menu New text file / Nový textový soubor. Tak je možné vytvářet pouze soubory s extension RTF nebo TXT.

Keywords / Klíčová slova: Seznam přiřazených klíčových slov. Vymazání jednoho klíčového slova je možné jeho vybráním a kliknutím pravým tlačítkem myši na něj.

Phrases / Fráze: Seznam přiřazených frází (slovních spojení). Vymazání jedné fráze je možné jejím vybráním a kliknutím pravým tlačítkem myši na ni.

Přidání nových klíčových slov a frází provádíme v okně textových souborů vyvolaného pomocí položky menu Search.

Pohyb mezi skupinami je možný pomocí navigátoru nebo kláves

PageUp aPageDown. Pomocí tlačítka Select file system from list / Vybrat systém souborů ze seznamu (umístěného vedle položky Name a označeného ?) je možné vybrat potřebný systém souborů bez nutnosti postupného listování pomocí navigátoru nebo rychlých kláves. Potvrzení výběru z příslušného seznamu položek je prováděno dvojitým kliknutím myší nebo klávesou Enter.

Main program menu - Hlavní menu aplikace

File / Soubor

Edit / Editovat

Keywords / Klíčová slova

Find / Najít

Bitmaps / Bitmapy

System

Text file edit menu - Menu okna textových souborů

Stejné okno je použito pro zobrazení/editaci textových souborů (podporované formáty jsou TXT, RTF a HTML, poslední pouze pro čtení) a hledání klíčových slov nich - vždy dochází pouze k určitým úpravám v menu.

 

Příklad textového souboru, který je obsahem skenované knihy s odkazy na jednotlivé stránky.

 

File / Soubor

 

 

Příklad oken, v nichž dochází k hledání klíčových slov a frází.

 

Edit / Editovat

V režimu hledání klíčových slov je celá skupina položek neaktivní.

Commands / Příkazy

Keywords / Klíčová slova

Phrases / Fráze

Vocabulary / Slovníky

Aktivní text

Aktivní text je skupina znaků uzavřená v hranatých závorkách a začínající klíčovým slovem. Pokud uživatel dvojitě klikne myší na aktivní text, program provede určitou akci.

Klíčové slovo open - Okno pro prohlížení bitmap bude nastaveno na konkrétní adresář, například

[open · ' #\Janov_1965\','jpg']

Znak # zastupuje jméno adresářové cesty pro adresář, ze kterého byl spuštěn program vTextSearch. Pokud není okno View Image Files otevřeno, pak se tak stane. Za jménem adresáře může následovat čárka a typ bitmap, které mají být zobrazovány (jpg, bmp, tif, gif).

Klíčové slovo scan - V okně pro prohlížení bitmap bude otevřen konkrétní soubor (bitmapa) ze současně aktivního adresáře, například

[scan · 004.jpg]

Klíčové slovo text - Otevře jiný textový soubor, například

[text · ' #\DirectoryName\FileName.txt']

Před vykonáním tohoto příkazu bude uživatel vyzván k možnému uložení změněného právě otevřeného textu.

View image files - Okno pro prohlížení bitmap

Okno dovoluje zobrazit všechny bitmapy daného (vybraného) typu (JPG, BMP, TIF a GIF), které jsou umístěny v jednom určitém (aktivním) adresáři. Po aktivaci okna je zobrazena informace o prohlíženém adresáři a typu bitmap.

Panel nástrojů: Vlastní okno nemá žádné nástroje - ty jsou shromážděny v samostatném panelu nástrojů, který je možné zobrazit po stisknutí libovolné klávesy jiné nežli vyhražené (Shift, Ctrl, Alt a klávesy definované pro ovládání okna), klávesy F5 nebo kliknutím myší na volné ploše okna.

Přejmenování bitmapy lze provést po kliknutí pravým tlačítkem myši na zobrazenou bitmapu v otevřeném dialogovém okně. Funguje pouze v případě umístění souborů na zapisovatelném médiu (nikoli tedy např. na CD).

Změnu pozadí okna umožňuje výběr barvy v dialogu, který se objeví po kliknutí pravým tlačítkem myši na volné ploše okna.

Funkční klávesy (shortcuts)

  předchozí bitmapa/strana (strany je možno procházet v nekonečném cyklu)

následující bitmapa/strana (strany je možno procházet v nekonečném cyklu)

posun nahoru po stránce, která je větší než zobrazené okno

  posun dolu po stránce, která je větší než zobrazené okno

Shift- přechod na horní okraj stránky

Shift- přechod na spodní okraj stránky

Shift- přechod na levý okraj strany

Shift- přechod na pravý okraj strany

Ctrl- první strana

Ctrl- poslední strana

F2 vyvolání okna z něhož bylo okno View image files aktivováno

F3 vyvolání hlavního okna aplikace

F5 zobrazení okna nástrojů a jeho menu (viz tlačítko Activity / Další)

Esc opuštění okna View image files

Ctrl-DEL vymazání souboru bitmapy

Klávesy A,B,D,H,P,R,S,T,W a na numerické klávesnici 0,1,+ a- jsou asociovány s prvky okna nástrojů, které jsou popsány dále.

Prvky v okně nástrojů

Příklad okna nástrojů. Většina funkčnosti je skryta v menu pod tlačítkem Activity.

 

Page / Strana - Číslo strany, které je dáno jejím pořadím v seznamu.

Page combo-box - Obsahuje seznam všech stran, zobrazeno je jméno zobrazené strany. Ze seznamu je možno vybírat. Strany jsou standardně seřazeny podle jména souboru bitmapy. Případné jejich řazení podle velikosti souboru nebo data souboru lze vybrat/provést pomocí kontextového menu, které se objeví po kliknutí pravým tlačítkem myši na prvku Page combo-box.

 

Tlačítko First page / První strana (<<) - Zobrazí první stranu dokumentu (bitmapu v systému souborů).

Tlačítko Prior page / Předcházející strana (<) - Zobrazí předcházející stranu.

Tlačítko Next page / Následující strana (>) - Zobrazí následující stranu.

Tlačítko Last page / Poslední strana (>>) - Zobrazí poslední stranu.

Tato čtyři tlačítka slouží ke změně zobrazené strany.

 

Size / Vel. - Pro bitmapy formátu JPG je možno zadat způsob načítání a velikost obrazu, které jsou dány zlomkem 1/1 až 1/8. Pro ostatní formáty se provádí výběr dle seznamu procentuálních zvětšení.

 

Přepínač pro rotaci strany (bitmapy):

0 (Normal position / Normální pozice; shortcut 0) - bez otočení, běžná pozice

-90 (Clockwise rotation / Ve směru hodin; shortcut -) - otočení ve směru hodinových ručiček

+90 (Counterclockwise rotation / Proti směru hodin; shortcut 0) - otočení proti směru hodinových ručiček

180 (Halfround / Otočit o 180 stupňů; shortcut 1) - otočení o 180°.

Přepnutím provedeme příslušné otočení aktivní stránky. Dvojitým kliknutím na přepínač nastavíme standardní otočení, které se provede vždy při přechodu na novou stránku.

 

Tlačítko Activity / Další (shortcutF5) - Vyvolání menu pro další ovládání prohlížeče:

Položka menu Directory / Adresář (shortcutD) - Volba aktivního adresáře, ze kterého jsou zobrazovány bitmapy

Položka menu Sort pages / Třídění stran - Umožňuje nastavit setřídění stránek (bitmap):

Položka menu Printer setup / Nastavení tiskárny (shortcutS) - Volba tiskárny a nastavení jejích parametrů.

Položka menu Print / Tisk (shortcutP) - Tisk jedné nebo více stran (bitmap). Při tisku více stran je rozsah tisku vymezen čísly stran. Pro tisk bitmap formátu JPG se doporučuje nastavení Size 1/1 (nejkvalitnější zobrazení tištěné předlohy).

Položka menu Animate / Animace (shortcutA) - Postupně zobrazuje jednotlivé stránky. Po volbě této položky menu je potřebné zadat periodu prodlevy mezi zobrazovanými stránkami, záporná hodnota periody znamená zobrazování stránek v jejich opačném pořadí.

Položka menu Bitmap rename / Přejmenovat bitmapu (shortcutR) - Přejmenování souboru bitmapy. Položka menu je dostupná tehdy, není-li soubor označen jako read-only (pouze ke čtení).

Položka menu Page text / Text (shortcutT) - Zobrazení textového souboru asociovaného s bitmapou, případně jeho vytvoření (to je možné pouze jsou-li data uložena na zapisovatelném médiu, většinou na pevném disku; nový soubor nelze vytvořit pro bitmapy na CD).

Položka menu Save page script / Uložit popis zobrazení - Současné zobrazení stránky (velikost a rotace bitmapy) bude zapsáno do souboru *.scr, jehož jméno a umístění jsou shodné se jménem a umístěním bitmapy. Zápis souboru nelze provést na nepřepisovatelné medium. Soubory *.scr jsou využívány pro automatické nastavení zobrazení stránky při přechodu na tuto stránku kdykoli v budoucnosti.

Položka menu Delete page script / Vymazat popis zobrazení - Soubor *.scr bude vymazán.

Položka menu Save as BMP / Uložit jako BMP (shortcutB) - Uloží bitmapu ve formátu BMP.

Položka menu Set as wallpaper / Nastavit jako tapetu (shortcutW) - Uloží bitmapu jako tapetu Windows.

Položka menu Process OCR / Rozpoznávání textu - V případě, že existuje nastavení pro program automatického rozpoznávání textu, bude tento program spuštěn a v něm bude načtena aktuální strana/bitmapa.

Položka menu Page Delete / Vymazat stranu (shortcutCTRL+DEL) - Vymaže doubor bitmapy z disku. Položka menu je dostupná tehdy, není-li soubor označen jako read-only (pouze ke čtení).

Položka menu Show control form / Aktivující okno (shortcutF2) - Zobrazí na povrchu to okno programu, z něhož bylo okno View Image Files aktivováno.

Položka menu Show main form / Hlavní okno (shortcutF3) - Zobrazí na povrchu hlavní okno programu.

Položka menu Hide / Skrýt (shortcutH) - Skryje okno nástrojů.

 

Tlačítko Cancel / Zavřít (shortcutEsc) - Ukončení problížení bitmap.

Výřez z bitmapy

Označení výřezu se provede levým tlačítkem myši: tlačítko zmáčkneme v jednom rohu plánovaného výřezu a myší táhneme do protilehlého rohu výřezu, kde tlačítko uvolníme. Hranice výřezu můžeme běžným způsobem posouvat. Označení výřezu je možné zrušit kliknutím myší kdekoliv na ploše bitmapy.

Práce s výřezem je možná vybráním z nabídky, která se objeví po kliknutí pravým tlačítkem myši na ploše výřezu. Nabídka obsahuje položky Save as bitmap / Uložit jako BMP (uložení výřezu ve formátu Windows bitmap) a Copy to clipboard / Kopírovat do schránky (uložení do schránky), Clear selection / Zrušit označení (zrušení označení výřezu) a Maximize / Maximalizovat (výřez bude roztažen na celou bitmapu).

Použití programu TextSearch v síti

Při použití programu TextSearchv síťovém prostředí je vycházeno z hlavní instalace programu na hlavním počítači (tím nemusí být server). Databázi programu umístíme na takový disk a počítač, který je sdílený v síti. Do databáze jsou adresy k adresářům a souborům zapisovány tak, jak je nastaveno na hlavním počítači (v případě síťových disků tak, jak jsou těmto jednotkám přiřazena písmena pomocí funkce Map network drive v MS Windows). Úpravy v programu TextSearchna hlavním počítači neprovádíme žádné.

K takto sestavené databázi je možné současně přistupovat (číst z ní a zapisovat do ní) prostřednictvím programu TextSearchřádně instalovanému i na jiných počítačích sítě. Musíme zajistit následující postup:

  1. instalovat vlastní porgram včetně zadání správného inicializačního kódu specifického pro každou instalaci programu
  2. v menu System>Parameters změnit položku Database directory na adresář, kde je na síti umístěna již vytvořená databáze.
  3. v menu System>Disk mapping přiřadit všem užívaným diskům - jednotkám ta písmena, která jsou užívána na tom počítači, kde instalaci právě provádíme (aktuálním počítači): prvý sloupec "Original" / "Původní" uvádí označení jednotek podle nastavení na hlavním počítači, druhý sloupec "Mapped as" / "Označen jako" uvádí označení jednotek na aktuálním počítači. Nutné je označit položku Use disk mapping / Použít přiřazení. Potvrdíme klávesou OK. Položka menu Disk mapping pak zůstává označená (zaškrtnutá)

Tím je instalace pro síťové prostředí kompletní.

Čtení bitmap formátu TIFF

Použití souborů TIFF (přípustné verze) je závislé na použité knihovně Shvtif.dll pro čtení těchto souborů. Uživatel má možnost vytvořit i novou knihovnu DLL, kterou nahradí tu, která je standardně dodávaná (ta umožňuje čtení nekomprimovaných bitmap). V kódu Delphi by měla mít tuto strukturu


library Shvtif;
uses
SysUtils,Classes,Windows,graphics;
function dllLoadTiffFromFile(FileName: PChar): HBITMAP; stdcall;
var BMP: TBitmap;
begin
 BMP:=TBitmap.Create;
 ...
 .. kód pro načtení souboru FileName do bitmapy BMP ..
 ...
 Result:=BMP.Handle;
end;
exports
dllLoadTiffFromFile index 1;
begin
end.

Používána je tedy jediná jednoduchá funkce

dllLoadTiffFromFile. Obdobná knihovna může být napsána i v jiném programovacím jazyku.

Vytvoření datového disku

Systém TextSearchumožňuje distribuovat data, která spravuje, a to ve formě samostatných disků (zpravidla CD) opatřených vlastním prohlížečem vTextSearch. Tato data se připravují v adresáři označovaném v programu TextSearchjako "NewCD Path". Adresář je vytvořen již po instalaci systému (v případě potřeby je možné jej změnit, přičemž je potřebné následující soubory do něj zkopírovat) a obsahuje soubory

vTextSearch.exe - vlastní obslužný (prohlížecí) program disku

help.rtf - textový soubor nápovědy programu vTextSearch

vTextSearch.ico - ikona disku

autorun.inf - soubor pro automatické spuštění disku

sn.dat - Tento soubor je vytvářen až při prvním spuštění programu TextSearch.

Do tohoto adresáře zkopírujeme všechny vybrané datové položky systému TextSearch(systémy souborů - t.j. celé adresáře s bitmapami a všemi pomocnými soubory), vhodné je použít položky menu File>Copy and move.

V adresáři "NewCD Path" vytvoříme soubor formátu RTF nazvaný CONTENTS.RTF, který bude obsahovat popis disku a dat, které obsahuje. Za základ můžeme použít soubor, který bude vyexportován programem TextSearch. Předem určíme adresář a jméno exportního souboru tak, aby byl umístěn v adresáři "NewCD Path" pod jménem CONTENTS.RTF (viz menu System>Export file). Pro export vybereme (nemáme-li již z předchozích kroků vybrány) všechny položky (File Systems), které nový disk má obsahovat a použijeme položky menu Edit>Export. Po exportu nový soubor upravíme dle potřeby (zvlášť upravíme adresy k jednotlivým příkazům ve formě Aktivního textu).

Podle potřeby zkopírujeme knihovny

Shvtif.dll (pro zobrazování bitmap ve formátu TIFF) nebo GIFView.dll (pro zobrazování bitmap ve formátu GIF).

Nyní je možné funkci připravovaného disku vyzkoušet - spustíme program vTextSearchz adresáře "NewCD Path", přičemž jako identifikační číslo disku použijeme hodnotu "0". Pokud je vše v pořádku, můžeme všechna data (soubory i adresáře) z "NewCD Path" zkopírovat (vypálit) na nový disk.

Identifikační číslo nového disku zjistíme pomocí programu DiskSpecification.exe.

Některé nové vlastnosti programu

Novější verze programu umožňují vytvářet propojení grafických dat (jedné nebo více bitmap) na jednu zařazenou stranu v dokumentu. Tyto napojené bitmapy jsou nazývány "detaily". Detailem může být nová bitmapa (dosud v dokumentu nezařazená), která je uložena nejléme v podadresáři současného dokumentu, a musí mít tentýž formát, jako mají ostatní bitmapy dokumentu. Detail může rovněž odkazovat na nějakou jinou stranu dokumentu.
Detail se definuje v režimu prohlížení bitmap (stran): Na dané straně, kde je potřebné přidat detail, označíme určitou oblast výběrovým obdélníkem a poté klikneme pravým tlačítkem myši na tuto vybranou oblast - ze zobrazivšího se menu vybereme položku Create detal / Vytvořit detailní náhled. Poté bude zobrazen dialog pro výběr souboru, který zobrazuje pouze soubory vhodného typu - zde vybereme jeden soubor a výběr potvrdíme, čímž bude detail definován. Při příštím zobrazení téže strany bude na straně zobrazen rám s tlačítkem, které může sloužit ke zobrazení přiřazené bitmapy. Zpět ke zobrazení celé strany je možné přejít použitím příslušného tlačítka (Refresh/Back)na panelu nástrojů.

Dále byly zařazeny funkce pro hromadný import souborů do databáze, což umožňuje pohodlnou evidenci dokumentů například ve formátech PDF. Přidány a později upraveny byly funkce pro tvorbu systému HTML dokumentů, které slouží pro publikování dat z databáze programu TextSearch na Internetu.


Zpět na hlavní stránku IDS

© Karel Matějka - IDS (2003-2005)