Obecná úvaha
Algoritmus se snaží přepsat dvourozměrná data do nejúspornějšího chaotického generátoru. Tím hledá konkrétní vícerozměrný prostor, ve kterém dvojrozměrně neredundantní data získávají výraznou redundanci. Konkrétně, když uvážíme libovolný kód který chceme zkomprimovat jako systém s atraktorem v neznámé dimenzi, vlastně pomocí GA nad sadou náhodných řešení provádíme brute force rekonstrukci dimenze původního prostoru, ve kterém je informace v porovnání s ostatními možnostmi absolutně neentropická. Můžeme tedy nezkomprimovanou informaci považovat za reprezentaci zkomprimované, která nese vtisknutou (embedded) informaci o své maximální kompresi. Tím, že každá informace, kterou potenciálně můžeme chtít zkomprimovat je ve svém ideálním systému víceméně vždy N-rozměrná, naprosto nelze uvažovat o jiné kompresi, než právě rekonstrukci dimenze pomocí GA nad virtualizovaným chaotickým systémem. Chaotickým proto, že vtisknutá ideální dimenze informace může být opravdu libovolná, a GA proto, že pro tento problém ani příroda nezná lepší řešení. Uvedený příklad kompresoru vychází z Takensova teorému, protože primárně testuje různá časová okna pro odběr dekomprimované informace. Zároveň se pokouší chování systému řídit dvěma lineárními funkcemi, tak aby pro třetí funkcí determinovaná odběrová okénka byl ještě jednou posuvný a modifikovatelný. Tím, že používá zčásti řízení chaotického systému, pravděpodobně umožňuje nalézt i komprese vyšší, než samotný Takensův teorém. Zároveň to však není tak zcela pravda, protože tím pouze získává chaotický systém dodatečné rozměry, přičemž stále provádíme rekonstrukci pomocí lineárně časovaných oken. Rozhodně však navrhovaný systém představuje strop komprimačních nástrojů: je pravděpodobně nejpomalejší, avšak za tuto cenu nabízí pomocí GA určitou šanci (nebo jistotu, přemýšlíme-li o věčné kompresi) překročit běžné stropy komprese u všech libovolně redundantních informací. Také se nabízí možnost kdykoli přerušit proces, a získat dosud nejlepší verzi komprese, popř. takto nedokomprimovaný soubor dokomprimovat od poslední pozice. Konečně tedy lze každou kompresi nazvat rekonstrukcí dimenze chaotického systému, a tento algoritmus za strop takových rekonstrukcí, vzhledem k přírodě.
Konkrétní problém
Nyní částečně zpochybním závěry předchozí úvahy, tu však zatím pro její kompaktnost, i když zavádějící, ponechávám k dispozici. Také ozřejmím důvod rekonstrukce chaotického generátoru, kterou upřednostňuji před samotnou rekonstrukcí prostoru ideálně komprimované informace. První, zcela surová překážka takové rekonstrukce, tedy, že bychom brali informaci kterou budeme komprimovat (dále substrát), jako zdrojová data samotné rekonstrukce dimenze, je to, že samotný substrát není žádným dynamickým systémem. Také i kdybychom jej nějak rozdělili na bloky, které by popisovaly fáze hypotetického systému, je takových možností nesčetně, a není prakticky možné ověřit správnost takového rozfázování. Druhá, velmi důležitá překážka rekonstrukce dimenze ze substrátu je ta, že substrát samotný nezabuduje dostatečně svou ideální dimenzi: protože zkrátka důležitá část původního systému je od něj odtržena. Také v případě (a to je asi nejdůležitější překážka rekonstrukce ideálně-kompresivní dimenze přímo ze substrátu), že existuje nějaký N-rozměrný generátor nad množinou znaků F, který vytvořil tento (M=N-L)-rozměrný substrát nad množinou znaků U, a ani odkaz k tomuto generátoru, či samotný generátor, není ze sémantického hlediska rekonstruovatelný (substrát neodkazuje ke kódové množině generátoru F, a ani jeho hypoteticky těžko rekonstruovatelná dimenze M není hned zákonitě dimenzí N, protože vícerozměrný generátor produkoval L-méněrozměrný kód). Další, už poněkud vyšší shrnutí těchto třech překážek je právě to, že i kdybychom dokázali rozpoznat fázové bloky systému v daném substrátu, a s jejich pomocí rekonstruovat ideální prostor substrátu (tedy už bychom dosáhli jisté neidentifikované hladiny komprese), ještě se nutně nejedná o ideální kompresi, protože ještě i tuto informaci (nad množinou U) pak daleko lépe komprimuje její pravděpodobně vícerozměrný generátor (nad neznámou množinou znaků F). Nakonec právě tento generátor (včetně konkrétního instrukčního kódu) je opravdovou ideální kompresí (rekonstruovanou dimenzí) substrátu, právě pokud už neobsahuje žádná redundantní data (může jít o generátory generátorů, zde možná pevnější opodstatnění použití GA pro problém).
Jisté možnosti řešení
Pokud bychom například přeci jenom chtěli použít rekonstrukci dimenze např. nad nejdelšími neredundantními pseudo-fázovými bloky, výtěžek takové rekonstrukce, tedy nejkompresivnější dimenze samotného substrátu, by nám mohl načrtnout spodní hranici dimenze generátoru, což by optimalizovalo samotné hledání generátoru pomocí GA generátoru chaotických generátorů. Nakonec tedy ještě zpětné zdůvodnění proč hledáme N-rozměrný a chaotický generátor, když ideálním generátorem některých dat může být třeba prostá funkce Repeat(Char, N): právě proto, že lineární generátory jsou podmnožinou chaotických. Takže ačkoli celý algoritmus bude pro kód "AAA" značně zbytečný a podstatně neefektivní, vždy výsledný generátor objeví, zatímco kdybychom nechali GA hledat generátory lineární, algoritmus by byl značně neobecný. Také nakonec "imperativně řízený chaotický systém" nabízí nejbohatší možnosti pro tvorbu jakéhokoli generátoru, zatímco lineární generátor kompresorů by k takovému výsledku potřeboval mnohem více iterací i prostředků. Nakonec zápis Repeat(A,3) v GA-Chaotické kompresi, tedy jako (f,T0,s,b,r) není příliš "neefektivní", neboť pomineme-li chaotické schopnosti kódu, zapíšeme (A,A,1,null,1..3), čímž jsme si sice příliš nepomohli, ale ani jsme tento algoritmus nějak nezdiskreditovali.
Reference:
- Anca Radulescu: Psychic embedding - Vision and delusion
- Floris Takens etc. / wikipedia, scholarpedia
- Sam T.Roweis & Lawrence K. Saul
- N. Chomsky - syntaktické struktury
- Poděkování: Birdman, Buvol@mageo.cz
- Podnět k doplnění a ujasnění: Viki