Véges mintázatok információtartalma és entrópiája kombinatorikai szemszögből
Zsolt Pocze
Kivonat
Különböző típusú mintázatok információtartalmának és entrópiájának egységes, a hagyományos információ- és entrópiafogalmakkal kompatibilis kombinatorikai meghatározása, túllépve az ergodikus Markov-folyamatokra értelmezhető Shannon-információ korlátain. Különböző típusú véges mintázatok információtartalmát hasonlítjuk össze és ebből meghatározzuk az infromációmennyiség általános tulajdonságait, és ezek segítségével definiálunk Kolmogorov-komplexitás és a tömörítési algoritmusokon alapuló normalizált információbecslési módszereket. A kombinatorikai nézőpont alapján újradefiniáljuk az entrópia fogalmát a hagyományos entrópiával aszimptotikusan kompatibilis módon.
1. Bevezetés
Az anyag jellemzője a mintázata, amit tág értelemben értelmezünk, mint az elemi részek elrendeződését. Ez magába foglalja az egyes részek közötti kapcsolatokat is. A fizikai valóságban minden véges dimenziós mintázat valamilyen pontossággal modellezhető egy dimenziós véges sorozatként, ezért az információt és az entrópiát véges sorozatokkal (mintázatokkal) összefüggésben vizsgáljuk. Jelölje a véges mintázatok halmazát, ahol halmaz a mintázatok értékkészlete vagy más néven alaphalmaza. Egy adott , mintázat esetén jelölje a mintázat hosszát, az értékkészlet elemszámát, , pedig az elem előfordulási számát a mintázatban.
Az információ nem más, mint a bináris döntések száma [
6], amellyel egy mintázat egyértelműen meghatározható, vagyis kombinatorikailag a döntések száma, amivel az adott mintázat kiválasztható az összes lehetséges mintázat és az üres mintázat közül. Az információ alapegysége a bináris döntés, amelynek
a mértékegysége. A gyakorlatban a a döntések száma csak egész számot vehet fel, de ha folytonos függvényt használunk, nem kapunk mindig egész értékeket, ami a döntések elméleti száma. A matematikai számítások egyszerűsítése érdekében a döntések számán a továbbiakban mindig az elméleti döntésszámot értjük. Ezért és más okokból is az információmennyiség meghatározása mindig közelítő meghatározás.
1. definíció
Egy véges mintázat információja legyen a mintázat egyértelmű meghatározásához szükséges bináris döntések minimális száma, jelölése legyen , ahol függvény és
Ez a definíció általános, mivel nem függ semmilyen konkrét rendszertől, tisztán elméleti, mivel minden implicit információ explicit módon beépül, és filozófiailag kevéssé vitatható, mert a minimális döntések száma az információtartalom legáltalánosabb mértéke. Ugyanakkor a definícióban található fogalmak nincsenek pontosan meghatározva ahhoz, hogy a gyakorlatban vagy akár elméletben alkalmazható legyen: nem rögzítettük, mit nevezünk pontosan elemi döntésnek és reprodukálhatóságnak és az sem, hogy egy mintázat létrehozásának a leírását hogyan bontjuk elemi döntésekre.
A fenti információ definíció egy speciális esete a Kolmogorov-komplexitás [
4], amely egy univerzális Turing-géppel határozza meg, hogy hány döntés szükséges a mintázatok leírásához:
2. definíció
Legyen egy rögzített univerzális Turing-gép. Ekkor egy véges mintázat Kolmogorov-komplexitása ) az alábbi módon adható meg:
ahol a bináris program (bitsorozat) hosszát jelöli, és a minimumot azon programok között keressük, amelyek bemenetként véve a univerzális Turing-gépen pontosan -t állítanak elő kimenetként.
A Kolmogorov-komplexitás sajnos általánosságban nem kiszámítható [
1]. Az információtartalom bizonyos határesetekben azonban nagyon pontosan, explicit módon meghatározható: ilyen például a számok, a konstans mintázatok az egyenletes eloszlású véletlen mintázatok és bizonyos jól meghatározott statisztikai jellemzőkkel rendelkező mintázatok, mint pl. az ergodikus Markov-folyamatokkal előállítható mintázatok.
Ha az információ meghatározásához elméleti és gyakorlati téren is pontosabb módszereket keresünk, mindenképpen érdemes először a határeseteket és az említett speciális eseteket vizsgálni.
2. Konstans mintázat információja
Konstans és véges mintázat esetén a mintázat egyes elemeinek a meghatározásához nincs szükség információra, mivel egyetlen elemet ismétlünk. Egyedül a mintázat hossza, azaz hordoz információt, melynek meghatározásához maximum döntésre (információra) van szükség, mert minden döntés megfelezi a lehetőségeket. Az egyszerűség és a matematikai kezelhetőség kedvéért használjuk a elméleti közelítést.
Az egész számok információjából kiindulva bármilyen azonos elemekből álló mintázat információtartalma kiszámolható, ha az információt az összes lehetséges részmintázatból való kiválasztásként értelmezzük, beleértve a nulla hosszúságú mintázatot.
|
|
|
|
|
|
|
|
|
|
...
|
...
|
|
|
|
Táblázat 1: Az hosszúságú konstans mintázat esetén az információ meghatározását az elem közül történő kiválasztásra egyszerűsíthetjük, ahol jelöli az üres mintázatot.
A mintázat elemeiből összerakható összes lehetséges mintázat számának logaritmusa adja a konkrét mintázat információtartalmát, ekkor az mintázat információja:
Az helyett az azért praktikusabb, mert így az üres mintázat információtartalma is értelmezve van és figyelembe vesszük, hogy az üres mintázat, mint lehetőség is hordoz információt. Könnyű belátni, hogy a véges mintázatok közül a konstans mintázatok információtartalma a legalacsonyabb, mert a nem konstans mintázatokban a különböző elemek miatt több döntés szükséges a mintázat egyértelmű meghatározásához, ami növeli az információtartalmat.
Azért sem használjuk az képletet, mert akkor egységnyi hosszúságú mintázatok esetén a szubadditivitás nem teljesül. A szubadditivitás feltétele . Ha a képletet használnánk, akkor hosszúságú mintázatok konkatenációja esetén a szubadditivitás nem teljesülne: . A képlet esetén viszont a szubadditivitás minden esetén teljesül:
|
|
|
Szubadditivitás
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Táblázat 2: A szubadditivitás teljesülése különbőző hosszúságú egyenletes eloszlású véletlen sorozatok esetén.
3. Egyenletes eloszlású véletlen mintázat információja
Az egyenletes eloszlású véges mintázat úgy állítható elő, hogy a mintázat minden eleme egy bites független döntés eredménye. Figyelembe véve, hogy az üres mintázatot is számolva különböző hosszúságú mintázat közül választhatunk, a mintázat információtartalma:
Ha a , vagyis az konstans mintázat, akkor a képlet a konstans mintázat képletére egyszerűsíthető:
Az komplexitása , tehát elegendően nagy és esetén képlettel is számítható. A képletet használva azonban a konstans mintázatok esetéhez hasonlóan nem teljesülne a szubadditivitás: , és a konstans mintázatok esetén sem kapnánk megfelelő képletet.
4. Ergodikus Markov-folyamattal előállítható mintázat információja
Legyen
mintázat, amely ergodikus Markov-folyamattal előállítható, és legyenek
,
,
az egyes értékek relatív gyakoriságai a mintázatban. Shannon eredeti
képlete [
6] nem lenne kompatibilis az egyenletes eloszlású mintázatok és a konstans mintázatok képleteivel, azért módosítani kell. A mintázat információja Shannon képletét módosítva:
Ha a , vagyis az konstans mintázat, azaz , akkor a képlet a konstans mintázat képletére egyszerűsíthető:
Egyenletes eloszlású folyamattal előállítható mintázat esetén, ahol , , , vagyis az értékek relatív gyakoriságai azonosak, a képlet az egyenletes eloszlású mintázat információ képletére egyszerűsödik:
Megmutatható, hogy . Legyen . Ha , akkor . Ebből következik, hogy , ami a logaritmus tulajdonságai alapján a alakra hozható, ami tovább alakítva .
1. állítás
Ergodikus Markov-folyamatokkal előállítható véges mintázatok értéke akkor maximális, ha az értékek relatív gyakoriságai egyenlőek, azaz .
Az információmérési képlet átírható logaritmus segítségével alakba. Mivel a függvény konvex, ezért alkalmazhatjuk a Jensen-egyenlőtlenséget: , ami nem más, mint . Az egyenlőség akkor áll fenn, ha az összes azonos, azaz . Tehát az ergodikus Markov-folyamatokkal előállítható véges mintázatok információtartalma pontosan akkor maximális, ha minden érték azonos gyakorisággal fordul elő a mintázatban, és ebből következik, hogy az egyenletes eloszlású véletlen mintázatok rendelkeznek a maximális információmennyiséggel és az információtartalmuk .
Shannon az ergodikus Markov-folyamatokra határozta meg az információt [
6], de fontos tudni, hogy a gyakorlatban a mintázatok jelentős része nem hozható létre ergodikus Markov-folyamattal, ezért Shannon képlete ezekben az esetekben nem használható információ- és entrópiamérésre. Az összes lehetséges véges mintázat között csak egy viszonylag kis rész az, amely ergodikus Markov-folyamattal létrehozható. Ennek oka, hogy az ergodikus Markov-folyamatok által generált mintázatoknak meg kell felelniük bizonyos statisztikai tulajdonságoknak és átmeneti valószínűségeknek. Shannon módszerénél általánosabb megoldást kínál Kolmogorov [
4]. A Kolmogorov-komplexitás A Shannon-információval ellentétben minden létező véges mintázat esetén értelmezhető.
5. Általános mintázatok információtartalma
5..1 Az információ általános tulajdonságai
A speciális mintázatok információjából következtethetünk az információ általános tulajdonságaira. [
3]. Könnyen belátható a következő állítás:
2. állítás
Legyen mintázat, legyen egy konstans mintázat, egy véletlenszerű mintázat és . Ekkor igaz a következő egyenlőtlenség:
A random mintázat információtartalma a legnagyobb és a konstans mintázaté a legkisebb. A Kolmogorov-komplexitás a Turing-gépekre épül, ezért nem minden esetben képes olyan rövid leírást adni egy véges mintázatra, amelyet Turing-gép nélkül, más módszerrel adhatnánk: nagyon jól közelíti az információtartalmat, de lehet nála nagyobb. Az ergodikus Markov-sorozatokra optimalizált módosított Shannon-információ nem ergodikus és nem Markov-folyamatok esetén az információtartalmat felülbecsüli, és a kevésbé véletlenszerű mintázatok esetén magasabb értéket ad.
3. állítás
Az információ általános tulajdonságai:
- Normalizálás: , bármely és esetén.
- Szubadditivitás: , bármely .
- Reverzibilitás: , valamely esetén, ahol , , bármely esetén.
- Monotonitás: , bármely esetén, ha részmintázata -nek.
- Redundancia: , valamely esetén, ahol az mintázatot tartalmazza -szer.
A normalizálás tulajdonsága következik a konstans mintázat és az egyenletes eloszlású véletlen mintázat információjából és az 1. állításból.
A szubadditivitás könnyen belátható a konstans mintázat esetén: , ami átalakítva , ez minden esetben telesül. Ergodikus Markov-folyamatok esetén legyen , ekkor az egyenlőtlenség ami átalakítva . A jobb oldali összeget átalakítva . Minden k-hoz legalább egy pár létezik, mely teljesíti a feltételeket. Ez azt jelenti, hogy a belső összegek legalább egyszer tartalmazzák a tagot, ezért az egyenlőtlenség teljesül.
A reverzibilitás azt jelenti, hogy mindegy, melyik oldalról kezdjük el olvasni a mintázatot, az nem befolyásolja az információtartalmát, ami triviális, mert a mintázatot az értelmező könnyedén megfordíthatja. A monotonitás szintén triviális a konstans mintázatok és az ergodikus Markov-folyamattal előállítható mintázatok esetén egyaránt.
Legyen redundáns, hosszúságú mintázat. Ekkor . A kifejezés értéke és növekedésével 0-hoz közelít, így korlátos, ezért mindig van olyan , hogy . Véletlenszerű és ergodikus Markov-folyamatok esetén és általános esetben is intuitív módon belátható az összefüggés.
3. definíció
legyen az véges mintázat minimális információja az alábbi függvény:
maximális információja pedig legyen az alábbi függvény:
5..2 Információ számítása Kolmogorov-komplexitás alapján
Az információ az 1. definícióban ismertetett általános meghatározása szorosan kapcsolódik a 2. definícióban meghatározott Kolmogorov-komplexitáshoz [
4], amely egy adott univerzális gépen a mintázatokat előállító legrövidebb bináris programkódok hosszaként határozza meg a mintázatok információtartalmát.
A Kolmogorov-komplexitás esetén az univerzális gép rögzítése biztosítja, hogy a különböző mintázatok információja összehasonlítható legyen, az univerzális gépek eredményei között ugyanis lehet konstans eltérés. Az eltérések hosszabb mintázat esetén elhanyagolhatók, rövid mintázatoknál viszont jelentősek lehetnek. Az információ és a Kolmogorov-komplexitás közti kapcsolatot a
képlettel jellemezhetjük [
2], ahol
a
kiszámításához használt univerzális gépre jellemző konstans érték. Mivel az
minimális információt pontosan ismerjük, így a konstans eltérést kiküszöbölve meghatározható az információ Kolmogorov-komplexitás alapján történő mérése:
4. definíció
Az mintázat Kolmogorov-komplexitással mért információja legyen:
ahol az hosszúságú konstans mintázat Kolmogorov-komplexitása:
5..3 Információ számítása tömörítési algoritmus alapján
A Kolmogorov-komplexitás, vagyis az információ pontos meghatározása azonban általános mintázatok esetén elméletileg lehetetlen, csak közelíteni lehet, és erre a legjobbak a veszteségmentes tömörítési algoritmusok. [
5] Az ezekkel tömörített mintázatok a nagy információsűrűség miatt közel véletlenszerűek. Ha a betömörített mintázat információtartalmát megmérjük véletlenszerű mintázatot feltételezve, akkor megkapjuk a közelítő információtartalmát az eredeti mintázatnak. A tömörítési algoritmusokra jellemző, hogy a tömörített kódba gyakran a kitömörítéshez szükséges algoritmust és más adatokat is beleírnak, ami kisebb mintázatok tömörítésekor arányaiban nagy többletinformációt jelent, ezért az eredményül kapott információt normálni kell.
5. definíció
A függvényt tömörítésnek nevezzük, ha:
- injektív, azaz ha és , akkor .
- Minden esetén .
- Létezik legalább egy , amelyre .
A tömörítő függvényt az egyszerűség kedvéért úgy definiáltuk, hogy a tömörítetlen és a tömörített mintázatoknak azonos legyen az értékkészlete.
4. állítás
Ha tömörítés, akkor bármely esetén.
6. definíció
Legyen tetszőleges mintázat, tetszőleges tömörítési algoritmus, akkor az mintázat tömörítési algoritmussal mért információja legyen:
ahol
Az és meghatározása a definíció alapján a gyakorlatban látszólag körülményes, de ha figyelembe vesszük, hogy a tömörített mintázatok a nagy információsűrűség miatt közel véletlenszerűek, és ezért Markov-folyamattal jól modellezhetők, akkor alkalmazhatjuk a következő közelítést:
ahol tetszőleges konstans mintázat és tetszőleges egyenletes eloszlású véletlen mintázat.
A különböző információmérési módszerek különböző struktúrák esetén eltérő hatékonyságúak, ezért nagyobb pontosság érhető el, ha többféle módszerrel mért információ eredményeinek a minimumát vesszük.
7. definíció
Ha információmérési módszerek, akkor mintázat információmérési módszerekkel mért információja:
6. Véges mintázatok entrópiája
Az entrópia az információval ellentétben a mintázatnak egy átlagos jellemzőjét jelenti, az egy elem meghatározásához szükséges átlagos információmennyiséget. A legtöbb esetben az entrópiát - tévesen - a Shannon-entrópiával azonosítják [
7], amely ergodikus Markov-folyamatok esetén közelíti csak jól az elemenkénti átlagos információtartalmat. A Kolomogorov-komplexitásból számolt entrópia jobb közelítést ad és általánosabb, ezért az entrópiát célszerűbb az információtartalom alapján definiálni, ahol az információtartalom mérésének módszere nem meghatározott.
Ha konstans sorozat, , és jelöli az üres sorozatot, az entrópia az üres mintázatot is figyelembe véve, kombinatorikai szempontból a következő képpen értelmezhető:
|
|
Mintázat
|
Entrópia
|
|
|
|
|
|
|
|
|
|
|
|
|
Táblázat 3: Konstans mintázat entrópiája.
Általánosságban az entrópiát ebben az értelmezésben az alábbi módon definiálhatjuk.
8. definíció
Egy véges mintázat entrópiája legyen a mintázat elemeinek átlagos információtartalma, azaz
ahol az információ.
Az a nevezőben lehetővé teszi a képlet üres mintázatokon való értelmezését. Konstans mintázat esetén, ha , az entrópia , ami azt jelenti, hogy növekedésével az entrópia aszimptotikusan közelít a nullához.
Ergodikus Markov-folyamatok esetén az entrópia n növekedésével a Shannon-entrópiához konvergál:
7. Összefoglalás
Ez a tanulmány egységes szemléletet kínál a véges mintázatok információ- és entrópmértékeire, túlmutatva a hagyományos Shannon-megközelítésen. Az ergodikus Markov-folyamatokra épülő Shannon-entrópia és a Kolmogorov-komplexitás jellegű általánosabb eljárások összevetésével szélesebb perspektívát nyújt a különböző szerkezetű minták információtartalmának mérésében. Bemutatja a konstans, véletlen és Markov-folyamatok által generált minták információjának alapfogalmait, valamint olyan általános tulajdonságokat, mint a szubadditivitás és a redundancia. Míg a hagyományos módszerek gyakran pontatlan becsléseket adnak rövid minták esetén, ez a keret, kiegészítve gyakorlati, tömörítési technikákkal, nagyon rövid szekvenciákra is elfogadható eredményt szolgáltat, és hidat képez az elméleti megfontolások és a valós alkalmazások között. Az itt bemutatott egységes megközelítés tisztázza a különböző entrópiafogalmak alkalmazhatóságát különféle adatstruktúrák esetében, miközben világos példákkal, formális bizonyításokkal és újszerű felismerésekkel szolgál a matematikusok, informatikusok, illetve a magas szintű adat- és információelmélet iránt érdeklődők számára – akár a jól ismert, akár a kevésbé feltárt területeken.
Hivatkozások
1Gregory J. Chaitin, "On the Length of Programs for Computing Finite Binary Sequences", J. ACM 13, 4 (1966), pp. 547–569.
2Gregory J. Chaitin, "A Theory of Program Size Formally Identical to Information Theory", Journal of the ACM (JACM) 22, 3 (1974), pp. 329--340.
3Thomas M. Cover and Joy A. Thomas, Elements of Information Theory 2nd (Wiley-Interscience, 2006).
4A. N. Kolmogorov, "On tables of random numbers", Mathematical Reviews (1963).
5Ming Li and Paul Vitányi, An Introduction to Kolmogorov Complexity and Its Applications 2nd (Springer, 1997).
6Claude E. Shannon, "A Mathematical Theory of Communication", Bell System Technical Journal (1948).
7Claude E. Shannon and Warren Weaver, The Mathematical Theory of Communication (University of Illinois Press, 1949).
FÜGGELÉK I.
Az 1. ábrán látható összehasonlításhoz használt 1000 karakter hosszúságú mintázatok.
Fibonacci-sorozat
0 1 2 3 5 8 1 3 2 1 3 4 5 5 8 9 1 4 4 2 3 3 3 7 7 6 1 0 9 8 7 1 5 9 7 2 5 8 4 4 1 8 1 6 7 6 5 1 0 9 4 6 1 7 7 1 1 2 8 6 5 7 4 6 3 6 8 7 5 0 2 5 1 2 1 3 9 3 1 9 6 4 1 8 3 1 7 8 1 1 5 1 4 2 2 9 8 3 2 0 4 0 1 3 4 6 2 6 9 2 1 7 8 3 0 9 3 5 2 4 5 7 8 5 7 0 2 8 8 7 9 2 2 7 4 6 5 1 4 9 3 0 3 5 2 2 4 1 5 7 8 1 7 3 9 0 8 8 1 6 9 6 3 2 4 5 9 8 6 1 0 2 3 3 4 1 5 5 1 6 5 5 8 0 1 4 1 2 6 7 9 1 4 2 9 6 4 3 3 4 9 4 4 3 7 7 0 1 4 0 8 7 3 3 1 1 3 4 9 0 3 1 7 0 1 8 3 6 3 1 1 9 0 3 2 9 7 1 2 1 5 0 7 3 4 8 0 7 5 2 6 9 7 6 7 7 7 8 7 4 2 0 4 9 1 2 5 8 6 2 6 9 0 2 5 2 0 3 6 5 0 1 1 0 7 4 3 2 9 5 1 2 8 0 0 9 9 5 3 3 1 6 2 9 1 1 7 3 8 6 2 6 7 5 7 1 2 7 2 1 3 9 5 8 3 8 6 2 4 4 5 2 2 5 8 5 1 4 3 3 7 1 7 3 6 5 4 3 5 2 9 6 1 6 2 5 9 1 2 8 6 7 2 9 8 7 9 9 5 6 7 2 2 0 2 6 0 4 1 1 5 4 8 0 0 8 7 5 5 9 2 0 2 5 0 4 7 3 0 7 8 1 9 6 1 4 0 5 2 7 3 9 5 3 7 8 8 1 6 5 5 7 4 7 0 3 1 9 8 4 2 1 0 6 1 0 2 0 9 8 5 7 7 2 3 1 7 1 6 7 6 8 0 1 7 7 5 6 5 2 7 7 7 7 8 9 0 0 3 5 2 8 8 4 4 9 4 5 5 7 0 2 1 2 8 5 3 7 2 7 2 3 4 6 0 2 4 8 1 4 1 1 1 7 6 6 9 0 3 0 4 6 0 9 9 4 1 9 0 3 9 2 4 9 0 7 0 9 1 3 5 3 0 8 0 6 1 5 2 1 1 7 0 1 2 9 4 9 8 4 5 4 0 1 1 8 7 9 2 6 4 8 0 6 5 1 5 5 3 3 0 4 9 3 9 3 1 3 0 4 9 6 9 5 4 4 9 2 8 6 5 7 2 1 1 1 4 8 5 0 7 7 9 7 8 0 5 0 3 4 1 6 4 5 4 6 2 2 9 0 6 7 0 7 5 5 2 7 9 3 9 7 0 0 8 8 4 7 5 7 8 9 4 4 3 9 4 3 2 3 7 9 1 4 6 4 1 4 4 7 2 3 3 4 0 2 4 6 7 6 2 2 1 2 3 4 1 6 7 2 8 3 4 8 4 6 7 6 8 5 3 7 8 8 9 0 6 2 3 7 3 1 4 3 9 0 6 6 1 3 0 5 7 9 0 7 2 1 6 1 1 5 9 1 9 9 1 9 4 8 5 3 0 9 4 7 5 5 4 9 7 1 6 0 5 0 0 6 4 3 8 1 6 3 6 7 0 8 8 2 5 9 6 9 5 4 9 6 9 1 1 1 2 2 5 8 5 4 2 0 1 9 6 1 4 0 7 2 7 4 8 9 6 7 3 6 7 9 8 9 1 6 3 7 6 3 8 6 1 2 2 5 8 1 1 0 0 0 8 7 7 7 8 3 6 6 1 0 1 9 3 1 1 7 7 9 9 7 9 4 1 6 0 0 4 7 1 4 1 8 9 2 8 8 0 0 6 7 1 9 4 3 7 0 8 1 6 1 2 0 4 6 6 0 0 4 6 6 1 0 3 7 5 5 3 0 3 0 9 7 5 4 0 1 1 3 8 0 4 7 4 6 3 4 6 4 2 9 1 2 2 0 0 1 6 0 4 1 5 1 2 1 8 7 6 7 3 8 1 9 7 4 0 2 7 4 2 1 9 8 6 8 2 2 3 1 6 7 3 1 9 4 0 4 3 4 6 3 4 9 9 0 0 9 9 9 0 5 5 1 6 8 0 7 0 8 8 5 4 8 5 8 3 2 3 0 7 2 8 3 6 2 1 1 4 3 4 8 9 8
Angol szöveg
John Muir (/mjʊər/ MURE; April 21, 1838 – December 24, 1914),[1] also known as "John of the Mountains" and "Father of the National Parks",[2] was a Scottish-born American[3][4]: 42 naturalist, author, environmental philosopher, botanist, zoologist, glaciologist, and early advocate for the preservation of wilderness in the United States. His books, letters and essays describing his adventures in nature, especially in the Sierra Nevada, have been read by millions. His activism helped to preserve the Yosemite Valley and Sequoia National Park, and his example has served as an inspiration for the preservation of many other wilderness areas. The Sierra Club, which he co-founded, is a prominent American conservation organization. In his later life, Muir devoted most of his time to his wife and the preservation of the Western forests. As part of the campaign to make Yosemite a national park, Muir published two landmark articles on wilderness preservation in The Century Magazine, "The Treasure
Véletlen sorozat
1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 0 1 1 0 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 0 1 0 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 1 1 1 0 1 1 0 0 1 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 0 1 0 1 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 0 0 0 0 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 0 0 0 0 0 1 0 1 1 1 1 1 1 0 1 1 0 1 1 0 0 1 1 0 0 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 1 0 0 0 0 0 0 0 1 1 1 1 1
Struktúrált sorozat
FÜGGELÉK II.
Minimális és maximális információmennyiség algoritmusai.
public class MinInfo{
public double minInfo(Collection values){
if (values == null) {
return 0;
}
if (values.isEmpty()) {
return 0;
}
if (values.size() == 1) {
return 1;
}
return Math.log(values.size() + 1) / Math.log(2);
}
}
public class MaxInfo{
public double maxInfo(Collection values){
if (values == null) {
return 0;
}
if (values.isEmpty())
{
return 0;
}
if (values.size() == 1) {
return 1;
}
Set atomicSet = new HashSet<>(values);
int k = atomicSet.size();
int n = values.size();
double v = n * Math.log(k) / Math.log(2);
if (v > 500) {
return v;
}
if (k == 1) {
return Math.log(n + 1) / Math.log(2);
}
return Math.log(
(Math.pow(k, n + 1) - 1) / (k - 1)) / Math.log(2);
}
}
FÜGGELÉK III.
Mintázat módosított Shannon-információjának algoritmusa.
public class ModifiedShannonInfo{
public double modifiedShannonInfo(Collection values) {
if (values == null || values.isEmpty()) {
return 0;
}
if (values.size() == 1) {
return 1;
}
Map<Object, Double> map = new HashMap<>();
for (Object x : values) {
Double frequency = map.get(x);
if (frequency == null) {
map.put(x, 1.0);
} else {
map.put(x, frequency + 1);
}
}
int n = values.size();
if (n > 100) {
return shannonInfo.value(values);
}
if (map.size() == 1) {
return Math.log(n + 1) / Math.log(2);
}
for (Object x : map.keySet()) {
map.put(x, map.get(x) / n);
}
double info = 0;
for (int i = 0; i < n; i++) {
double p = 1;
for (Object x : map.keySet()) {
double f = map.get(x);
p *= Math.pow(f, -i * f);
}
info += p;
}
return Math.log(info) / Math.log(2);
}
}
FÜGGELÉK IV.
Mintázat mintázat GZip tömörítési algoritmussal mért információjának algoritmusa.
public class GZipInfo{
private final MinInfo minInfo = new MinInfo();
private final MaxInfo maxInfo = new MaxInfo();
public double gZipInfo(Collection values) {
if (input == null || input.size() <= 1) {
return 0;
}
byte[] values = ObjectUtils.serialize(input);
double gzipInfo = ArrayUtils.toGZIP(values).length * 8;
double min = minInfo.minInfo(input);
double max = maxInfo.maxInfo(input);
double minGzipInfo = ArrayUtils.toGZIP(
new byte[values.length]).length * 8;
double maxGzipInfo = ArrayUtils.toGZIP(
generateRandomByteArray(values)).length * 8;
if (originalMax == originalMin) {
return (newMin + newMax) / 2;
}
return newMin + ((gzipInfo - minGzipInfo)
/ (maxGzipInfo - minGzipInfo)) * (max - min);
}
}