digitalizálás;Népszava;

2015-04-29 07:12:00

Évente 5-6 millió oldalt digitalizálunk

Sajtótörténeti pillanatnak nevezi Biszak Sándor, hogy a 141 éves Népszava teljes anyaga - 1873-tól 2014-ig - digitalizálva, kereshető módon az interneten hozzáférhetővé vált. A hatalmas, több évig tartó munkát végző Arcanum Adatbázis Kft. vezetője szerint problémát elsősorban az anyag összegyűjtése jelentett, de a digitalizáció során azért akadtak technikai nehézségeik is. Nemcsak lapunk, de például az MTI, az Országgyűlési Könyvtár és számos közgyűjtemény is az Arcanumnak köszönheti, hogy ma már digitális formában is elérhető az interneten.

- Kezdjük a mi szívünknek kedves témával; nemrég befejeződött a Népszava 141 évfolyamának digitalizálása. Éppen egy éve beszéltünk, amikor azt mondta, optimista lenne, ha 2016 végére sikerülne lezárni ezt a munkát, amely akkor másfél-két éve tartott.

- Ezek szerint túl pesszimista voltam. Mindig elsősorban az anyag összegyűjtése jelent problémát. A Népszava 141 éve esetében például hatalmas megrakott autókkal szaladgáltunk, amíg mindent el tudtunk vinni. Egy éve nagyjából 1948-ig, illetve a második világháborúig volt kész az anyag, az azóta kiadott számokat pedig egyszerűbb volt összeszedni. Bár beszéltünk arról is korábban, hogy ez sem mindig igaz: gyakran a legújabb számok már két nap után sincsenek meg. Főleg napilapoknál. Azokat az újságokat, amelyek nagyobb példányszámban jelennek meg, az emberek valahogy nem őrzik meg. De immár sajtótörténeti pillanatként számolhatok be róla, hogy a 141 éves újság teljes anyaga, 1873-tól kereshető módon az interneten hozzáférhetővé vált (az adtplus.arcanum.hu/hu/collection/Nepszava oldalon). A lényeg, hogy most lehetne megírni a Népszava történetét. Valakinek venni kellene a fáradtságot, hogy a teljes anyagot átnézi, mert abból nagyon jó dolog tudna összeállni.

- Mi a helyzet a hiányzó számokkal? Annak idején kértük olvasóinkat, ha megtalálják a lappangó példányokat, küldjék el.

- Ezek a számok sajnos tényleg eltűntek. Volt néhány kedves beküldő, de azok a példányok sajnos már megvoltak, az olvasók is a háború alatti hibás és zavaros számozás miatt keverték össze a számokat. A hiányzó számok keresése során amúgy is mindenféle furcsasággal találkoztunk, a lap mindenféle leágazásával: volt időszak, amikor Debrecenben adták ki a Népszavát, ám a bonyolult számozás miatt nem tudtuk, hogy ez az eredeti Népszava, vagy egy másik. Hiszen a lap Munkás-Heti-Krónika néven indult 1873-ban, és amikor 1877-ben a Népszava névre váltott, sokáig ugyanúgy kiadták a Krónikát is. Eleinte hetente, majd hetente háromszor jelent meg a Népszava, volt, hogy visszaváltott, szóval kissé zavaros volt a megjelenés, de mindez most már dokumentálható.

Ami miatt még nagyon nehéz volt, hogy az OCR, az optikai szövegfelismerés nem mindig működött. Ez egy olyan technológia, amely lehetővé teszi képek, szkennelt vagy digitálisan fotózott dokumentumok és PDF-fájlok szerkeszthető, szövegesen - nem csak a címben, hanem a cikkek tartalmában is - kereshető formába alakítását. Tehát ezzel könnyen tudunk szöveget előállítani. Minden jól is haladt a szövegfelismeréssel, kivéve az '50-es, '60-as évek számait: egyszerűen nincs rá magyarázat, nem tudjuk ma sem, hogy miért, de ezeket a program nem ismerte fel. Pedig ez egy világszerte használt szoftver, az 1870-es, az 1920-as, az 1980-as Népszaváknál is működött, de ezeknél nem.

- Ilyenkor semmit nem lát a gép?

- Az OCR első lépése, hogy a hasábokat felismeri. Egy nagyon bonyolult oldalon - a napilapoké pedig annak számít - is látnia kell, hogy van rajta öt hasáb, és közben mondjuk egy háromhasábos felcím. Nos, a hasábokat nem látta a program; ha pedig már eltévedt bennük, akkor a szövegnek is annyi. Ekkora mennyiségnél - 387 ezer oldalról beszélünk - ez valami borzalmas akadály.

- És akkor kézzel kellett beállítani?

- Kézzel, manuálisan keretezgettük a hasábokat, gyakorlatilag oda tereltük a gép figyelmét.

- Pedig még a tördelés is hasonló, mint az előző évtizedekben...

- Ezért is érthetetlen a dolog. Gondoltunk már mindenre, a papír minőségére, próbáltunk nagyobb felbontásban szkennelni, néztük a festéket, hátha gyengébb minőségű volt akkor. Ráadásul mindez a folyamat legvégén derült ki, mert a feldolgozásban "két oldalról" haladtunk, a '40-es, illetve a '70-es évektől közelítettünk, tehát elég nagy meglepetésként ért minket. De korábban is voltak gikszerek: például 1999 és 2005 között olyan borzasztó nagy volt a Népszava, hogy gyakorlatilag csak az egyméteres térképszkennerünkben fért el rendesen, amely 36 centiméterszer 49 centiméteres, ami kezelhetetlen méret. Ez is nagy erőpróba volt. Ezekhez készítettünk egy nagy felbontású, 36 pixeles fényképezőt is, ami a szkennerrel párhuzamosan tudott haladni, elég jó ütemben.

- Ha jól értem, teljes a 141 év, de mégis mennyi az, ami most nem elérhető?

- Valóban igényel még némi munkát a dolog, az utolsó hónapok még nincsenek fent, de közben más anyagokat is készítünk. Összességében egytized százalékra tenném, ami valóban hiányzik a Népszava teljes digitalizálásából. Ez legfeljebb 2-300 oldal, tehát nagyon kevés.

- A mi internetező olvasóink és a történészek nyilván megnézik majd a gyűjteményt, de érdemes lenne valahogy népszerűsíteni is?

- Abszolút szükséges lenne népszerűsíteni. Alapvetően két nagy adatbázisunk van, az Arcanum Digitális Tudománytár (ADT) mellett szeptember óta működik a Hungaricana is - hungaricana.hu -, ami több mint száz közgyűjtemény állománya: múzeumok, levéltárak, könyvtárak, több mint száz intézmény anyagai találhatók itt. Ezek együtt több tízmillió oldalt tesznek ki, fontos anyagok. Eddig egyébként csak amolyan suttogó propagandában terjedt a Hungaricana híre, de áprilisban Kövér László házelnök "avatta fel" az archívumot, mely már az Országgyűlési Könyvtár állományát is tartalmazza. Reméljük, hogy népszerűvé válik, a Hungaricana amúgy is egy nagy ernyő: itt van 300 ezer képeslap, ami talán a leglátogatottabb gyűjtemény, napi két-háromezer emberrel, és ha ma valaki egy képeslapot keres a Google-ban, akkor már a mi oldalunk az első találat.

Képeslapban gyakorlatilag nincs konkurenciánk. Továbbá vannak térképeink, ezeknek is kétezer körül van a napi látogatottsága. És léteznek olyan száraz adatok, amelyek ezekkel a népszerűbb tartalmakkal nem vetekedhetnek. De vannak nagyszerű kéziratos térképeink az Országos Levéltártól, azokon mindenki megtalálhatja a saját faluját. Nyilván szűkebb réteget érdekel, de megtalálható az 1700 előtt kiadott magyar könyvek adatbázisa is, és nekem nagy kedvenceim a Mária Terézia-féle úrbéri tabellák. Ez első hallásra borzasztó érdektelennek tűnhet, pedig benne van az összes jobbágy neve, vagyis nem más, mint a felmenőink eredete.

- Akkor elég bő lehet az ADT anyaga is, ahová a Népszava is került...

- Több mint 250 folyóiratot tartalmaz, és azt mondhatom, hétről hétre bővül a bázis. A Tolnai Világlapja, a Budapesti Hírlap, a Pesti Napló, Pesti Hírlap is hozzáférhető itt, az adatbázis ingyenesen kereshető, csak a dokumentumok megtekintésekor kell fizetni. Ennek is nő a híre, lényegében alig van jelentős folyóirat, amely ne lenne itt megtalálható. Most éppen határon túli anyagokkal bővítjük az állományt, a kolozsvári Korunkkal, a marosvásárhelyi Látóval egyeztünk meg, nemrég a megszűnt Holmi is megkeresett. Csupa olyan, a rendszerváltás környékén indul lap, mely mára megszűnt. Nincs az jól, hogy ezeket nem őrzi meg az utókor.

- Egy éve még szintén terv volt, hogy egy Habsburg-kori térképet a Google térképébe illesszenek, ami mára sikerült is. Hogyan lehetett ezt elérni?

- Folyamatosan finomítottuk a technikát. Az akkori térképeket "georeferáltuk", vagyis a térképek minden egyes pixeléhez a mai GPS-koordinátákat rendeltük hozzá. Ha ez megvan, a térinformatikai programok segítségével már "könnyen" össze lehet passzítani a Google-lal. Szakmailag annyi a titok, hogy a Google-nak is van egy saját térképvetülete, hiszen a térképeket mindig valamilyen vetületben készítik: amikor térképet készítünk, az ellipszoid alakú Földről egy kétdimenziós verziót csinálunk. Erre pedig a régi térkép teljesen automatikus rákerül. Ehhez az kell, hogy az akkori térkép szelvényezve legyen; nagyon részletes kataszteri térképet például úgy csinálnak, hogy mondjuk a Gellért-hegyet berácsozzák, és tudjuk, hogy összesen 2850 méter széles és 1700 méter magas. Tehát ennek a téglalapnak a négy sarkát nézzük, és az alapján meg tudjuk mondani a mai GPS-koordinátáit tízméteres, vagy akár méteres pontossággal. A kézi munka ebben, hogy a négy sarkát bejelölöm, megmondom, hogy ez pontosan melyik koordináta.

- Tehát akkor ezek a régi térképek teljesen pontosak?

- Lukak persze vannak, de egészen különböző okokból. Hadd meséljem el: nemrég voltunk Beregszászon, a külügyi tárca támogatásával sikerült a Kárpátaljai Területi Állami Levéltárban lévő - egykori magyar királyság korabeli - térképeket digitalizálni. A levéltár beregszászi részlege egy hatalmas volt börtönépületben található, borzasztó körülmények között. Itt őrzik a magyarság és a magyar történelem szempontjából rendkívül fontos iratokat, 2012-ben pedig az épület egy része beázott, majd gombásodásnak indult. Aztán egy év múlva rászakadt a mennyezet az értékes kataszteri térképgyűjteményre. A tető maga alá temette az iratokat, úgy kellett hosszú munkával kimenteni. Végül az egészet nem nekünk kellett rendbe hozni, a romokat takarítani, de porszívózni és a sérült állományt megmenteni, beszkennelni igen... És ahogy Bereg, Máramaros, Ugocsa megyéket töltöttük fel, szomorúan látszott, mely megyék hiányoznak. És ezeket az ottani kollégák még most is keresik az épület különböző szobáiban.

A jó hír, hogy már folyik az épület felújítása, így az egész tárolási rendszer is átalakul, de sokszor ezek a térképek már a használat miatt is tönkremehettek. Aztán sokan mondják, hogy a tanácselnök vagy polgármester hazavitte és feltette a falra..., vagyis számunkra sosem lesz meg. Ilyenkor különböző forrásokhoz nyúlunk, másolatokból próbálunk dolgozni. Fáradságos munka. Már három éve gyűjtjük Horvátországból is az iratokat, kissé tragikomikus, hogy én próbálom meg a horvát levéltárakat összehozni: gyerekek, nézzétek már meg, nálatok mi van meg, mi nincs, mert az lehet, hogy a másiknak megvan. Hogy ez miért van? Tudja, szakmai dolog: "ki a jobb levéltáros". Szóval velem gyakran jobban együttműködnek, mint egymással.

- És hogyan működik a Google-nál, hogy befogadnak egy térképet? Van egy térképem, beküldöm nekik és felteszik? Hogy megy ez?

- Valahogy így. Beküldöd a térképet, hogy ezt szeretnéd, ha a Google Maps-en megjelenne, azt leellenőrzik és engedélyezik. A Google-térképek egyébként ingyen használhatók, kevés korlátozással: például, ha napi 30 ezer látogatót túllépi az adott portál, akkor már fizetni kell a szolgáltatásokért - mi néha elértük ezt a számot -, de amúgy nem kell. És lehet mondani nekik, hogy az ettől eddig tartó GPS-koordinátákat kérem, azokat ők szolgáltatják, innentől teljesen szabadon rátehetem az én térképemet. Sokan nem tudják, a Google-nak hatalmas készlete van, amit ingyen lehet használni, ami elsősorban a fejlesztőknek fontos és ők ismerik is ezeket a lehetőségeket. A Google-nak van egy olyan honlapja is, amire ráteszik az általuk legjobbnak ítélt ilyen kezdeményezéseket: amerikai népszámlálási adatokat, francia régi térképeket, és a mieinket is olyan színvonalasnak találták, hogy csinálhattunk egy külön Arcanum oldalt nekik, a Google Maps Generatoron. Aminek számunkra további nagy előnye, hogy ezzel növelik a kapacitást, amennyit használhatunk, amin terjeszkedhetünk.

- Az MTI artchívumát is az Arcanum készítette, biztosan nem volt kis munka...

- Ez egy viszonylag régebbi dolog, 2010 környékén kezdtük. Az MTI teljes archív anyaga az Országos Levéltárban volt megtalálható papíron, ez majdnem egymillió oldal, 1920 és 1950 közötti napi hírek. A távirati irodának akkoriban nagyon sok rovata volt, és mind elérhető volt papíron a levéltárban. 1920 előtt nem maradt fent szinte semmi, az akkori anyagok megsemmisültek. Különben ez egy nagyon szép munka volt, a nehézségeket itt is a borzalmas állapotú gépíratok okozták. Különben évente 5-6 millió oldalt digitalizálunk, nyilván nem mindegy, mennyire rossz minőségű valami, vagy mennyire bonyolult megcsinálni.

- Lesz-e folytatása a Népszava archiválásának? Felkerülnek majd az idei, későbbi számok is?

- Most egy kicsit kipihenjünk magunkat Népszava ügyileg, de azt mondhatom, hogy lesz. Negyedévente ránézünk majd, és ha majd újra erőt veszünk magunkon, akkor folytatjuk a további számokkal.