– Bevallom, mindig az volt a meggyőződésem, hogy az Arcanum egy állami projekt. Hiszen például akkora digitalizált sajtótára van, amely nemzeti könyvtárakat idéz. Ki gondolná, hogy ezt egy magánvállalkozás hozta össze?
– Amely ráadásul egy családi cég. Az Arcanum még 1989-90 táján alakult. Előtte egy szabadalmi adatbázissal kezdődött az egész. Még flopilemezen adtuk ki az első termékeinket. Utána adatbázis-CD-ket csináltunk, majd úgy 15 év után kiderült, az embereknek minden kell. Nem érik be egy adatbázisos verstárral vagy összehasonlítható Biblia-fordításokkal. Ekkor találtunk rá a folyóiratokra. Először a tudományos lapokat dolgoztuk fel. A Századok volt a legelső. Aztán jött a Vasárnapi Újság. De az igazi áttörést az jelentette, amikor a Népszava archívumát sikerült megszerezni egy afféle lomtalanítás során.
– Ezek szerint távlati koncepció nélkül vágtak bele az egészbe?
– Én vegyészként végeztem az ELTE-n 1983-ban, de kiderült, hogy ezen a területen nem igazán jók a képességeim. A Kőbányai Gyógyszergyár könyvtárába kerültem, ahol egészen fantasztikus világ tárult elém. Egy kezdetleges számítógépes rendszerrel rengeteg hellyel léptem kapcsolatba, kaptam az információkat a tudományos élet megannyi területéről. Így segítettem kutatásokat. A nyolcvanas évek közepén elcsábítottak egy kisszövetkezetbe. Adatbázisokkal foglalkoztam, az elsőt, a már említett szabadalmi adatbázist épp a gyógyszergyárral közösen csináltuk meg. Aztán a 90-es évek elején megjelent a CD-ROM, 640 megabyte, hihetetlen volt, kitárult a világ. Jöhetett az 5 megabyte-os Biblia-kiadvány.
– De ez már nem csupán adatbázis. A digitalizált eredeti anyagot meg is kell jeleníteni.
– Igen, a Biblia már ilyen volt. Akkor még magunk elé tettük, legépeltük, korrektúráztuk az átiratot. Még nem tudtunk eredeti formában megjeleníteni szöveget. De volt már egy remek programunk teljes szövegkeresésre. Meg lehetett például tudni, egy motívum hányszor, hol fordul elő. És össze tudtuk vele hasonlítani a magyar Biblia-fordításokat is. Öt flopin fért el az anyag, majd fölkerült CD-re.
– Valamelyik egyháztól érkezett a megbízás?
– Nem. Egyszerűen keresgéltük, mire lehet igény. A Biblia feldolgozása egyértelműnek tűnt, nagy siker is lett. A Jehova Tanúi felekezet támogatta úgy 50 ezer forinttal, de az egyházakat nem nagyon érdekelte a dolog. Utána megcsináltuk a Verstárat, először 25, majd 50 költő életművével. Majd az évek során elkészült vagy 300 CD, köztük Mikszáth-, Jókai-összes, a Pallas nagy lexikona és más enciklopédiák. Ezzel párhuzamosan pedig különféle megbízásokat teljesítünk, volt közös projektünk az Országos Széchényi Könyvtárral, múzeumokkal, a Magyar Nemzeti Levéltárral, a Hungaricana rendszerben okleveleket, a Királyi Könyveket, iratgyűjteményeket, képanyagokat digitalizáltunk. Ezek is megtalálhatók ma a weboldalunkon.

– Hogyan jutottak el újra az újságokig, folyóiratokig?
– Egyre kevesebb volt a megbízásos munka, másrészt pedig látszott, a CD-formátum nem megy tovább, új technológiát és profilt kell keresni. Akkoriban, úgy a 2000-es évek végén indult a Google Books, az a technológia, hogy kétrétegű pdf-et csinálunk, felül van a kép, alul a program által felismert szöveg. Így óriási mennyiségű anyagot lehet digitalizálni.
A Google szkenneléseit látva, úgy gondoltam, ez a magasság megugorható. Tudományos folyóiratokkal kezdtünk, de amikor a Politikatörténeti Intézetnek köszönhetően teljes duplumhoz jutottunk a Népszavából, a kísérletezések során kiderült, ha oldalakra bontjuk az újságot, lapadagoló szkennerrel elképesztő teljesítményt lehet elérni.
És ráálltunk az újságokra. Nem volt kétséges, hogy erre a gyűjteményre óriási lesz az igény, hiszen az újságokhoz, hetilapokhoz az emberek élete, családjuk története kapcsolódik. Egy jazzkutató meg például szövegkeresés után találhat forrást arról, hogy mondjuk egy nyíregyházi tűzoltóbálon, 1938-ban milyen ragtime-zenekar játszott.
– Jómagam is tudtam mutatni Kárpátalján felnőtt édesapámnak híreket arról a beregszászi focicsapatról, amelyikről gyakran mesélt.
– Erről van szó. A tudományos folyóiratokról sem feledkeztünk meg, megtalálhatók a rendszerünkben, de az újságok kerültek a fókuszba. Ma már ott tartunk, hogy mindenféle kelet-európai, román, cseh, szlovák, lengyel, még orosz anyagokat is feldolgozunk, és kintről egyre nagyobb irántuk a kereslet. Amihez persze el kell érni egy úgynevezett kritikus tömeget, ami 10 millió oldal. A kelet-európai térségben gyakorlatilag egyeduralkodók vagyunk, mert módszeresen szinte egyetlen más országban sem foglalkoznak ezzel a tevékenységgel. De nincs kizárva, hogy lassan Európa legnagyobb adatbázisává nőjük ki magunkat ezen a területen.
– Gondolom, azért valamennyi állami támogatást kapnak a projekthez.
– Téved. És most már megbízások is alig jönnek. A célunk az, hogy egy-két éven belül az előfizetői díjakból tartsuk fenn a céget. Reálisnak tűnik, mert az emberek szeretik az Arcanumot, hajlandók pénzt áldozni az eléréséért, és oktatási, kutatási intézmények, médiaorgánumok számára is egyre inkább nélkülözhetetlen a használata.
– Érdekes, ahogy egy viszonylag kicsi magáncég nagyjából egy évtized alatt létrehoz egy hatalmas, kereshető digitális gyűjteményt, miközben sok közgyűjteményben és más állami intézményekben is folynak hasonló projektek, de jóval kisebb hatékonysággal. Az állami „digitalizálógyár”, a MaNDA programja elakadt. Mivel magyarázható ez?
– Őszintén szólva nekem iszonyú szerencsém volt ezzel a vállalkozással. Nagyon jó időpontban kezdhettem el foglalkozni ezzel a területtel, és így az 1990-es évek elejétől, gyakorlatilag a kezdőponttól tudtuk követni a technológia fejlődését. Képesek voltunk mindig megugrani a következő szintet, tudtuk növelni a kapacitást, egyre hatékonyabbá tenni a munkaszervezést. Vagyis egy szerves folyamat eredménye, ahová mostanra eljutottunk. Nem akarok senkit bántani, mert az állami intézmények enyhén szólva nincsenek túlfinanszírozva, és szerteágazó a tevékenységük.
A digitalizálás egy speciális terület. Folyamatos fejlesztést nehéz megvalósítani, mert ahhoz biztos, hogy megfelelő mértékben növekedő költségvetési tétel kéne. Így aztán csak megaprojektek keretében van lehetőség a fejlesztésre, egy-egy program elindítására. Akkor megjönnek a milliárdok, de nem könnyű észszerűen elkölteni őket, főleg megfelelő koncepció, szakembergárda és tájékozódás nélkül.
Megcsinálhatnak egy nagy, egyszeri beruházást, de mi legyen utána? Hogyan menjen folyamatosan tovább a dolog? Tudomásom szerint például az egyik nagy közgyűjteményben vettek 80 szkennert. Az állandó működtetésükhöz ugyanannyi ember is kéne, ami nem megoldható, így a gépek többsége áll. Akkor inkább elég lenne kettőt venni, megcsinálni velük egymillió oldalt, és rögtön kiderül, merre tovább. Milyen új szkennert kéne venni és hányat, kialakulna, milyen formában, kiknek lehet a digitalizált anyagot közzétenni. De nem, az állami pénzhez mindig nagy projekteket kell álmodni. Ráadásul igazi tapasztalat nélkül. Aztán hirtelen iszonyatos nyomás nehezedik mindenkire, a vezetők haboznak, a könyvtárosok, muzeológusok, tudományos munkatársak, informatikusok mindenbe beleszólnak. A könyvtári dolgozók nehezen engedik, hogy a szkenneléshez lapokra szedjenek bekötött újságévfolyamokat. Ez így nagyon nehézkes. Nekünk nem kell összevissza manőverezni, kapkodni, nyugodtan végiggondolhatunk mindent, tudunk időben fejleszteni, és egyre jobb színvonalon csinálhatjuk ezt a dolgot.




– Az Arcanumnak hány munkatársa van?
– 25-30.
– És hány szkennere?
– Tíz, amiből öt üzemel, a többi javítás alatt van a sok terhelés miatt. És van három különleges, nagy méretű, úgynevezett térképszkennerünk, a világon egyedül ez a típus kétoldalas. Nagyon fontosak számunkra, mert rengeteg egykori szovjet, román, lengyel újság A2-es méretű, és ezeket csak velük tudjuk gyorsan digitalizálni. Nagy előnyt jelentenek a világpiacon, állítólag összesen tízet gyártottak belőlük. De ma már a technológiában is nagyon elöl tartunk. A fiam a fő programozó matematikus, a rendszer gyakorlatilag az ő munkájának eredménye. Ma a világon egyedül nekünk van arckereső programunk folyóirat adatbázisban. Olyan embereket lehet például azonosítani vele, akiknek a neve nem szerepel az újságban. Meg is vették tőlünk, egy 300 millió oldalas amerikai cég.
– Sajátos eset, amikor egy vállalkozó nemcsak profitot, hanem kulturális missziót lát cége tevékenységében, és jórészt az is hajtja előre.
– Igen, érdekel a dolog, a kulturális értékek, produktumok korszerű megőrzése. Azt is mondhatnám, kényszeres gyűjtőszenvedélyem van. Minden újságra vadászom, a legkisebb helyi laptól a román emigráns kiadványokig.
– Hogyan látja a digitális megőrzés jövőjét? Elérhetünk oda, hogy összegyűjtsük a teljes emberi tudást, tárgyiasult gondolatmennyiséget, és programokkal új felismeréseket, szellemi termékeket csiholjunk ki belőle?
– Ebbe az irányba megyünk, amit jól jelez a ChatGPT megjelenése. Ezzel a programmal már beszélgetni lehet. Kérdéseket tehetünk fel neki, ő kutat az elérhető adatokban, és válaszol. A mesterséges intelligenciával újságcikkeket és egyéb szövegeket, sőt programokat is lehet írni. Egyelőre komoly probléma, hogy nem ismeri a „nem tudom” választ. Mindig kiagyal valamilyen feleletet, és azok lehetnek tévesek is. Felmerül tehát vele kapcsolatban a hamis tudás terjedésének veszélye. Csak hát mi, emberek a történelmünk során jóval nagyobb számban állítottunk elő a világról hamis képzeteket. Bennünket ki fog jobban programozni?

