Denník N

O mačkopsovi a jeho čistom bratovi vo vesmíre PDF

Nie je PDF ako PDF – na dva najbežnejšie typy z troch si treba dávať pozor. Pre digitálneho knihomoľa je najužitočnejším typom PDF ten najmenej rozšírený. Ilustračné foto – ilyessuti/pixabay
Nie je PDF ako PDF – na dva najbežnejšie typy z troch si treba dávať pozor. Pre digitálneho knihomoľa je najužitočnejším typom PDF ten najmenej rozšírený. Ilustračné foto – ilyessuti/pixabay

Vo svete literatúry môžu byť súbory PDF jednak otrava, jednak spása – a potom je tu ešte „mačkopes“: tretí druh súboru PDF, stojaci medzi oboma extrémami.

Včera som debatoval so slovenským vydavateľom aktívnym na Facebooku a pri debate som si uvedomil, že som v predošlom blogovom článku, ktorý rozoberal tému EPUB verzus PDF, nezdôraznil, že jediný typ PDF súborov, ktorý – pri neexistencii optimálneho formátu EPUB – považujem za potenciálne „spásonosný“, je súbor PDF nedotknutý softvérom OCR. Žiaľ, ani na najkvalitnejší softvér OCR – a tým je ruský ABBYY FineReader – sa nedá stopercentne spoľahnúť. Spoľahlivý výstup z OCR si vždy vyžaduje dodatočnú manuálnu kontrolu človekom, nielen strojom. A na tú typicky nie je čas – respektíve „nejsou peníze, nejsou lidi“!

Definícia mačkopsa

Preto osobne typicky nemám využitie pre „mačkopsa“, ktorým je súbor PDF, vychádzajúci z naskenovaných či nafotografovaných stránok papierovej knihy, ktorý však už prešiel softvérom OCR (no nie odbornou ľudskou kontrolou), takže sa v ňom slová dajú vysvietiť a skopírovať, v súbore sa dá vyhľadávať a podobne. Na prvý pohľad je to výhoda, ale naozaj len na prvý pohľad. To, čo je optimálne na kancelárske využitie súboru PDF, je – paradoxne – opakom optimálnosti pri literárnovednom využití súboru PDF. V súbore PDF, ktorý je výsledkom plne automatizovaného procesu OCR, sa totiž vždy nachádzajú chybičky a nepresnosti. Ako jednu z najtypickejších chýb OCR spomeniem, že slová, ktoré sú v pôvodnej papierovej knihe zvýraznené kurzívou, sa do súboru PDF nemusia všetky dôsledne preniesť v kurzíve; alebo aj naopak: do súboru PDF vloží proces OCR kurzívu aj tam, kde v papierovom vydaní nebola.

Z tohto dôvodu od súborov PDF, ktoré vznikli pomocou softvéru OCR, dávam ruky preč. Jediné súbory PDF, ktoré prijímam na štúdium literatúry, sú súbory PDF obsahujúce pôvodné fotografie/skeny papierových vydaní kníh: bez možnosti kopírovať text, bez možnosti vyhľadávať v texte. Len pri pravých fotografiách papierovej knihy, ktoré ešte neprešli cez softvér OCR, totiž máme istotu, že sa skutočne pozeráme na 100 % textologicky spoľahlivú reprodukciu pôvodného papierového vydania. A práve o to (v literárnej vede a textológii) ide.

Ako digitalizovať „na kolene“?

Vo svojich „improvizačne digitalizačných“ podmienkach to teda robím tak, že si papierovú knihu nafotografujem v skvelom mobilnom softvériku ABBYY BookScanner/FineScanner, ale funkcie OCR sa v ňom nedotknem. Nie – fotografie papierovej knihy si prepošlem cez Dropbox na tradičný počítač a tam, v softvéri PDFCreator, zo „surových“ fotografií, nespracovaných OCR, vyrobím jediný súhrnný súbor PDF. Len takýto, „čisto fotografický“ súbor PDF je tým, ktorý v predošlom blogovom článku nazývam „spásonosným“. A takýto „čisto fotografický“ súbor PDF sa dá bez problémov študovať v odporúčaných apkách GoodReader či PDF Expert na iPade/iPhone, respektíve v ezPDF Readerovi v Androidovi. (Dá sa v nich aj bez problémov anotovať.)

Ak si už niekedy výnimočne nájdem čas kontrolovať presnosť výstupu z procesu OCR, nezastavím sa „na polceste“ pri „mačkopsovi“ súboru PDF spracovaného pomocou OCR – ale budem pokračovať v logickom slede činností a celú knižku už potom prevediem do toho formátu elektronickej knihy, ktorý je ako jediný pre elektronické knihy optimálny a natívny: EPUB.

Možné využitie mačkopsa?

Samozrejme, že aj mne je ľúto a prekáža mi, že sa v „čisto fotografických“ súboroch PDF nedá vyhľadávať v texte, nedá sa z nich text kopírovať a podobne. To zvyknem riešiť tak, že si nájdem ešte iné, trebárs aj „nespoľahlivé“ elektronické vydanie toho istého diela (napríklad aj také vydanie EPUB, ktoré je neprecízne a odfláknuté – čo je dnes smutný celosvetový štandard) a v prípade potreby vyhľadávam v texte či kopírujem z textu odtiaľ, z nespoľahlivého vydania, no zároveň sa vždy uisťujem, „manuálne vizuálnym“ porovnávaním so spoľahlivým, teda „čisto fotografickým“ vydaním PDF, že kopírovaná pasáž neobsahuje odchýlky od textologicky spoľahlivého znenia v nafotografovanom súbore PDF. Ak si odchýlky medzi oboma zneniami všimnem, musím ich vždy opraviť manuálne. Je to nepríjemné a zdržiava to – ale iné riešenie neexistuje, ak kladieme dôraz na to, aby sme študovali literatúru výlučne v textologicky spoľahlivých vydaniach.

Tu by som pre seba videl jediné potenciálne využitie „mačkopsa“ – teda súboru PDF, ktorý je výsledkom procesu OCR. Na seriózne štúdium literatúry je taký súbor nevhodný – ale na improvizované vyhľadávanie v texte či kopírovanie z textu knihy môže poslúžiť aj takýto „mačkopes“. To však (musíme to opäť zdôrazniť) len za predpokladu, že pasáž, ktorú si z takejto nespoľahlivej verzie textu skopírujeme, vždy vzápätí vizuálne porovnáme s textologicky spoľahlivým znením textu v „čisto fotografickom“ súbore PDF a prípadné odchýlky opravíme.

Osveta by prospela SNK aj pirátom

Kľúčové je šírenie osvety: nech si nik nemyslí, že vtedy, keď bežnému čitateľovi sprístupní naskenovanú knižku vo formáte PDF, ktorý ešte aj preženie cez softvér OCR, vyjde tým čitateľovi v ústrety alebo mu preukáže službu. Ak je to služba, tak medvedia. Vidno to aj u online pirátov – často sprístupňujú „pirátsky naskenované“ knižky práve vo formáte „mačkopsa“, teda súboru PDF prehnaného cez OCR. Všetci (počínajúc Slovenskou národnou knižnicou a končiac pirátmi) by si však mali uvedomiť, že bežným čitateľským potrebám najlepšie poslúži natívny formát elektronickej knižky EPUB – a ak na tvorbu kvalitného vydania EPUB nemáme čas či ľudské alebo finančné zdroje (a typicky ich, najmä pri nekomerčných dielach, nemáme takmer nikdy), zverejnime radšej celkom neupravený, „čisto fotografický“ súbor PDF – nie „hybridného mačkopsa“. Slovenská národná knižnica by teda mala prestať aj s vydávaním „kamuflovaných“ vydaní EPUB, v ktorých sa skrývajú naskenované obrázky namiesto spoľahlivo zdigitalizovaného textu (a to je len taký text, ktorý po strojovej digitalizácii ešte skontroluje odborne vedený živý človek). Toto všeobecné povedomie zatiaľ chýba nielen SNK či pirátom, ale celkovo „digitálnej“ čitateľskej verejnosti.

Duálny formát zverejňovania…

Principiálne dobre na to ide napríklad bezplatná internetová knižnica New Thought Library, ktorá všetky knižky a texty zverejňuje dôsledne v duálnej podobe: pod zdigitalizovaným textom je vždy umiestnený klikateľný odkaz na naskenovaný obrázok papierovej stránky vo formáte JPG (ukážka tu). V prípade pochybnosti (napríklad ak čitateľ nadobudne podozrenie, že v zdigitalizovanom texte vidí preklep) si čitateľ ľahko môže otvoriť naskenovaný obrázok papierovej stránky a obidve verzie textu porovnať. Online knižnici New Thought Library sa skôr dá vyčítať neprehľadnosť jej webstránok, ich presýtenosť reklamami (akokoľvek „nekomerčne, altruisticky mienenými“), ako aj chýbajúca základná možnosť stiahnuť si kompletnú knihu jediným kliknutím, a to ideálne v obidvoch formátoch: aj v spoľahlivo zdigitalizovanom texte v natívnom formáte elektronickej knihy EPUB, aj v naskenovaných obrázkoch pôvodného papierového vydania vo formáte PDF (bez spracovania cez OCR!).

… alebo dokonca trojaký?

Ak by v takomto duálnom formáte (EPUB + PDF) sprístupnila Slovenská národná knižnica (respektíve portál Slovakiana) naše kompletné digitálne dedičstvo, bolo by to naplnenie ideálu. Ale ako to už s ideálmi býva, sú nedosiahnuteľné; ku kvalitne spracovaným vydaniam kompletného literárneho dedičstva vo formáte EPUB sa zrejme nikdy neprepracujeme; o to väčší dôraz treba klásť na sprístupnenie literárneho dedičstva aspoň v naskenovanej podobe spoľahlivých súborov PDF – a to sú také, ktorých sa nedotkol softvér OCR. Za úvahu by stálo zverejnenie až dvoch verzií PDF pri každom digitalizovanom diele: jedna verzia PDF by bola bez zásahu OCR (a tá je pre digitálneho knihomoľa „povinná“), kým druhá verzia PDF by bola len „pracovná, neoficiálna“ – šlo by o „hybridného mačkopsa“ súboru PDF spracovaného pomocou OCR, ktorý by však neslúžil primárne na čítanie, na štúdium literatúry, ale na „pomocné“ účely: na kopírovanie z textu knihy, na vyhľadávanie v jej texte.

Text je súčasťou blogov Denníka N, nie je redakčným obsahom.
Administrátorov blogov môžete kontaktovať na adrese blog@dennikn.sk.

Teraz najčítanejšie

Alexander Avenarius

Prekladateľ, korektor, tlmočník, učiteľ jazykov, správca serverov. Milovník elektronickej literatúry a mobilných prístrojov (čiže digitálny knihomoľ), študent filozofie a filmov, polyglot, hobby-recenzent. Tvorca alternatívneho rozloženia slovenskej klávesnice. Môj alternatívny blog je na adrese extempore.avenarius.sk. Svoje knižné, filmové a iné recenzie posielam – vzhľadom na prehlbujúcu sa nefunkčnosť portálov IMDb a Amazon – aj do blogu kritik.avenarius.sk.