Stránka 1 z 1
Nejde vyhledavat v pdf souboru
Napsal: stř 18. říj 2023, 19:12
od termit256
V pdf dokumentu nefunguje vyhledavani. Slo by s tim neco delat?
Neni to naskenovany obraz, je to normalni text s vektorovym fontem.
Vyrizl jsem jednu stranku, ukazka je zde
https://easyupload.io/uabvk6
Neni to nic tajneho apod, je to pitomy navod k troube siemens a nema zadne zabezpeceni. Alespon ne takove ktere bych nasev v ACROBAT DC PRO 2018
Re: Nejde vyhledavat v pdf souboru
Napsal: stř 18. říj 2023, 23:01
od TomasX
Mají tam nějak divně zprasený text v tom PDF.
Zkus si kousek textu vzít do bloku a CTRL-C CTRL-V zkopírovat jinam a lezou z toho nesmysly.
Možná nějaké úplně podivné kódování.
Tohle asi spravit nepůjde.
Re: Nejde vyhledavat v pdf souboru
Napsal: stř 18. říj 2023, 23:35
od -+_[]
Jednou jsem řešil něco podobného a vyřešil jsem to tak, že jsem to PDF přejel přes OCR. Myslím, že jsem to vytiskl jako png obrázky a ty narval do PDF a pak na tom udělal OCR.
Re: Nejde vyhledavat v pdf souboru
Napsal: čtv 19. říj 2023, 01:23
od TomasX
Tak jsou na to nástroje co schválně zprasí character mapping aby z toho nešel dostat text.
https://www.vintasoft.com/blog/prevent- ... itor-demo/
Opravit asi jedině přes OCR.
Dokážu si představit kde by se to mohlo hodit, ale u návodu na troubu to fakt nechápu.
Potkal jsem se s tím tady prvně a zaujalo mě to. Tak jsem si dal práci dohledat o co jde.
Re: Nejde vyhledavat v pdf souboru
Napsal: čtv 19. říj 2023, 13:21
od Nagant
Pokud jde o ten text a hledání v něm, tak celkem si s tím poradí PDF X-Change Pro 10.1.1 (sestavení 381) s OCR Enhanced a v něm export do MS Word s OCR. Dokonalé to bohužel není, ale určitě použitelnější než to PDF. Hledat v tom pak (v MS Wordu) jde, editovat bohužel ne.
Nebo vytisknout, dostatečně kvalitně naskenovat do nekomprimovaného PDF a v PDF X-Change Editoru na to pustit OCR s vytvořením cílového PDF, pak je výsledek takřka dokonalý (export do Wordu je zas celkem nepoužitelný, nejde v tom hledat).
Re: Nejde vyhledavat v pdf souboru
Napsal: čtv 19. říj 2023, 15:55
od termit256
OCR bych bral az jako posledni zoufalou moznost, soubory dost nabobtnaji, snizi se kvalita apod.
S tim domotanym fontem je to celkem jasne, ale acrobat zjevne vi jak to srovnat, protoze kdyz dam v acrobatu ulozit soubor jako .rtf nebo .docx tak se ulozi text spravne a jde i tak kopirovat do schranky apod.
Zde je ukazka jedne stranky .rtf
https://easyupload.io/e0ffeh
I prevod do docx zvladl acrobat bezchybne - viz screenshot. Jen word z duvodu ktery jsem dal nezkoumal vsechny slova podtrhuje jako chyby pravopisu.
Bohuzel jak uz to u takovych konverzi byva, rozhaze se pro zmenu formatovani.
Takze hledam metodu jak to srovnat rovnou v pdf. Nesetkal jsem se s tim rozhodne poprve a absence vyhledavani opravdu dost prudi.
Software na odstreleni ochran mam, ale tady zadne ochrany ve smyslu sifrovani nejsou