Nejde vyhledavat v pdf souboru

termit256 · Příspěvek od **termit256** » stř 18. říj 2023, 19:12

V pdf dokumentu nefunguje vyhledavani. Slo by s tim neco delat?
Neni to naskenovany obraz, je to normalni text s vektorovym fontem.
Vyrizl jsem jednu stranku, ukazka je zde https://easyupload.io/uabvk6
Neni to nic tajneho apod, je to pitomy navod k troube siemens a nema zadne zabezpeceni. Alespon ne takove ktere bych nasev v ACROBAT DC PRO 2018

TomasX · Příspěvek od **TomasX** » stř 18. říj 2023, 23:01

Mají tam nějak divně zprasený text v tom PDF.
Zkus si kousek textu vzít do bloku a CTRL-C CTRL-V zkopírovat jinam a lezou z toho nesmysly.
Možná nějaké úplně podivné kódování.
Tohle asi spravit nepůjde.

-+_[] · Příspěvek od **-+_[]** » stř 18. říj 2023, 23:35

Jednou jsem řešil něco podobného a vyřešil jsem to tak, že jsem to PDF přejel přes OCR. Myslím, že jsem to vytiskl jako png obrázky a ty narval do PDF a pak na tom udělal OCR.

TomasX · Příspěvek od **TomasX** » čtv 19. říj 2023, 01:23

Tak jsou na to nástroje co schválně zprasí character mapping aby z toho nešel dostat text.
https://www.vintasoft.com/blog/prevent- ... itor-demo/

Opravit asi jedině přes OCR.
Dokážu si představit kde by se to mohlo hodit, ale u návodu na troubu to fakt nechápu.

Potkal jsem se s tím tady prvně a zaujalo mě to. Tak jsem si dal práci dohledat o co jde.

Nagant · Příspěvek od **Nagant** » čtv 19. říj 2023, 13:21

Pokud jde o ten text a hledání v něm, tak celkem si s tím poradí PDF X-Change Pro 10.1.1 (sestavení 381) s OCR Enhanced a v něm export do MS Word s OCR. Dokonalé to bohužel není, ale určitě použitelnější než to PDF. Hledat v tom pak (v MS Wordu) jde, editovat bohužel ne.

Nebo vytisknout, dostatečně kvalitně naskenovat do nekomprimovaného PDF a v PDF X-Change Editoru na to pustit OCR s vytvořením cílového PDF, pak je výsledek takřka dokonalý (export do Wordu je zas celkem nepoužitelný, nejde v tom hledat).

termit256 · Příspěvek od **termit256** » čtv 19. říj 2023, 15:55

OCR bych bral az jako posledni zoufalou moznost, soubory dost nabobtnaji, snizi se kvalita apod.

S tim domotanym fontem je to celkem jasne, ale acrobat zjevne vi jak to srovnat, protoze kdyz dam v acrobatu ulozit soubor jako .rtf nebo .docx tak se ulozi text spravne a jde i tak kopirovat do schranky apod.
Zde je ukazka jedne stranky .rtf https://easyupload.io/e0ffeh
I prevod do docx zvladl acrobat bezchybne - viz screenshot. Jen word z duvodu ktery jsem dal nezkoumal vsechny slova podtrhuje jako chyby pravopisu.
Bohuzel jak uz to u takovych konverzi byva, rozhaze se pro zmenu formatovani.

Takze hledam metodu jak to srovnat rovnou v pdf. Nesetkal jsem se s tim rozhodne poprve a absence vyhledavani opravdu dost prudi.
Software na odstreleni ochran mam, ale tady zadne ochrany ve smyslu sifrovani nejsou

Nejde vyhledavat v pdf souboru

Nejde vyhledavat v pdf souboru

Re: Nejde vyhledavat v pdf souboru

Re: Nejde vyhledavat v pdf souboru

Re: Nejde vyhledavat v pdf souboru

Re: Nejde vyhledavat v pdf souboru

Re: Nejde vyhledavat v pdf souboru