Aktualności:

Nowy polski projekt BOINC - Universe@Home

Menu główne

odczytywanie plików pdf

Zaczęty przez Ufol, 04 Czerwiec 2011, 16:23

Ufol

Problem wydaje się banalny. Istnieje przecież tyle programów, niestety z mojej perspektywy nie jest to już tak proste. Popularne programy, tj. Foxit i Adobe Acrobat, otworzą pdfa, ale gadacz nie chce go przeczytać. Istnieje możliwość konwersji takimi programami jak
Abbyy Fine Reader czy Pdf Transformer, ale strasznie długo to trwa. Można odczytywać Adobe Readerem, ale to już metoda na totalne zamulenie sprzętu. Próbowałem zainstalować wtyczki w Firefoxie, ale albo wybrałem złe, albo nie ma takich, które umożliwiają odczytanie pdfa za pomocą przeglądarki.
Czy można zgrać tekst do txt z pliku pdf? Chodzi mi o sam tekst, obrazki nie są mi potrzebne. Mam wrażenie, że konwersja powyżej wymienionymi programami psuje czasami tekst. Tzn, gubi znaki, lub zastępuje je innymi. Czy to tylko subiektywne wrażenie, czy fakt?

Troll81

PDF nie jest formatem czysto tekstowym. Wiele plików PDF posiada zeskanowane dokumenty które dla programu są tylko obrazkami. Ponadto autor pliku PDF może go zabezpieczyć przed kopiowaniem tekstu. Nowsze wersje adobe readera ponoć mają odpowiednie wtyczki (wersja 5 i wyżej). A oza tym to już chyba mocarniejszy sprzęt pozostaje....

Grzes


Troll81

#3
pod Linuksa http://www.nvda-project.org/

krzyszp

Open Office (i jego odmiana Libre Office) również czytają pdf'y. Niestety, bardzo duża część dokumentów to po prostu zeskanowane bitmapy... O dziwo, najbardziej ten problem dotyczy naszych krajowych władz...

Fajne zegarki :)
Należę do drużyny BOINC@Poland
 Moja wizytówka

Ufol

Możnaby powiedzieć, że pdf to wirtualna drukarka. Tekst zapisany w tym pliku jest bardziej obrazem niż tekstem, w ścisłym rozumieniu tego słowa. Brzmi to jak bełkot po spirytusie fatalnej jakości, ale tak to rozumiem. Jeżeli chce się przekonwertować pliki edytorów tekstu np. doc na rtf, to nie ma żadnego problemu. Jeśli natomiast próbuje się zapisać pdfa w innym formacie, to zabiera to niesłychanie dużo czasu. Poza tym, niektóre pdfy rozpoznają się fatalnie.
( Dla nieobeznanych z tematem: Rozpoznawanie to w Fine Readerze i Pdf Transformerze, proces, którego celem jest wyodrębnienie tekstu z obrazu. Niejako odczytanie go. )
Z tego powodu format pdf kojarzył mi się zawsze z drukarką bądź skanerem. Byćmoże stąd popularność tego formatu. Pdf się "nie rozjedzie". Ta informatyczna nowomowa oddaje istotę problemu. Tekst został już wydrukowany, tylko nie na papierze, ale do pliku. W związku z czym nie podlega zmianie, tak jak książka nie zmienia swego wyglądu od patrzenia na nią.
Wracając do tematu, czy libre office wymaga zainstalowania dodatkowego oprogramowania w celu otwierania plików pdf? Czy można za jego pomocą przekonwertować ten format, do popularnych obsługiwanych przez edytory tekstu? np. rtf czy txt. Próbowałem odpalić Openoffice bez Javy. To oprogramowanie kiepsko współpracuje z gadaczami. Co ciekawe Openoffice bez maszyny Java nietylko się uruchomił, ale nawet umożliwił odczytanie w przeglądarce, w moim przypadku był to Firefox, odczytanie plików w znanych formatach. Takich jak doc. Zainstalowałem wtyczkę do obsługi pdf przez Openoffice. Czy Libre Office również tego wymaga. W przypadku Openoffice pdf został otworzony, ale przeczytanie tzw. podglądu w Firefoxie było niemożliwe. Dla gadacza strona jest pusta. I to każda. Wnioskuję z tego, że zostały wrzucone na ekran obrazy stron a nie tekst, który się na nich znajduje. Openoffice nie rozpoznał pdfa jak to robi Fine Reader, na żywca go przerzucił.
Co różni w tym względzie Libre Office od Openoffice.
W tym poście często występują powtórzenia wyrazowe, nie potrafię niestety inaczej opisać problemu. Stąd te potworki językowe polegające na używaniu jednego słowa po wielokroć.

GRID

Jeżeli tworzący dokumenty korzysta z otwartych standardów to taki PDF jest w formie tekstu. Jeżeli dokument zapisze się w OpenOffice to jest on do z indeksowania dla botówgoogle. Posiadać takie pdf możemy kliknąć ctr+a potem ctr+c i kopiujemy cały tekst jaki tam jest (foxit reader). Potem najwyżej wrzucamy go do notatnika i zapodajemy dla gadacza.
Większość wtyczek do programów biurowych to wirtualne drukarki - wirtualny szajs.

Przykładałem mogą być nasze dokumenty - ulotka, list przewodni. Otwarte standardy biurowe są tak fajne że nawet office 2010 zaimplementował sobie niektóre z nich.

ulotka - http://www.boincatpoland.org/smf/promocja-boincpoland/mala-ulotka-bp/msg142291/#msg142291
list przewodni http://www.boincatpoland.org/smf/promocja-boincpoland/list-przewodni/50/

Różnice między Libre Office a OpenOffice są na razie prawie żadne. Libre Office będzie odbiegał od javy.

buninek

Jeżeli osoba tworząca potraktowała PDF wyłącznie jako kontener do upchania wielu jpegów w jednym pliku, wtedy jest to praktycznie nieprzydatne.
Nie nadaje się do druku, ani do czytania na ekranie.
Jedynie do pobieżnego przejrzenia i szybkiego skasowania takiego tworu.


Ufol

Przerobienie pdfa na tekst wymaga użycia programu rozpoznającego, takiego jak np. Abbyy Fine Reader. Podjąłem wiele prób otwierania pdfów, lecz moje wysiłki spełzły na niczym. Pozostaje zatem konwersja. Czy znacie jakieś programy godne uwagi poza tymi, które wymieniłem w pierwszym poście?

Grzes

Od kilku dobrych lat nie korzystam z windowsa ale za tamtych prehistorycznych czasów korzystałem z abby fine reader do rozpoznawania pisma. Ładnie sobie radził z wyciąganiem tekstu z pdfów niezależnie od tego z czego się składały. Jeśli tekst był czytelny to nie było problemów. Nie wiem jak "ciężkie" są nowe wersje.

buninek

Jeżeli PDF został utworzony jako opis strony z użyciem fontów, to przerobiene jego na tekst nie stanowi żadnego problemu. Czasem może wystąpić niewłaściwa konwersja niektórych znaków (wina programu tworzącego tenże pdf).

Do tego celu polecam pdftotext. Możesz zachować układ strony jak w dokumencie pierwotnym (proste dokumenty).

Jeżeli strona w PDF-ie to tylko niskiej rozdzielczości bitmapa, to i najdroższe programy do OCR-u nie wiele zdziałają. W takim przypadku przerobienie na tekst jest znacznie utrudnione albo i niemożliwe. Może szybciej wklepiesz go z klawiatury. XD
Bez problemu możemy wyciągnąć te bitmapy z pdfa. Można użyć programu - pdfimages.

pdfimages i pdftotext są dostępne zarówno pod windowsa jak i linuxa (składniki pakietu xpdf-tools).



phobos

Niestety z odczytywaniem pdfów jest spora loteria, wiele zależy od samego pdf'a, tak jak już koledzy zwrócili uwagę, czy tekst jest "tradycyjny" czy jest obrazkiem czy może narysowany wektorowo... Ostatnio miałem problem z czymś bardzo podobnym, musiałem przeedytować kilka pdf-ów, zostawić obrazki jak były a zmienić tekst. Przetestowałem sporo programów i sporo pdf-ów jedyny program który czytał wszystkie moje pdfy i umożliwiał ich edycję/konwersję do .doc to adobe acrobat pro. Z tym że jest to wielki kombajn działający powoli i płatny... tak więc nie wiem czy ci to w czymś pomoże.
Czasami niestety małe proste darmowe programy nie dają rady.

buninek

Miałem raczej na uwadze skany książek wrzucone na jakieś "chomiki". Osboba które je stworzyła dysponowała wysokiej jakości bitmapami. Skoro ona uznała nie ma sensu robić OCR-u, szkoda czasu na czasochłonną korektę, to trudno tego dokonać na 20 krotnie gorszych jakościowo bitmapach.

Niewątpliwie Adobe tworzy świetny soft do generowania i edycji w końcu stworzyli ten format.

Ufol

Rzeczywistość okazała się, jak często bywa, szara i zagmatwana. Pisząc po ludzku, niektóre pdfy są dla gadaczy nieosiągalne. Chociaż tekst jest widoczny na ekranie, to gadacze go nie widzą. Dla nich nie istnieje.
Sprawdziłem najnowszego adobe acrobata. Wersja 9 pro jest autentycznym kombajnem. Waży dużo, ale pod względem jakości rozpoznawania tekstu nie wygrywa z rosyjską konkurencją tj. abbyy fine readerem. Tak nieco z innej beczki:
Zamierzam zainstalować Vinuksa, to taki Linuks dla ślepych. Co polecacie dla tego systemu w kontekście pracy z formatem pdf?
Nie zakładam kolejnego wątku, ponieważ uważam, że te dwa zagadnienia spokojnie mieszczą się w ramach jednego tematu.

Mchl

Nawet czysto tekstowe PDFy portafią sprawiać kłopoty, czego świadectwem są zmagania użytkowników ebooków: http://swiatczytnikow.pl/jak-przechytrzyc-pdf-a/

W nagłych wypadkach wzywać przez: mail: mchlpl[at]gmail.com | PM|mchl[a]boincatpoland.org

Ufol

Reanimuję wątek, ponieważ nastąpił znaczący postęp w rozpoznawaniu pdfów. Mam na myśli fine readera w wersji jedenastej, dobra robota. Potrafi wyciągnąć tekst bez porównania lepiej niż najnowszy adobe reader.

Panth

#16
UP - czy zna ktoś zasadnicze różnice pomiędzy 11 a 12 , jeśli idzie o abbyy finereader? W opisie funkcjonalności (o ile tutaj jest pełny, jeśli nie - proszę o podanie jakiegoś źródła, bo na producenckiej stronie nie ma tego za wiele) (link wyrzucony przeze mnie - krzyszp) nie widzę zasadniczych różnic, a jeśli idzie o stosunek ceny, cóż... robi różnicę. Zależy mi na tym programie, jeśli o OCR idzie widziałem wiele pochlebnych opinii na jego temat. Nie wiem jednak, czy warto sporo dokładać do najnowszej wersji, czy lepiej wziąć starszą po niższej cenie. Jakieś opinie użytkowników, ewentualnie sugestie równie dobrych alternatyw? Ktoś, coś?

Edit:
Moderacja linka.

Ufol

Zjadłem zęby na rozpoznawaniu i testowaniu przeróżnych programów, więc czuję się dosyć kompetentny w w niniejszym temacie. Powiem tak, jak masz pdfa kiepskiej jakości, lub niezwykłego, dajmy na to skan książki z nietypową czcionką, to najlepszy ocr nie pomoże. Szczerze polecam szóstego Fine Readera, tani i funkcjonalny. Wyższe wersje deko lepiej wyciągają tekst, ale jakiegoś szału raczej brak. Jeżeli dysponujesz wolnym miejscem w chmurze, najlepiej googlowej, podaj mi sznurek do katalogu na pw. Podesłałbym ci książkę z wybitnie niestandardowymi literami, dodam napisaną po Polsku. Sam będziesz mógł ocenić różnice pomiędzy szóstką, dziesiątką a dwunastką. Istnieje jeszcze OmniPage. Dokumentnie mnie wkur... tzn. zirytował mnie totalnie, gdyż nie chciało współpracować z gadaczem, lecz dla ciebie to bez znaczenia, zatem przy okazji popróbuj i tamtego rozwiązania. Chociaż po mojemu Fine Readera nic nie przebije. Zauważam dziwną strategię jego twórców. Szóstka była najbardziej funkcjonalna, każda kolejna wersja jest, jakby to fachowo ująć, na swój sposób przebajerowana. Za dużo program stara się tzw. pomagać, czyli myśleć za użytkownika a tego nie przyswajam zbytnio. Uwaga, przykra niespodzianka, wiązki aktualizują się wyłącznie w jedną stronę. Wariant młodszy przerabia je na własną modłę, lecz formy dawniejszej nie wygeneruje. Jeśli zakupisz jedenastkę, to otworzysz wiązkę wykonaną dziesiątką, lecz nie istnieje możliwość konwersji odwrotnej. Po otwarciu dokumentu starszego typu program zaproponuje wykonanie kopi, zatem można zachować sobie starodawny dokument w niezmienionej postaci. Jednak nowy pozostanie osiągalny wyłącznie dla wersji tworzącej go, lub wyższej. Sprytna metoda speców od Fine Readera na nakręcanie zakupu ich produktu. Dzisiejsze maszyny nie mają kłopotów z odczytaniem plików tekstowych a darmowy Adobe Reader nie podwiesza już kompów z zainstalowanym udźwiękowieniem.