Próbowałem wyjąć tabel z plików PDF, które, jak mi się wydaje, nie mają odpowiedniego formatu. Tabele w tych plikach PDF są w formacie tabeli, ale nie są zamknięte prawidłowo z właściwymi granicami. Przyczepię wzór pdf i dane wyjściowe z obiema bibliotekami. Gdy próbowałem użyć tabula do wykrywania tabel, na wszystkich stronach pdf wraca puste ramki danych.
wprowadź 0 dla poszczególnych stron, 1 dla wszystkich, 2 dla konkretnej strony: 2 wprowadź numer strony: 25 w tabeli na tej stronie nie znaleziono w табулам.
I gdy używam camelot, to samo dzieje się bez odpowiedzi, gdy używam flovor='lattice'
wprowadź 0 dla poszczególnych stron, 1 dla wszystkich stron, 2 dla stron w tabelach, zdefiniowanych w tabeli 3 dla konkretnych stron: 3 wpisz 0, aby kratki lub 1 dla przepływu: 0 wprowadź numer strony: 25 na tej stronie camelot nie znaleziono żadnych tabel.
i kiedy używam flovor='stream'
, Pojawia się ramka danych, w której każdy wiersz odczytany wiersz po wierszu z danymi rozdzielanymi kartami, ale w ten ramka danych zostanie również włączony zwykły tekst.
wprowadź 0 dla poszczególnych stron, 1 dla wszystkich stron, 2 dla stron w tabelach, zdefiniowanych w tabeli 3 dla konkretnych stron: 3 wpisz 0, aby kratki lub 1 dla przepływu: 1 wprowadź numer strony: 25
Mi po prostu potrzebny skuteczny sposób wykrywania tabeli i pobierania tych samych danych, jeśli pionowe zawierające wiersze tabeli brakuje. Biblioteki tabula i camelot pracują normalnie, jeśli tabela ma poprawny format, więzień w pionowe i poziome linie.