File PDF (Portable Document Format) |
Conversione in ASCII o postscript |
Negli ambienti con interfaccia a carattere, invece, la consultazione dei file PDF risulta più difficile. Normalmente si utilizzano programmi che estraggono il testo come un file ASCII oppure HTML. Purtroppo questo processo comporta la perdita della maggior parte della struttura del file (impaginazione, tipi di carattere, immagini), ma ugualmente ci sono circostanze nelle quali può essere desiderabile svolgere questa operazione.
Di seguito è riportato un elenco dei programmi più usati a tale scopo in ambiente MS-DOS.
Per versioni più aggiornate vedere
la pagina di Roberto Perotti.
Allorché una qualunque protezione viene attivata dall'autore di un file PDF, il file stesso risulta cifrato. L'autore ha la facoltà di inibire selettivamente la stampa, la copia di testo e grafica, la correzione e l'aggiunta di annotazioni. Il software XPDF contiene il modulo pdfinfo.exe che consente di conoscere lo stato dei file PDF in merito alle proprietà di protezione.
Nel caso dei file PDF cifrati esiste dunque il problema di estrarre il testo allorché il file è abilitato per la stampa ma non per la copia. In questo caso il programma pdftext.exe non consente di estrarre il testo, ma solo di generare un file postscript adatto per la stampa. Per ottenere il testo occorre perciò elaborare quest'ultimo file postscript con un programma di conversione da postscript a testo ASCII: ad esempio, si può usare il programma ps2ascii accluso a qualunque versione di Ghostscript.
Per facilitare l'operazione di estrazione del testo da un file PDF, ho preparato una piccola procedura batch che si avvale del software XPDF e, nei casi di file protetti per la copia ma non per la stampa, anche di GhostScript. La procedura può essere usata in DOS nativo oppure in finestra DOS di Windows e, una volta che i programmi XPDF e GhostScript sono convenientemente installati, è di utilizzo immediato. La sintassi è la seguente:
C:\>copdf.bat FileOrigine[.pdf] [FileDestinazione]dove FileOrigine indica il nome del file PDF da elaborare (si può omettere l'estensione PDF). Il nome del file destinazione è facoltativo: se non viene indicato, la procedura adotta un nome di file temporaneo nella directory C:\TEMP e ne avvia la visualizzazione mediante il programma DOC.
Scarica la procedura per convertire file PDF protetti.Nota bene. Naturalmente si intende che i file possono essere elaborati solo quando si conosce la relativa password.
Sono disponibili alcuni servizi di traduzione dal formato PDF ai formati testo oppure HTML. Basta inviare il file PDF come attachment a uno dei seguenti indirizzi: