Attualmente sto cercando modi per prevenire file PDF dannosi al confine della rete. Ciò includerà la scansione dei virus, ma ci sono limiti noti a questo. Vedo un approccio comune è quello di appiattire il file PDF usando qualcosa come:
gs -dNOPAUSE -sDEVICE=pdfwrite -sOUTPUTFILE=flattened.pdf raw.pdf
Mentre questo sembra senz'altro rimuovere i soliti sospetti dall'output di pdfid , solo questo < a href="http://blog.9bplus.com/scoring-pdfs-based-on-malicious-filter/"> non significa che le minacce associate siano state eliminate.
Quindi:
-
Questo approccio eliminerà la maggior parte degli exploit Flash e Javascript?
-
Quali sono le probabilità che persistano?
Note:
Poiché è destinato alla scansione di massa, suggerimenti come questo non sono veramente pratici in scala.
I collegamenti a fonti autorevoli sarebbero molto apprezzati.
Aggiorna
Il metodo sopra rimuove Flash e Javascript dal PDF. Steffen (vedi sotto) ha evidenziato che il malware incorporato nei file di immagine sarebbe probabilmente sopravvissuto. Per mitigare questo, sto facendo il downsampling delle immagini. Non sono stato in grado di ottenere una risposta chiara se gs conserva o rimuove i dati EXIF, ma il downsampling sarà probabilmente alter l'offset di qualsiasi malware incorporato che annulla la sua sfruttabilità e il downsampling dovrebbe anche rimuovere qualsiasi malware incorporato nei dati di immagine. Quindi:
DPI=63
gs -dBATCH -dNOPAUSE -dQUIET -sDEVICE=pdfwrite \
-dDownsampleColorImages \
-dColorImageDownsampleType=/Bicubic -dColorImageResolution=${DPI} \
-dDownsampleGrayImages \
-dGrayImageDownsampleType=/Bicubic -dGrayImageResolution=${DPI} \
-dDownsampleMonoImages \
-dMonoImageDownsampleType=/Bicubic -dMonoImageResolution=${DPI} \
-sOUTPUTFILE=${TMPPDF} ${SRCFILE}