Bir. Pdf dosyası içeriği taranan veya değilse nasıl belirlenir

1 Cevap php

Yani, ben bir. Pdf dosyası var ve ben bunu bir PDF veya içine taranan tarafından oluşturulmuş olup olmadığını belirlemek gerekiyor. Ben metin olarak ya da değil görüntüleyebilirsiniz bir pdf olup olmadığını belirlemek için çalışıyorum.

I have PHP & Zend at my disposal. I'm thinking I might be able to use Zend's

$pdf->properties['Producer']

ama% 100 emin değilim.

Ben uğraşıyorum. Pdf dosyası ne tür emin olmak için herhangi bir yolu var mı?

1 Cevap

Bana zor geliyor. Farklı "Yapımcı" kimlikleri ton o, bir Faks gelen, bir kelime işlemci ya da etajer taranacak, kaynağının her türlü PDF'leri oluşturulmasını destekleyen birçoğu, çevresinde bulunmaktadır. Bir PDF dosyası oluşturmak için bir çok yol vardır, sen nereden ne geldi geri iz muktedir asla.

Eğer metin olarak ya da değil görüntüleyebilirsiniz belirlemek istiyorsanız, neden ondan bazı gerçek metin ayıklamak için denemiyorsunuz? Tarandıktan (veya gömülü görüntü başka türlü) eğer o hiç ya da çok az metinsel içeriğe sahip olmalıdır. Ama sonra da, birlikte gelen makine tarafından okunabilir bir metin olan bir taranmış PDF oluşturmak OCR programları var. Ile uğraşmak nasıl istiyorsun?

Bu ile nihai hedefi nedir?