php - Nasıl geçersiz HTML ile bir web sitesi kazımak

Ben geçersiz HTML olan bir web sitesinden veri kazımak için çalışıyorum. Simple HTML DOM Parser ayrıştırır ama çünkü onun geçersiz HTML işleme nasıl biraz bilgi kaybeder. Yerleşik DOMXPath çalışmıyor ile DOM çözümleyici, boş bir sonuç kümesi döndürür. Ben PHP Tidy ile değil PHP Düzenli sunucu ve paylaşılan bir barındırma sunucusu yüklü değilse zorlama HTML çalıştırdıktan sonra lokal çalışma (DOMDocument ve DOMXPath) bunu başardı, bu yüzden bu üzerinde hiçbir kontrole sahip. Ben denedim HTMLPurifier ama tamamen DOCTYPE, baş ve vücut etiketleri kaldırır beri sadece kullanıcı girişi güvence için gibi görünüyor.

PHP Tidy için bağımsız alternatif her türlü var mı? Ben gerçekten etrafında gezinmek ve ne gerek kapmak için DOMXPath kullanmayı tercih ederim, sadece onu ayrıştırmak için önce HTML temizlik biraz yardıma ihtiyacı var gibi görünüyor.

Edit: Im Bu web kazıma: http://courseschedules.njit.edu/index.aspx?semester=2010f. Şimdi ben sadece tüm kurs link almak için çalışıyorum.

Nasıl geçersiz HTML ile bir web sitesi kazımak

0 Cevap

etiketler