PHP ve sıralı işleme ile kazıma kaba kuvvet bir çok yaptık iyi olacak gibi görünüyor. Sana "uzun bir süre ne" olduğundan emin değilim, ama sıyırıp ederken sık sık başka şeyler yapmak.
Genellikle hiçbir şey gerçek zamanlı, sayar kendi verilerine benim kazıma bağlıdır, ve ben genellikle bunu kazımak ve aynı zamanda masaj.
Diğer zamanlarda ben bir site aşağı çekme ve yerel olarak kaydetmek için bir kurnaz wget komutunu kullanacağız. Sonra bazı regex büyü ile bir PHP komut verileri ayıklamak var.
PHP curl_ * kullanır ve çok iyi çalışıyor.
Eğer bir ebeveyn işi olabilir ki sağlayarak çatal çocuk süreçler URL işledikleri, hangi kazımak ve (vb, fs, db) yerel verileri kaydetmek. Ebeveyn aynı URL kez değil işlenir ve çocuklar asmak yok emin sorumludur.
Linux (pcntl_, çatal, vb) yapmak kolaydır, zor pencere kutuları.
Ayrıca son değiştirilme zamanında bakmak için bazı mantık eklemek ve (hangi önceden mağaza) olup içeriği değişti ya da zaten varsa sayfasını kazıma atlayın. Yapabileceğin böyle optimizasyon hileci bir sürü muhtemelen var.