Diğer web sitelerinin içerik otomatik ayıklamak nasıl?

5 Cevap php

Ben onun sayfalarından web sitesinden belirli bir veri ayıklamak istiyorum ...

Ben belirli bir sayfanın tüm içeriğini almak istemiyorum ama sadece bir kısmını gerekir (sadece bir tablo içinde veya content_div veri olabilir) ve ben web sitesinin tüm sayfaları boyunca tekrar tekrar yapmak istiyorum ..

Ben bunu nasıl yapabilirim?

5 Cevap

Tek öğeleri seçmek için içerik ve XPath retreive için curl kullanın.

Rağmen telif farkında olun.

"Diğer web sitelerinin içerik çıkarma" ekran kazıma denir ya web scraping.

simple html dom parser bunu yapmanın en kolay yolu (Biliyorum) 'dir.

Bu php crawler . The key is to use string manipulatin functions such as strstr, strpos ve substr gerekir.

Bunu yapmanın yolu vardır. Sadece eğlenmek için ben iyi biliyorum sosyal ağ üzerinde hesabıma geçti bir windows uygulaması oluşturuldu, doğru yerlere baktı ve bir xml dosyasına bilgileri kaydedilir. Bu bilgiler daha sonra başka bir yerde ithal olacaktır. Ancak, uygulamada bu tür yüzden bu tarih asla ben kabul etmiyorum motifler için kullanılabilir.

Ben RSS içeriğini ayıklamak için beslemeleri kullanarak öneriyoruz.

Bence, bir örümcek gibi bir şey uygulamak gerekir. Bir XMLHTTP isteği yapmak ve içerik almak ve daha sonra bir ayrıştırma yapabilir.