Question

Ben kitap ve makaleleri hakkında temel bilgileri almak için WorldCat.org için arama sonuçlarını ayrıştırmak çalışıyorum.

A typical search result (and the one I'm using for testing) can be found here: http://www.worldcat.org/search?q=ti%3Aorganizations&fq=dt%3Abks&qt=advanced&dblist=638

Bu sayfa için html burada: http://pastebin.com/w2U91F1i

Burada her bir girdi hakkında temel bilgileri yakalamak için PHP preg_match_all ile kullanıyorum düzenli ifadedir:

$data = file_get_contents($url);
preg_match_all('/<div class="oclc_number">(.*?)<\/div>\n.*?<div class="name">\n.*?<a href="(.*?)"><strong>(.*?)<\/strong><\/a>\n.*?\n\n<div class="author">by\s(.*?)<\/div><div class="type">.*?<span class=\'itemType\'>(.*?)<\/span>.*?\n.*?<span class="itemLanguage">(.*?)<\/span>.*?<div class="type">Publication:\s*?(.*?)<\/div>/', $data, $topics, PREG_SET_ORDER);

Ben regexr aracıyla Bu ifadeyi kullandığınızda (- genellikle \ r benim için çalışmıyor ben \ r \ n yerine kullanmak dışında) (http://gskinner.com/RegExr/) gayet güzel çalışıyor. Ama preg_match_all boş bir dizi bana her zaman verir.

Ben ne yapıyorum yanlış olarak herhangi bir ipucu var mı?

Sorun düzenli ifadeler ile web sitesi ayrıştırma sahip

0 Cevap

etiketler