CMS ithalat için Index web

0 Cevap php

I need to migrate a website to a new CMS. We do not have access the original site except via http://mysite.com. We currently have a variety of scripts that i). index the site and the ii). create some hierarchy and iii). scrape the unique content (ie. ignore header/ footer/ template etc). The scripts actually work really quite well except the indexing the site. Is there a good utility that can index all the unique URLs of a site.

Şu anda bir karışımının kullanımı

$oHTML = new simple_html_dom();
$oHTML->setBody(file_get_contents('http://mysite.com'));
foreach($oHTML->find('a') as $oLink) {}

ve bir özyinelemeli fonksiyon tüm benzersiz bağlantılar vurmak için ...

Soru ... PHP yavaş ve ... bunu yapmak için doğru şey hızlı bellek sınırlarını vurur? Benim için bunu yapmak için sfenks ya da bir opensource arama motoru ya da bir şey kullanabilir miyim ...

0 Cevap