Ben kütüğü bir dizi bazı içerik çalışıyorum. Aynı biçimi paylaşıyoruz html ait.
<a href="meh">[18] blah blah blah < a...: Yani böyle çizgiler bir sürü olsun
Ve fikir numarayı (18) ve yanındaki metni (blah. ..) elde etmektir. Ayrıca, ben her eleme çizgi "> ile başlar ve ya <a veya </p ile sona erecek biliyoruz. Sorun (vb <i>, <u>,) metnin bir parçası olarak diğer tüm htmHTML etiketleri tutmak için ihtiyaçtan kaynaklanıyor.
Öyleyse ben böyle bir şey var:
$docString = file_get_contents("http://whatever.com/some.htm");
$regex="/\">\ [(.*?)\ ] (<\/a>)(.) *?(<)/";
preg_match_all($regex,$docString,$match);
Adlı bir saniye için $regex bakalım. , Bu alanlarda var görmezden başka bazı karakterler yok çünkü ben sadece buraya koymak. Ben ile başlayacak belirtmek ">. Sonra [] şeyin içinde numara yapmak. Sonra </a> tek tek. Şimdiye kadar iyi.
Sonunda, ben bir (.)*?(<) yapmak. Bu dönüm noktasıdır. Bir çizgi ya da italik etiketi bulunduğunda geçen biraz bırakarak, (<) gibi, metin kesilir. Ancak, ben koyarsanız (<a|</p) edilen dizisi boş biter. Ben sadece (<a) bu değişen denedim, ama öyle görünüyor ki 2 karakter pisliği bütün ting.
Ben ne yapabilirim? Ben bütün gün bu mücadele ettik.
