Yuml vs & yuml & gibi karakterler html_entity_decode

1 Cevap php

I'm trying to do a bunch translating of html encoded text into utf-8 to put it into my database. There are a ton of characters that get missed with both html_entity_decode, or iconv with Translit.

Ben dışarı şerit karakterden uzun bir listesini yazdım, ama şimdi görüyoruz ve Yuml tercüme değil, ancak ve yuml olduğunu.

Ben de kaçırdım diğer benzer semboller vardır eminim.

Bu tutarsızlıkları işlemek için en iyi nasıl herhangi bir tavsiye? ve emin olun ben her karakter doğru tercüme alıyorum yapmak?

1 Cevap

Form &blah; olan şey (X) HTML bir varlık referans; Eğer hepsini var emin olmak için gerekiyorsa, emin son UTF-8 çıkış hiçbiri bu desen içerdiğinden emin olun. Ayrıca sonunda noktalı virgül olmadan bol bulabilirsiniz (ama pek çok yanlış pozitifler) olacak.

Wikipedia, doğal olarak, bir list of HTML/XHTML/XML entity codes vardır. O (uzun) bir listesini uygulamak ve vahşi herhangi bir ek olanları bulursanız görebilirsiniz.