Problemas de codificação DOMDocument / caracteres transformados
Estou usando o DOMDocument para manipular / modificar o HTML antes que ele chegue à página. Este é apenas um fragmento html, não uma página completa. Meu problema inicial era que todos os caracteres franceses eram confusos, o que eu pude corrigir após alguma tentativa e erro. Agora, parece que resta apenas um problema: 'o personagem se transforma? .
O código :
<?php
$dom = new DOMDocument('1.0','utf-8');
$dom->loadHTML(utf8_decode($row->text));
//Some pretty basic modification here, not even related to text
//reinsert HTML, and make sure to remove DOCTYPE, html and body that get added auto.
$row->text = utf8_encode(preg_replace('/^<!DOCTYPE.+?>/', '', str_replace( array('<html>', '</html>', '<body>', '</body>'), array('', '', '', ''), $dom->saveHTML())));
?>
Eu sei que está ficando confuso com a decodificação / codificação utf8, mas é a única maneira de fazê-lo funcionar até agora. Aqui está uma sequência de amostra:
Entrada: Sans doute parce quient data unter date déterminante in son espetacular cheminement
Output: Sans doute partner qu? Il vient d? Atteindre une date déterminante in son espetaculaire cheminement
Se eu encontrar mais detalhes, vou adicioná-los. Obrigado pelo seu tempo e apoio!