Copia todos los elementos de un espacio de nombres y nada más.

Question

Apr 04, 2013, 04:13 PM

Copia todos los elementos de un espacio de nombres y nada más.

Tenemos un montón de archivos que son páginas html pero que contienen elementos xml adicionales (todos con el prefijo de nuestro nombre de empresa 'TLA') para proporcionar datos y estructura para un programa más antiguo que ahora estoy reescribiendo.

Formulario de ejemplo:

<html >
<head>
    <title>Highly Simplified Example Form</title>
</head>
<body>
    <TLA:document xmlns:TLA="http://www.tla.com">
        <TLA:contexts>
            <TLA:context id="id_1" value=""></TLA:context>
        </TLA:contexts>
        <TLA:page>
            <TLA:question id="q_id_1">
                <table>
                    <tr>
                        <td>
                            <input id="input_id_1" type="text" />
                        </td>
                    </tr>
                </table>
            </TLA:question>
        </TLA:page>
        <!-- Repeat many times -->
    </TLA:document>
</body>
</html>

Mi tarea es escribir un preprocesador que extraiga todos los elementos 'TLA' e ignore los elementos html

Salida XML deseada:

<?xml version="1.0" encoding="utf-8" ?>
<TLA:document xmlns:TLA="http://www.tla.com">
    <TLA:contexts>
      <TLA:context id="id_1" value=""></TLA:context>
    </TLA:contexts>
    <TLA:page>
      <TLA:question  id="q_id_1">
      </TLA:question>
    </TLA:page>
    <!-- Repeat many times -->
</TLA:document>

Esto debería ser posible con XSLT pero no puedo formular el código correcto. Esto es lo que tengo hasta ahora:

<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
    xmlns:msxsl="urn:schemas-microsoft-com:xslt" exclude-result-prefixes="msxsl"
    xmlns:tla="http://www.tla.com"
>
    <xsl:output method="xml" indent="yes"/>

    <xsl:template match="tla:*">
      <xsl:copy>
        <xsl:apply-templates select="@*|node()"/>
      </xsl:copy>
    </xsl:template>
</xsl:stylesheet>

Lo que es extraer los elementos que quiero (¡pero no sus atributos!) Pero también extrae los atributos de texto y el contenido de los elementos html. ¿Cómo puedo excluir los elementos html y su contenido?