XPath hasta la primera aparición del elemento con longitud de texto> = 200 caracteres
¿Cómo obtengo el primer elemento que tiene un texto interno (texto plano, descartando otros elementos secundarios) de 200 o más caracteres de longitud?
Estoy tratando de crear un analizador HTML como Embed.ly y he configurado un sistema de retrocesos donde primero verifico porog:description
, entonces buscaría esta ocurrencia y solo entonces ladescription
metaetiqueta.
Esto se debe a que la mayoría de los sitios que incluso incluyenmeta description
describa su sitio en esa etiqueta, en lugar de los contenidos de la página actual.
Ejemplo
<html>
<body>
<div>some characters
<p>200 characters <span>some more stuff</span></p>
</div>
</body>
</html>
¿Qué selector podría usar para obtener el 200 caracteres porción de ese fragmento HTML? No quiero la algunas cosas más tampoco, no me importa qué elemento es (a excepción de<script>
o<style>
), siempre que sea el primer texto sin formato que contenga al menos 200 caracteres.
¿Cómo debería ser la consulta XPath?