Resultados de la búsqueda a petición "html-parsing"

2 la respuesta

XPath buscar a través de etiquetas HTML

El siguiente HTML muestra que la tercera búsqueda (búsqueda de "Guías de práctica profesional") no funciona ya que el texto "Guías de práctica" se coloca entre la<strong></strong> tag ... ¿Es posible lograr la búsqueda XPath para evitar las ...

5 la respuesta

HTML5: W3C vs WHATWG. ¿Cuál da la especificación más autorizada?

Estoy en la mitad de un analizador html y encontré html5 definidoexplícitament las reglas generales para analizarill formó html. (Y solía inferirlos de DTD, suspiro) Me encanta ese hecho, pero sé bien que html5 aún no está finalizado (también ...

2 la respuesta

¿Cómo analizar el contenido de un archivo html usando CURL? [cerrado

Quiero analizar un contenido XHTML usando CURL. Cómo desechar número de transacción, peso, altura, ancho Entre<table> etiquetas. Cómo desecharsolo el contenido de este documento HTML y obténgalo como matriz usando CURL? transactions.php <table ...

6 la respuesta

¿Cómo extraer datos de la tabla html en el script de shell?

Estoy tratando de crear un script BASH que extraiga los datos de la tabla HTML. A continuación se muestra el ejemplo de la tabla de donde necesito extraer datos: <table border=1> <tr> <td><b>Component</b></td> <td><b>Status</b></td> <td><b>Time ...

3 la respuesta

¿Cómo convierto un documento hecho en Jsoup (el analizador html de Java) en una cadena

Tengo un documento hecho en jsoup que se parece a este Document doc = Jsoup.connect("http://en.wikipedia.org/").get();¿Cómo convierto esadoc en una cadena.

7 la respuesta

Sintaxis de expresiones regulares de orden variable

¿Hay alguna forma de indicar que dos o más frases de expresión regular pueden aparecer en cualquier orden? Por ejemplo, los atributos XML se pueden escribir en cualquier orden. Digamos que tengo el siguiente XML: <a href="home.php" class="link" ...

6 la respuesta

Parsing HTML en Python [cerrado]

¿Cuál es mi mejor opción para analizar HTML si no puedo usar BeautifulSoup o lxml? Tengo un código que usa SGMLlib pero es un poco bajo y ahora está en desuso. Preferiría que sufriera un poco de HTML con formato incorrecto, aunque ...

14 la respuesta

Regex selecciona todo el texto entre etiquetas

¿Cuál es la mejor manera de seleccionar todo el texto entre 2 etiquetas? Por ejemplo: el texto entre todas las etiquetas 'pre' en la página.

4 la respuesta

¿Cómo incrustar JSON de forma segura con </script> en un documento HTML?

En una aplicación Rails 3.1, ¿cómo puedo incrustar de forma segura algunos datos JSON en un documento HTML? Supongamos que tengo esto en una acción del controlador: @tags = [ {name:"tag1", color:"green"}, {name:"</script><b>I can do ...

5 la respuesta

¿Cómo analizo una página HTML con Node.js

Necesito analizar (lado del servidor) grandes cantidades de páginas HTML. odos estamos de acuerdo en que regexp no es el camino a seguir aquí. Me parece que javascript es la forma nativa de analizar una página HTML, pero esa suposición se basa ...