Resultados de la búsqueda a petición "bigdata"

Soy nuevo en Scala y Spark y me gustaría recibir ayuda para comprender por qué el siguiente código no produce el resultado deseado. Estoy comparando dos tablas Mi esquema de salida deseado es: case class DiscrepancyData(fieldKey:String, ...

hadoop2 apache-spark

2 la respuesta

En chispa, ¿cómo funciona la transmisión?

Esta es una pregunta muy simple: en chispa,broadcast se puede usar para enviar variables a los ejecutores de manera eficiente. Como funciona esto ? Más precisamente: cuando se envían los valores: tan pronto como llamobroadcasto cuando se usan ...

elasticsearch-mapping elasticsearch

1 la respuesta

Asignación de Elasticsearch: cambie el nombre del campo existente

¿Hay alguna forma de cambiar el nombre de un elemento en una asignación de Elasticsearch existente sin tener que agregar un nuevo elemento? Si es así, ¿cuál es la mejor manera de hacerlo para evitar romper el mapeo existente? p.ej. de ...

performance apache-spark hadoop apache-spark-sql

2 la respuesta

¿Cuál es la diferencia entre spark.sql.shuffle.partitions y spark.default.parallelism?

Cuál es la diferencia entrespark.sql.shuffle.partitions yspark.default.parallelism? He tratado de ponerlos a ambos enSparkSQL, pero el número de tarea de la segunda etapa es siempre 200.

json stream jq geojson

4 la respuesta

Procese un gran archivo GEOJson con jq

Dado un archivo GEOJson de la siguiente manera: - { "type": "FeatureCollection", "features": [ { "type": "Feature", "properties": { "FEATCODE": 15014 }, "geometry": { "type": "Polygon", "coordinates": [ ..... Quiero terminar con lo siguiente: ...

scala apache-spark compare spark-dataframe

1 la respuesta

Cómo comparar dos marcos de datos e imprimir columnas que son diferentes en escala

sparql dbpedia virtuoso triplestore

2 la respuesta

Estoy tratando de obtener una lista de todos los autores que han tenido más de 3 trabajos - DBpedia Sparql

Estoy tratando de obtener una lista de todos los autores que han realizado 3 o más trabajos (en DBpedia). mi ejemplo se puede ejecutar en:http://dbpedia.org/sparql [http://dbpedia.org/sparql] código baseselect (count(?work) as ?totalWork), ...

postgresql pattern-matching nearest-neighbor pg-trgm

1 la respuesta

Buscar en 300 millones de direcciones con pg_trgm

Tengo 300 millones de direcciones en mi base de datos PostgreSQL 9.3 y quiero usar pg_trgm para buscar difusamente las filas. El objetivo final es implementar una función de búsqueda al igual que la búsqueda de Google Map. Cuando utilicé pg_trgm ...

apache-spark spark-dataframe rdd apache-spark-2.0

2 la respuesta

Partición de parquet Spark: gran cantidad de archivos

Estoy tratando de aprovechar la partición de chispas. Estaba tratando de hacer algo como data.write.partitionBy("key").parquet("/location")El problema aquí es que cada partición crea una gran cantidad de archivos de parquet que resultan en ...

hadoop apache-airflow airflow python

1 la respuesta

Cómo reiniciar una tarea fallida en Airflow

Estoy usando unFiscal localy mi dag tiene3 tareasdonde la tarea (C) depende de la tarea (A). La tarea (B) y la tarea (A) pueden ejecutarse en paralelo, algo como a continuación A -> C B Entonces la tarea (A) ha falladoy perola tarea (B) ...

Página 7 de 13

5 678 9

Resultados de la búsqueda a petición "bigdata"

Iterar un RDD y actualizar una colección mutable devuelve una colección vacía

En chispa, ¿cómo funciona la transmisión?

Asignación de Elasticsearch: cambie el nombre del campo existente

Etiquetas Populares

¿Cuál es la diferencia entre spark.sql.shuffle.partitions y spark.default.parallelism?

Procese un gran archivo GEOJson con jq

Cómo comparar dos marcos de datos e imprimir columnas que son diferentes en escala

Estoy tratando de obtener una lista de todos los autores que han tenido más de 3 trabajos - DBpedia Sparql

Buscar en 300 millones de direcciones con pg_trgm

Partición de parquet Spark: gran cantidad de archivos

Cómo reiniciar una tarea fallida en Airflow

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "bigdata"

Etiquetas Populares