Resultados de la búsqueda a petición "bigdata"

2 la respuesta

Iterar un RDD y actualizar una colección mutable devuelve una colección vacía

Soy nuevo en Scala y Spark y me gustaría recibir ayuda para comprender por qué el siguiente código no produce el resultado deseado. Estoy comparando dos tablas Mi esquema de salida deseado es: case class DiscrepancyData(fieldKey:String, ...

2 la respuesta

En chispa, ¿cómo funciona la transmisión?

Esta es una pregunta muy simple: en chispa,broadcast se puede usar para enviar variables a los ejecutores de manera eficiente. Como funciona esto ? Más precisamente: cuando se envían los valores: tan pronto como llamobroadcasto cuando se usan ...

1 la respuesta

Asignación de Elasticsearch: cambie el nombre del campo existente

¿Hay alguna forma de cambiar el nombre de un elemento en una asignación de Elasticsearch existente sin tener que agregar un nuevo elemento? Si es así, ¿cuál es la mejor manera de hacerlo para evitar romper el mapeo existente? p.ej. de ...

2 la respuesta

¿Cuál es la diferencia entre spark.sql.shuffle.partitions y spark.default.parallelism?

Cuál es la diferencia entrespark.sql.shuffle.partitions yspark.default.parallelism? He tratado de ponerlos a ambos enSparkSQL, pero el número de tarea de la segunda etapa es siempre 200.

4 la respuesta

Procese un gran archivo GEOJson con jq

Dado un archivo GEOJson de la siguiente manera: - { "type": "FeatureCollection", "features": [ { "type": "Feature", "properties": { "FEATCODE": 15014 }, "geometry": { "type": "Polygon", "coordinates": [ ..... Quiero terminar con lo siguiente: ...

1 la respuesta

Cómo comparar dos marcos de datos e imprimir columnas que son diferentes en escala

Tenemos dos marcos de datos aquí: el marco de datos esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...

2 la respuesta

Estoy tratando de obtener una lista de todos los autores que han tenido más de 3 trabajos - DBpedia Sparql

Estoy tratando de obtener una lista de todos los autores que han realizado 3 o más trabajos (en DBpedia). mi ejemplo se puede ejecutar en:http://dbpedia.org/sparql [http://dbpedia.org/sparql] código baseselect (count(?work) as ?totalWork), ...

1 la respuesta

Buscar en 300 millones de direcciones con pg_trgm

Tengo 300 millones de direcciones en mi base de datos PostgreSQL 9.3 y quiero usar pg_trgm para buscar difusamente las filas. El objetivo final es implementar una función de búsqueda al igual que la búsqueda de Google Map. Cuando utilicé pg_trgm ...

2 la respuesta

Partición de parquet Spark: gran cantidad de archivos

Estoy tratando de aprovechar la partición de chispas. Estaba tratando de hacer algo como data.write.partitionBy("key").parquet("/location")El problema aquí es que cada partición crea una gran cantidad de archivos de parquet que resultan en ...

1 la respuesta

Cómo reiniciar una tarea fallida en Airflow

Estoy usando unFiscal localy mi dag tiene3 tareasdonde la tarea (C) depende de la tarea (A). La tarea (B) y la tarea (A) pueden ejecutarse en paralelo, algo como a continuación A -> C B Entonces la tarea (A) ha falladoy perola tarea (B) ...