Resultados de la búsqueda a petición "apache-spark"

estoy usandoCassandraSQLContext desde spark-shell a consultar datos de Cassandra. Por lo tanto, quiero saber dos cosas: cómo obtener más de 20 filas usandoCassandraSQLContext y segundo, ¿cómo mostrar Id el valor completo de la columna? Como puede ...

json java

1 la respuesta

¿Cómo hacer que Apache spark ignore los puntos en una consulta?

Dado el siguiente archivo JSON: [{"dog*woof":"bad dog 1","dog.woof":"bad dog 32"}]¿Por qué falla este código Java? DataFrame df = sqlContext.read().json("dogfile.json"); df.groupBy("dog.woof").count().show();pero esto no: DataFrame df = ...

dataframe scala apache-spark-sql

4 la respuesta

Agregar una columna de filas de filas en una lista de columnas en Spark Dataframe

Tengo un marco de datos Spark con varias columnas. Quiero agregar una columna al marco de datos que es una suma de un cierto número de columnas. Por ejemplo, mis datos se ven así: ID var1 var2 var3 var4 var5 a 5 7 9 12 13 b 6 4 3 20 17 c 4 9 4 ...

pyspark python apache-spark-sql dataframe

1 la respuesta

PySpark convierte una columna de tipo 'mapa' en varias columnas en un marco de datos

EntradaTengo una columnaParameters de tipomap de la forma: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...

caching performance

1 la respuesta

¿Por qué es lento rdd.map (identidad) .cache cuando los elementos rdd son grandes?

Descubrí que cuando uso.map( identity ).cache en un rdd, se vuelve muy lento si los artículos son grandes. Si bien es bastante instantáneo de lo contrario. Nota: esto probablemente esté relacionado conesta ...

3 la respuesta

Spark: ¿cómo obtener el número de filas escritas?

Me pregunto si hay una manera de saber la cantidad de líneas escritas por una operación de guardado de Spark. Sé que es suficiente contar el RDD antes de escribirlo, pero me gustaría saber si hay una manera de tener la misma información sin ...

scala

4 la respuesta

¿Cómo contar las ocurrencias de cada valor distinto para cada columna en un marco de datos?

edf.select("x").distinct.show() muestra los distintos valores que están presentes enx columna deedf Marco de datos. ¿Existe un método eficiente para mostrar también la cantidad de veces que estos valores distintos ocurren en el marco de datos? ...

emr guava datastax

6 la respuesta

Problema de guayaba detectado # 1635 que indica que una versión de guayaba inferior a 16.01 está en uso

Estoy ejecutando trabajo de chispa en emr y usando el conector datastax para conectarme al clúster cassandra. Estoy enfrentando problemas con el frasco de guayaba, encuentre los detalles a continuación. Estoy usando los siguientes cassandra ...

aggregation storage parquet

1 la respuesta

¿Por qué los archivos de Spark Parquet para un agregado son más grandes que el original?

Estoy tratando de crear un archivo agregado para que los usuarios finales lo utilicen para evitar que procesen múltiples fuentes con archivos mucho más grandes. Para hacer eso, I: A) recorro todas las carpetas de origen, eliminando 12 campos que ...

mqtt rabbitmq pika python

1 la respuesta

SparkStreaming, RabbitMQ y MQTT en python usando pika

Solo para complicar las cosas, me gustaría consumir mensajes de la cola rabbitMQ. Ahora sé que hay un complemento para MQTT en conejo ( https://www.rabbitmq.com/mqtt.html [https://www.rabbitmq.com/mqtt.html]) Sin embargo, parece que no puedo ...

Página 10 de 165

8 91011 12

Resultados de la búsqueda a petición "apache-spark"

buscar más de 20 filas y mostrar el valor completo de la columna en spark-shell

¿Cómo hacer que Apache spark ignore los puntos en una consulta?

Agregar una columna de filas de filas en una lista de columnas en Spark Dataframe

Etiquetas Populares

PySpark convierte una columna de tipo 'mapa' en varias columnas en un marco de datos

¿Por qué es lento rdd.map (identidad) .cache cuando los elementos rdd son grandes?

Spark: ¿cómo obtener el número de filas escritas?

¿Cómo contar las ocurrencias de cada valor distinto para cada columna en un marco de datos?

Problema de guayaba detectado # 1635 que indica que una versión de guayaba inferior a 16.01 está en uso

¿Por qué los archivos de Spark Parquet para un agregado son más grandes que el original?

SparkStreaming, RabbitMQ y MQTT en python usando pika

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares