Resultados de la búsqueda a petición "apache-spark"
buscar más de 20 filas y mostrar el valor completo de la columna en spark-shell
estoy usandoCassandraSQLContext desde spark-shell a consultar datos de Cassandra. Por lo tanto, quiero saber dos cosas: cómo obtener más de 20 filas usandoCassandraSQLContext y segundo, ¿cómo mostrar Id el valor completo de la columna? Como puede ...
¿Cómo hacer que Apache spark ignore los puntos en una consulta?
Dado el siguiente archivo JSON: [{"dog*woof":"bad dog 1","dog.woof":"bad dog 32"}]¿Por qué falla este código Java? DataFrame df = sqlContext.read().json("dogfile.json"); df.groupBy("dog.woof").count().show();pero esto no: DataFrame df = ...
Agregar una columna de filas de filas en una lista de columnas en Spark Dataframe
Tengo un marco de datos Spark con varias columnas. Quiero agregar una columna al marco de datos que es una suma de un cierto número de columnas. Por ejemplo, mis datos se ven así: ID var1 var2 var3 var4 var5 a 5 7 9 12 13 b 6 4 3 20 17 c 4 9 4 ...
PySpark convierte una columna de tipo 'mapa' en varias columnas en un marco de datos
EntradaTengo una columnaParameters de tipomap de la forma: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...
¿Por qué es lento rdd.map (identidad) .cache cuando los elementos rdd son grandes?
Descubrí que cuando uso.map( identity ).cache en un rdd, se vuelve muy lento si los artículos son grandes. Si bien es bastante instantáneo de lo contrario. Nota: esto probablemente esté relacionado conesta ...
Spark: ¿cómo obtener el número de filas escritas?
Me pregunto si hay una manera de saber la cantidad de líneas escritas por una operación de guardado de Spark. Sé que es suficiente contar el RDD antes de escribirlo, pero me gustaría saber si hay una manera de tener la misma información sin ...
¿Cómo contar las ocurrencias de cada valor distinto para cada columna en un marco de datos?
edf.select("x").distinct.show() muestra los distintos valores que están presentes enx columna deedf Marco de datos. ¿Existe un método eficiente para mostrar también la cantidad de veces que estos valores distintos ocurren en el marco de datos? ...
Problema de guayaba detectado # 1635 que indica que una versión de guayaba inferior a 16.01 está en uso
Estoy ejecutando trabajo de chispa en emr y usando el conector datastax para conectarme al clúster cassandra. Estoy enfrentando problemas con el frasco de guayaba, encuentre los detalles a continuación. Estoy usando los siguientes cassandra ...
¿Por qué los archivos de Spark Parquet para un agregado son más grandes que el original?
Estoy tratando de crear un archivo agregado para que los usuarios finales lo utilicen para evitar que procesen múltiples fuentes con archivos mucho más grandes. Para hacer eso, I: A) recorro todas las carpetas de origen, eliminando 12 campos que ...
SparkStreaming, RabbitMQ y MQTT en python usando pika
Solo para complicar las cosas, me gustaría consumir mensajes de la cola rabbitMQ. Ahora sé que hay un complemento para MQTT en conejo ( https://www.rabbitmq.com/mqtt.html [https://www.rabbitmq.com/mqtt.html]) Sin embargo, parece que no puedo ...