Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Cómo implementar el incremento automático en spark SQL (PySpark)

Necesito implementar una columna de incremento automático en mi tabla spark sql, ¿cómo podría hacer eso? Amablemente guíame. estoy usando pyspark 2.0 Gracias kalyan

1 la respuesta

Scala Spark contiene vs. no contiene

Puedo filtrar, como se muestra a continuación, las tuplas en un RDD usando "contiene". Pero, ¿qué pasa con el filtrado de un RDD usando "no contiene"? val rdd2 = rdd1.filter(x => x._1 contains ".")No puedo encontrar la sintaxis para esto. ...

1 la respuesta

Recuento rápido de filas de parquet en Spark

Los archivos de Parquet contienen un campo de recuento de filas por bloque. Spark parece leerlo en algún momento ...

1 la respuesta

El DAG dinámico de Spark es mucho más lento y diferente del DAG codificado

Tengo una operación en chispa que se debe realizar para varias columnas en un marco de datos. Generalmente, hay 2 posibilidades para especificar tales operaciones Código difícilhandleBias("bar", df) .join(handleBias("baz", df), ...

3 la respuesta

Operación no permitida: modificar tabla agregar columnas (línea 1, pos 0)

TenemosSpark 2.1, Thrift JDBC/ODBC servidor configurado conHive 2.1.1 y usandoBeeline. Declaraciones DDL como CREAR TABLA, CREAR TABLA COMO, CREAR TABLA COMO, ALTERAR TABLE SET TBLPROPERTIES funciona bien. PeroALTER TABLE ADD COLUMNS ...

7 la respuesta

Apache Spark con Python: error

Nuevo en Spark. Descargué todo bien, pero cuando ejecuto pyspark obtengo los siguientes errores: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: ...

1 la respuesta

¿Diferencia entre la chispa independiente y el modo local?

¿Cuál es la diferencia entre Spark autónomo y modo local?

2 la respuesta

Cómo ejecutar funciones jar externas en spark-shell

Creé un paquete jar de un proyecto por este árbol de archivos: build.sbt src/main src/main/scala src/main/scala/Tester.scala src/main/scala/main.scaladonde Tester es una clase por una función (nombre es print ()) y main tiene un objeto para ...

2 la respuesta

SparklyR eliminando una tabla del contexto de Spark

Me gustaría eliminar una sola tabla de datos del contexto de Spark ('sc'). Sé que una sola tabla en caché se puede liberar, pero esto no es lo mismo que eliminar un objeto del sc, por lo que puedo reunir. library(sparklyr) library(dplyr) ...

2 la respuesta

Error de atributo: dividido en spark sql python usando lambda

En Spark SQL estoy usando Python y estoy tratando de trabajar en el RDD de salida de debajo de sql. Es una lista de tweets. Necesito dividir palabras y extraer el @ pero cuando uso el mapa y trato de dividir por espacios recibo el mensaje de ...