Resultados de la búsqueda a petición "apache-spark"
Cómo implementar el incremento automático en spark SQL (PySpark)
Necesito implementar una columna de incremento automático en mi tabla spark sql, ¿cómo podría hacer eso? Amablemente guíame. estoy usando pyspark 2.0 Gracias kalyan
Scala Spark contiene vs. no contiene
Puedo filtrar, como se muestra a continuación, las tuplas en un RDD usando "contiene". Pero, ¿qué pasa con el filtrado de un RDD usando "no contiene"? val rdd2 = rdd1.filter(x => x._1 contains ".")No puedo encontrar la sintaxis para esto. ...
Recuento rápido de filas de parquet en Spark
Los archivos de Parquet contienen un campo de recuento de filas por bloque. Spark parece leerlo en algún momento ...
El DAG dinámico de Spark es mucho más lento y diferente del DAG codificado
Tengo una operación en chispa que se debe realizar para varias columnas en un marco de datos. Generalmente, hay 2 posibilidades para especificar tales operaciones Código difícilhandleBias("bar", df) .join(handleBias("baz", df), ...
Operación no permitida: modificar tabla agregar columnas (línea 1, pos 0)
TenemosSpark 2.1, Thrift JDBC/ODBC servidor configurado conHive 2.1.1 y usandoBeeline. Declaraciones DDL como CREAR TABLA, CREAR TABLA COMO, CREAR TABLA COMO, ALTERAR TABLE SET TBLPROPERTIES funciona bien. PeroALTER TABLE ADD COLUMNS ...
Apache Spark con Python: error
Nuevo en Spark. Descargué todo bien, pero cuando ejecuto pyspark obtengo los siguientes errores: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: ...
¿Diferencia entre la chispa independiente y el modo local?
¿Cuál es la diferencia entre Spark autónomo y modo local?
Cómo ejecutar funciones jar externas en spark-shell
Creé un paquete jar de un proyecto por este árbol de archivos: build.sbt src/main src/main/scala src/main/scala/Tester.scala src/main/scala/main.scaladonde Tester es una clase por una función (nombre es print ()) y main tiene un objeto para ...
SparklyR eliminando una tabla del contexto de Spark
Me gustaría eliminar una sola tabla de datos del contexto de Spark ('sc'). Sé que una sola tabla en caché se puede liberar, pero esto no es lo mismo que eliminar un objeto del sc, por lo que puedo reunir. library(sparklyr) library(dplyr) ...
Error de atributo: dividido en spark sql python usando lambda
En Spark SQL estoy usando Python y estoy tratando de trabajar en el RDD de salida de debajo de sql. Es una lista de tweets. Necesito dividir palabras y extraer el @ pero cuando uso el mapa y trato de dividir por espacios recibo el mensaje de ...