Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Elección de elementos aleatorios de un objeto Spark GroupedData

Soy nuevo en el uso de Spark en Python y no he podido resolver este problema: después de ejecutargroupBy en unpyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId')como puedes elegirN ¿Muestras aleatorias de cada ...

1 la respuesta

Spark 1.5.1, Cassandra Connector 1.5.0-M2, Cassandra 2.1, Scala 2.10, NoSuchMethodError dependencia de guayaba

Nuevo en el entorno de Spark (y bastante nuevo en Maven), por lo que me cuesta cómo enviar las dependencias que necesito correctamente. Parece que Spark 1.5.1 tiene una dependencia guava-14.0.1 que intenta usar y se agregó isPrimitive en 15+. ...

1 la respuesta

Atributos de referencia de Spark SQL de UDT

Estoy tratando de implementar un UDT personalizado y poder hacer referencia a él desde Spark SQL (como se explica en el documento técnico de Spark SQL, sección 4.4.2). El ejemplo real es tener un UDT personalizado respaldado por una estructura ...

1 la respuesta

Filtrado de Sparksql (selección con cláusula where) con múltiples condiciones

Hola, tengo el siguiente problema: numeric.registerTempTable("numeric").Todos los valores que quiero filtrar son cadenas nulas literales y no N / A o valores nulos. Probé estas tres opciones: numeric_filtered = numeric.filter(numeric['LOW'] ...

2 la respuesta

Spark: ¿cómo puedo distribuir uniformemente mis registros en todas las particiones?

Tengo un RDD con 30 registros (par clave / valor: la clave es Time Stamp y el valor es JPEG Byte Array) y estoy ejecutando 30 ejecutores. Quiero repartir este RDD en 30 particiones para que cada partición obtenga un registro y se asigne a un ...

5 la respuesta

¿Cómo pruebo unitariamente los programas PySpark?

Mi enfoque actual de Java / Spark Unit Test funciona (detalladoaquí [https://stackoverflow.com/a/32213314/2596363]) creando instancias de un SparkContext usando "local" y ejecutando pruebas unitarias usando JUnit. El código tiene que estar ...

3 la respuesta

Genere la forma más rápida para crear RDD de matrices numpy

Mi aplicación de chispa está utilizando RDD de matrices numpy. En este momento, estoy leyendo mis datos de AWS S3, y está representado como un archivo de texto simple donde cada línea es un vector y cada elemento está separado por espacio, por ...

5 la respuesta

Como importar pyspark en anaconda

Estoy intentando importar y usarpyspark con anaconda Después de instalar la chispa y configurar el$SPARK_HOME variable que probé: $ pip install pysparkEsto no funcionará (por supuesto) porque descubrí que necesito tel python para buscarpyspark ...

2 la respuesta

java.lang.IllegalArgumentException en org.apache.xbean.asm5.ClassReader. <init> (fuente desconocida) con Java 10

Comencé a recibir el siguiente error cada vez que intento recopilar mis rdd. Sucedió después de instalar Java 10.1. Por supuesto, lo saqué y lo reinstalé, el mismo error. Luego instalé Java 9.04 mismo error. Luego arranqué python 2.7.14, apache ...

3 la respuesta

Columnas duplicadas en Spark Dataframe

Tengo un archivo csv de 10GB en clúster hadoop con columnas duplicadas. Intento analizarlo en SparkR, así que usospark-csv paquete para analizarlo comoDataFrame: df <- read.df( sqlContext, FILE_PATH, source = "com.databricks.spark.csv", header = ...