Resultados de la búsqueda a petición "apache-spark"
Elección de elementos aleatorios de un objeto Spark GroupedData
Soy nuevo en el uso de Spark en Python y no he podido resolver este problema: después de ejecutargroupBy en unpyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId')como puedes elegirN ¿Muestras aleatorias de cada ...
Spark 1.5.1, Cassandra Connector 1.5.0-M2, Cassandra 2.1, Scala 2.10, NoSuchMethodError dependencia de guayaba
Nuevo en el entorno de Spark (y bastante nuevo en Maven), por lo que me cuesta cómo enviar las dependencias que necesito correctamente. Parece que Spark 1.5.1 tiene una dependencia guava-14.0.1 que intenta usar y se agregó isPrimitive en 15+. ...
Atributos de referencia de Spark SQL de UDT
Estoy tratando de implementar un UDT personalizado y poder hacer referencia a él desde Spark SQL (como se explica en el documento técnico de Spark SQL, sección 4.4.2). El ejemplo real es tener un UDT personalizado respaldado por una estructura ...
Filtrado de Sparksql (selección con cláusula where) con múltiples condiciones
Hola, tengo el siguiente problema: numeric.registerTempTable("numeric").Todos los valores que quiero filtrar son cadenas nulas literales y no N / A o valores nulos. Probé estas tres opciones: numeric_filtered = numeric.filter(numeric['LOW'] ...
Spark: ¿cómo puedo distribuir uniformemente mis registros en todas las particiones?
Tengo un RDD con 30 registros (par clave / valor: la clave es Time Stamp y el valor es JPEG Byte Array) y estoy ejecutando 30 ejecutores. Quiero repartir este RDD en 30 particiones para que cada partición obtenga un registro y se asigne a un ...
¿Cómo pruebo unitariamente los programas PySpark?
Mi enfoque actual de Java / Spark Unit Test funciona (detalladoaquí [https://stackoverflow.com/a/32213314/2596363]) creando instancias de un SparkContext usando "local" y ejecutando pruebas unitarias usando JUnit. El código tiene que estar ...
Genere la forma más rápida para crear RDD de matrices numpy
Mi aplicación de chispa está utilizando RDD de matrices numpy. En este momento, estoy leyendo mis datos de AWS S3, y está representado como un archivo de texto simple donde cada línea es un vector y cada elemento está separado por espacio, por ...
Como importar pyspark en anaconda
Estoy intentando importar y usarpyspark con anaconda Después de instalar la chispa y configurar el$SPARK_HOME variable que probé: $ pip install pysparkEsto no funcionará (por supuesto) porque descubrí que necesito tel python para buscarpyspark ...
java.lang.IllegalArgumentException en org.apache.xbean.asm5.ClassReader. <init> (fuente desconocida) con Java 10
Comencé a recibir el siguiente error cada vez que intento recopilar mis rdd. Sucedió después de instalar Java 10.1. Por supuesto, lo saqué y lo reinstalé, el mismo error. Luego instalé Java 9.04 mismo error. Luego arranqué python 2.7.14, apache ...
Columnas duplicadas en Spark Dataframe
Tengo un archivo csv de 10GB en clúster hadoop con columnas duplicadas. Intento analizarlo en SparkR, así que usospark-csv paquete para analizarlo comoDataFrame: df <- read.df( sqlContext, FILE_PATH, source = "com.databricks.spark.csv", header = ...