Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Spark, Scala, DataFrame: crea vectores de características

tengo unDataFrame que se parece a seguir: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2El número de categorías distintas es 10, y me gustaría crear un vector de características ...

1 la respuesta

¿Cómo afecta el número de particiones a `wholeTextFiles` y` textFiles`?

En la chispa, entiendo cómo usarwholeTextFiles ytextFiles, pero no estoy seguro de qué usar cuando. Esto es lo que sé hasta ahora: Cuando se trata de archivos que no están divididos por línea, uno debe usarwholeTextFiles, de lo contrario ...

2 la respuesta

Esquema de Avro para provocar StructType

Esto es efectivamente lo mismo que miPregunta anterior [https://stackoverflow.com/questions/33807145/evolving-a-schema-with-spark-dataframe/] , pero usando Avro en lugar de JSON como formato de datos. Estoy trabajando con un marco de datos de ...

1 la respuesta

¿Cómo integrar Spark con el proyecto Scala en IntelliJ IDE?

Estoy usando IntelliJ IDE para jugar con Scala y Spark. En este IDE creé un proyecto Scala con un objeto Scala (ver imagen). [/imgs/rO0F8.jpg] Usé el código de regresión de muestra de estositio ...

2 la respuesta

Cuente el número de entradas que no son NaN en cada columna del marco de datos Spark con Pyspark

Tengo un conjunto de datos muy grande que se carga en Hive. Consiste en aproximadamente 1.9 millones de filas y 1450 columnas. Necesito determinar la "cobertura" de cada una de las columnas, es decir, la fracción de filas que tienen valores no ...

2 la respuesta

Cómo cargar dependencias jar en IPython Notebook

Esta página [https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2#.85lrap56d] me inspiró a probar spark-csv para leer el archivo .csv en PySpark. Encontré un par de publicaciones ...

1 la respuesta

Ejecutar el archivo jar de la aplicación en spark-submit en una instancia de clúster de google dataproc

Estoy ejecutando un archivo .jar que contiene todas las dependencias que necesito empaquetadas. Una de estas dependencias escom.google.common.util.concurrent.RateLimiter y ya comprobado que su archivo de clase está en este archivo ...

2 la respuesta

No se pudieron encontrar líderes para Set ([TOPICNNAME, 0])) Cuando estamos usando Apache Saprk

Estamos usando Apache Spark 1.5.1 y kafka_2.10-0.8.2.1 y Kafka DirectStream API para obtener datos de Kafka usando Spark. Creamos los temas en Kafka con la siguiente configuración ReplicationFactor: 1 y Replica: 1 Cuando se ejecutan todas las ...

2 la respuesta

¿Cómo definir una función de agregación personalizada para sumar una columna de vectores?

Tengo un DataFrame de dos columnas,ID de tipoInt yVec de tipoVector (org.apache.spark.mllib.linalg.Vector) El DataFrame tiene el siguiente aspecto: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] ....Me ...

3 la respuesta

Diferencia entre filtro y donde en scala spark sql

He probado ambos pero funciona igual ejemplo val items = List(1, 2, 3)usando filtro employees.filter($"emp_id".isin(items:_*)).showusando donde employees.where($"emp_id".isin(items:_*)).showEl resultado es igual para ...