Resultados de la búsqueda a petición "apache-spark"
Spark, Scala, DataFrame: crea vectores de características
tengo unDataFrame que se parece a seguir: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2El número de categorías distintas es 10, y me gustaría crear un vector de características ...
¿Cómo afecta el número de particiones a `wholeTextFiles` y` textFiles`?
En la chispa, entiendo cómo usarwholeTextFiles ytextFiles, pero no estoy seguro de qué usar cuando. Esto es lo que sé hasta ahora: Cuando se trata de archivos que no están divididos por línea, uno debe usarwholeTextFiles, de lo contrario ...
Esquema de Avro para provocar StructType
Esto es efectivamente lo mismo que miPregunta anterior [https://stackoverflow.com/questions/33807145/evolving-a-schema-with-spark-dataframe/] , pero usando Avro en lugar de JSON como formato de datos. Estoy trabajando con un marco de datos de ...
¿Cómo integrar Spark con el proyecto Scala en IntelliJ IDE?
Estoy usando IntelliJ IDE para jugar con Scala y Spark. En este IDE creé un proyecto Scala con un objeto Scala (ver imagen). [/imgs/rO0F8.jpg] Usé el código de regresión de muestra de estositio ...
Cuente el número de entradas que no son NaN en cada columna del marco de datos Spark con Pyspark
Tengo un conjunto de datos muy grande que se carga en Hive. Consiste en aproximadamente 1.9 millones de filas y 1450 columnas. Necesito determinar la "cobertura" de cada una de las columnas, es decir, la fracción de filas que tienen valores no ...
Cómo cargar dependencias jar en IPython Notebook
Esta página [https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2#.85lrap56d] me inspiró a probar spark-csv para leer el archivo .csv en PySpark. Encontré un par de publicaciones ...
Ejecutar el archivo jar de la aplicación en spark-submit en una instancia de clúster de google dataproc
Estoy ejecutando un archivo .jar que contiene todas las dependencias que necesito empaquetadas. Una de estas dependencias escom.google.common.util.concurrent.RateLimiter y ya comprobado que su archivo de clase está en este archivo ...
No se pudieron encontrar líderes para Set ([TOPICNNAME, 0])) Cuando estamos usando Apache Saprk
Estamos usando Apache Spark 1.5.1 y kafka_2.10-0.8.2.1 y Kafka DirectStream API para obtener datos de Kafka usando Spark. Creamos los temas en Kafka con la siguiente configuración ReplicationFactor: 1 y Replica: 1 Cuando se ejecutan todas las ...
¿Cómo definir una función de agregación personalizada para sumar una columna de vectores?
Tengo un DataFrame de dos columnas,ID de tipoInt yVec de tipoVector (org.apache.spark.mllib.linalg.Vector) El DataFrame tiene el siguiente aspecto: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] ....Me ...
Diferencia entre filtro y donde en scala spark sql
He probado ambos pero funciona igual ejemplo val items = List(1, 2, 3)usando filtro employees.filter($"emp_id".isin(items:_*)).showusando donde employees.where($"emp_id".isin(items:_*)).showEl resultado es igual para ...