Resultados de la búsqueda a petición "apache-spark"

tengo unDataFrame que se parece a seguir: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2El número de categorías distintas es 10, y me gustaría crear un vector de características ...

pyspark python

1 la respuesta

¿Cómo afecta el número de particiones a `wholeTextFiles` y` textFiles`?

En la chispa, entiendo cómo usarwholeTextFiles ytextFiles, pero no estoy seguro de qué usar cuando. Esto es lo que sé hasta ahora: Cuando se trata de archivos que no están divididos por línea, uno debe usarwholeTextFiles, de lo contrario ...

avro apache-spark-sql java

2 la respuesta

Esquema de Avro para provocar StructType

Esto es efectivamente lo mismo que miPregunta anterior [https://stackoverflow.com/questions/33807145/evolving-a-schema-with-spark-dataframe/] , pero usando Avro en lugar de JSON como formato de datos. Estoy trabajando con un marco de datos de ...

java scala intellij-idea

1 la respuesta

¿Cómo integrar Spark con el proyecto Scala en IntelliJ IDE?

Estoy usando IntelliJ IDE para jugar con Scala y Spark. En este IDE creé un proyecto Scala con un objeto Scala (ver imagen). [/imgs/rO0F8.jpg] Usé el código de regresión de muestra de estositio ...

python apache-spark-sql dataframe pyspark

2 la respuesta

Cuente el número de entradas que no son NaN en cada columna del marco de datos Spark con Pyspark

Tengo un conjunto de datos muy grande que se carga en Hive. Consiste en aproximadamente 1.9 millones de filas y 1450 columnas. Necesito determinar la "cobertura" de cada una de las columnas, es decir, la fracción de filas que tienen valores no ...

jupyter-notebook csv pyspark

2 la respuesta

Cómo cargar dependencias jar en IPython Notebook

Esta página [https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2#.85lrap56d] me inspiró a probar spark-csv para leer el archivo .csv en PySpark. Encontré un par de publicaciones ...

google-cloud-dataproc java jar

1 la respuesta

Ejecutar el archivo jar de la aplicación en spark-submit en una instancia de clúster de google dataproc

Estoy ejecutando un archivo .jar que contiene todas las dependencias que necesito empaquetadas. Una de estas dependencias escom.google.common.util.concurrent.RateLimiter y ya comprobado que su archivo de clase está en este archivo ...

apache-kafka spark-streaming

2 la respuesta

No se pudieron encontrar líderes para Set ([TOPICNNAME, 0])) Cuando estamos usando Apache Saprk

Estamos usando Apache Spark 1.5.1 y kafka_2.10-0.8.2.1 y Kafka DirectStream API para obtener datos de Kafka usando Spark. Creamos los temas en Kafka con la siguiente configuración ReplicationFactor: 1 y Replica: 1 Cuando se ejecutan todas las ...

apache-spark-sql scala aggregate-functions apache-spark-ml

2 la respuesta

¿Cómo definir una función de agregación personalizada para sumar una columna de vectores?

Tengo un DataFrame de dos columnas,ID de tipoInt yVec de tipoVector (org.apache.spark.mllib.linalg.Vector) El DataFrame tiene el siguiente aspecto: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] ....Me ...

apache-spark-sql scala

3 la respuesta

Diferencia entre filtro y donde en scala spark sql

He probado ambos pero funciona igual ejemplo val items = List(1, 2, 3)usando filtro employees.filter($"emp_id".isin(items:_*)).showusando donde employees.where($"emp_id".isin(items:_*)).showEl resultado es igual para ...

Página 134 de 165

132 133134135 136

Resultados de la búsqueda a petición "apache-spark"

Spark, Scala, DataFrame: crea vectores de características

¿Cómo afecta el número de particiones a `wholeTextFiles` y` textFiles`?

Esquema de Avro para provocar StructType

Etiquetas Populares

¿Cómo integrar Spark con el proyecto Scala en IntelliJ IDE?

Cuente el número de entradas que no son NaN en cada columna del marco de datos Spark con Pyspark

Cómo cargar dependencias jar en IPython Notebook

Ejecutar el archivo jar de la aplicación en spark-submit en una instancia de clúster de google dataproc

No se pudieron encontrar líderes para Set ([TOPICNNAME, 0])) Cuando estamos usando Apache Saprk

¿Cómo definir una función de agregación personalizada para sumar una columna de vectores?

Diferencia entre filtro y donde en scala spark sql

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares