Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Spark agrega una nueva columna al marco de datos con el valor de la fila anterior

Me pregunto cómo puedo lograr lo siguiente en Spark (Pyspark) Marco de datos inicial: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Marco de datos resultante: +--+---+-------+ ...

2 la respuesta

Cómo formatear la salida de Spark Python

(u'142578', (u'The-North-side-9890', (u' 12457896', 45.0))) (u'124578', (u'The-West-side-9091', (u' 14578217', 0.0)))Esto lo conseguí uniéndome a los dos RDD basados en Ids, esto es como(clave, (value_left, value_right))mediante el uso de esta ...

1 la respuesta

En Apache Spark, ¿puedo repetir / anidar fácilmente un SparkContext.parallelize?

Estoy tratando de modelar un problema genético que estamos tratando de resolver, construyéndolo en pasos. Puedo ejecutar con éxito los ejemplos de PiAverage de Spark Ejemplos. Ese ejemplo "lanza dardos" en un círculo (10 ^ 6 en nuestro caso) y ...

1 la respuesta

SPARK ML, clasificador Naive Bayes: predicción de alta probabilidad para una clase

Estoy usando Spark ML para optimizar un Naive Ba, sí, un clasificador multiclase. Tengo alrededor de 300 categorías y estoy clasificando documentos de texto. El conjunto de entrenamiento es lo suficientemente equilibrado y hay alrededor de 300 ...

1 la respuesta

Spark SQL: carga de archivos csv / psv con algunos registros mal formados

Estamos cargando jerarquías de directorios de archivos con Spark y convirtiéndolos a Parquet. Hay decenas de gigabytes en cientos de archivos separados por tuberías. Algunos son bastante grandes ellos mismos. Cada, digamos, el archivo número 100 ...

1 la respuesta

SparkR muestra mal el carácter chino

Soy nuevo en SparkR, en estos días me encontré con un problema que después de convertir un archivo que contenía caracteres chinos en SparkR, ya no se mostraba correctamente. Me gusta esto: city=c("北京","上海","杭州") A <- as.data.frame(city) A city 1 ...

1 la respuesta

Spark: no se permite la supresión automática al escribir archivos grandes en HDFS

Estoy escribiendo un archivo grande en HDFS usando spark. Básicamente, lo que estaba haciendo era unir 3 archivos grandes y luego convertir el marco de datos de resultados a json usando toJSON () y luego usar saveAsTextFile para guardarlo en ...

1 la respuesta

pyspark divide una columna en varias columnas sin pandas

Mi pregunta es cómo dividir una columna en varias columnas. No se porquedf.toPandas() No funciona. Por ejemplo, me gustaría cambiar 'df_test' a 'df_test2'. Vi muchos ejemplos usando el módulo pandas. ¿Hay otra manera? Gracias de ...

3 la respuesta

¿Paralelismo de anidamiento en Spark? ¿Cuál es el enfoque correcto?

¿PARALELIZACIONES ANIDADAS? Digamos que estoy tratando de hacer el equivalente a "anidado para bucles" en Spark. Algo así como en un lenguaje normal, digamos que tengo una rutina en el ciclo interno que estima la forma de Piel ejemplo Pi Average ...

2 la respuesta

Spark SQL: cargue datos con JDBC utilizando la instrucción SQL, no el nombre de la tabla

Creo que me falta algo, pero no puedo entender qué. Quiero cargar datos usando SQLContext y JDBC usando una declaración sql particular como select top 1000 text from table1 with (nolock) where threadid in ( select distinct id from table2 with ...