Resultados de la búsqueda a petición "apache-spark"

¿Es posible y cuál sería el método ordenado más eficiente para agregar una columna al Marco de datos? Más específicamente, la columna puede servir como ID de fila para el marco de datos existente. En un caso simplificado, leyendo el archivo y ...

3 la respuesta

¿Cuándo son realmente confiables los acumuladores?

Quiero usar un acumulador para recopilar algunas estadísticas sobre los datos que estoy manipulando en un trabajo de Spark. Idealmente, lo haría mientras el trabajo calcula las transformaciones requeridas, pero dado que Spark volvería a calcular ...

dependencies shared-libraries hadoop distributed-computing

1 la respuesta

¿La forma más fácil de instalar dependencias de Python en los nodos ejecutores de Spark?

Entiendo que puede enviar archivos individuales como dependencias con los programas Python Spark. Pero, ¿qué pasa con las bibliotecas completas (por ejemplo, numpy)? ¿Spark tiene una manera de usar un administrador de paquetes proporcionado ...

jvm-arguments pyspark

1 la respuesta

Especificar opciones para la jvm lanzada por pyspark

¿Cómo / dónde están las opciones jvm utilizadas por el script pyspark al iniciar el jvm al que se conecta? Estoy específicamente interesado en especificar las opciones de depuración de jvm, ...

cassandra datastax java

5 la respuesta

TaskSchedulerImpl: el trabajo inicial no ha aceptado ningún recurso;

Esto es lo que estoy tratando de hacer. He creado dos nodos del clúster empresarial DataStax, sobre el cual he creado un programa java para obtener el recuento de una tabla (tabla de base de datos Cassandra). Este programa fue construido en ...

dataframe rdd

3 la respuesta

Chispa: reste dos marcos de datos

En versión Spark1.2.0 uno podría usarsubtract con 2SchemRDDs para terminar con solo el contenido diferente del primero val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)onlyNewData contiene las filas entodaySchemRDD que no existen ...

log4j

2 la respuesta

registro personalizado con chispa

Estoy tratando de configurar un registro personalizado usando spark-submit, esta es mi configuración: driver: -DlogsPath=/var/opt/log\ ...

pyspark yarn

2 la respuesta

Aplicación Spark Kill Running

Tengo una aplicación Spark en ejecución donde ocupa todos los núcleos donde mis otras aplicaciones no recibirán ningún recurso. Hice una investigación rápida y la gente sugirió usar YARN kill o / bin / spark-class para matar el comando. Sin ...

rdd java

1 la respuesta

Serializing RDD

Tengo un RDD que estoy tratando de serializar y luego reconstruir deserializando. Estoy tratando de ver si esto es posible en Apache Spark. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = ...

apache-spark-sql pyspark

6 la respuesta

Cómo eliminar columnas en el marco de datos pyspark

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...

Página 96 de 165

94 959697 98

Resultados de la búsqueda a petición "apache-spark"

Agregar una columna al marco de datos en Apache Spark 1.3

¿Cuándo son realmente confiables los acumuladores?

¿La forma más fácil de instalar dependencias de Python en los nodos ejecutores de Spark?

Etiquetas Populares

Especificar opciones para la jvm lanzada por pyspark

TaskSchedulerImpl: el trabajo inicial no ha aceptado ningún recurso;

Chispa: reste dos marcos de datos

registro personalizado con chispa

Aplicación Spark Kill Running

Serializing RDD

Cómo eliminar columnas en el marco de datos pyspark

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares