Resultados de la búsqueda a petición "apache-spark"
Agregar una columna al marco de datos en Apache Spark 1.3
¿Es posible y cuál sería el método ordenado más eficiente para agregar una columna al Marco de datos? Más específicamente, la columna puede servir como ID de fila para el marco de datos existente. En un caso simplificado, leyendo el archivo y ...
¿Cuándo son realmente confiables los acumuladores?
Quiero usar un acumulador para recopilar algunas estadísticas sobre los datos que estoy manipulando en un trabajo de Spark. Idealmente, lo haría mientras el trabajo calcula las transformaciones requeridas, pero dado que Spark volvería a calcular ...
¿La forma más fácil de instalar dependencias de Python en los nodos ejecutores de Spark?
Entiendo que puede enviar archivos individuales como dependencias con los programas Python Spark. Pero, ¿qué pasa con las bibliotecas completas (por ejemplo, numpy)? ¿Spark tiene una manera de usar un administrador de paquetes proporcionado ...
Especificar opciones para la jvm lanzada por pyspark
¿Cómo / dónde están las opciones jvm utilizadas por el script pyspark al iniciar el jvm al que se conecta? Estoy específicamente interesado en especificar las opciones de depuración de jvm, ...
TaskSchedulerImpl: el trabajo inicial no ha aceptado ningún recurso;
Esto es lo que estoy tratando de hacer. He creado dos nodos del clúster empresarial DataStax, sobre el cual he creado un programa java para obtener el recuento de una tabla (tabla de base de datos Cassandra). Este programa fue construido en ...
Chispa: reste dos marcos de datos
En versión Spark1.2.0 uno podría usarsubtract con 2SchemRDDs para terminar con solo el contenido diferente del primero val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)onlyNewData contiene las filas entodaySchemRDD que no existen ...
registro personalizado con chispa
Estoy tratando de configurar un registro personalizado usando spark-submit, esta es mi configuración: driver: -DlogsPath=/var/opt/log\ ...
Aplicación Spark Kill Running
Tengo una aplicación Spark en ejecución donde ocupa todos los núcleos donde mis otras aplicaciones no recibirán ningún recurso. Hice una investigación rápida y la gente sugirió usar YARN kill o / bin / spark-class para matar el comando. Sin ...
Serializing RDD
Tengo un RDD que estoy tratando de serializar y luego reconstruir deserializando. Estoy tratando de ver si esto es posible en Apache Spark. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = ...
Cómo eliminar columnas en el marco de datos pyspark
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...