Resultados de la búsqueda a petición "apache-spark"
¿Cómo enviar un trabajo a través de la API REST?
Estoy usando Datastax Enterprise 4.8.3. Estoy tratando de implementar una aplicación basada en Quartz para enviar trabajos de Spark de forma remota. Durante mi investigación me topé con los siguientes enlaces: API REST oculta de Apache ...
Spark: umbral y precisión del modelo de regresión
Tengo el modo de regresión logística, donde configuré explícitamente el umbral en 0.5. model.setThreshold(0.5)Entreno al modelo y luego quiero obtener estadísticas básicas: precisión, recuperación, etc. Esto es lo que hago cuando evalúo el ...
¿Qué aspecto tiene hive-site.xml incluido en $ SPARK_HOME?
Soy un principiante en la colmena, algo sucedió (no puedo encontrar la tabla) cuando comienzo el trabajo de chispa y leo los datos de la colmena. No configuro hive-site.xml en $ SPARK_HOME / conf? enviar el comando de trabajo chispa está ...
¿Hay alguna manera de tomar las primeras 1000 filas de un Spark Dataframe?
Estoy usando elrandomSplitpara obtener una pequeña cantidad de un marco de datos para usar en propósitos de desarrollo y termino simplemente tomando el primer df que devuelve esta función. val df_subset = data.randomSplit(Array(0.00000001, ...
¿Cuándo son los archivos "divisibles"?
Cuando uso spark, a veces me encuentro con un archivo enorme en unCOLMENAtabla, y a veces intento procesar muchos archivos más pequeños en una tabla HIVE. Entiendo que al ajustar trabajos de chispa, cómo funciona depende de si los archivos son o ...
¿Cómo agregar valores en la colección después de groupBy?
Tengo un marco de datos con esquema como tal: [visitorId: string, trackingIds: array<string>, emailIds: array<string>]¿Está buscando una forma de agrupar (o quizás acumular?) Este marco de datos por visitante donde las columnas trackingIds y ...
Acoplar marco de datos de chispa anidada
¿Hay alguna manera de aplanar un Spark Dataframe anidado arbitrariamente? La mayor parte del trabajo que estoy viendo está escrito para un esquema específico, y me gustaría poder aplanar genéricamente un Dataframe con diferentes tipos anidados ...
Comprender la asignación de recursos para trabajos de chispa en mesos
Estoy trabajando en un proyecto en Spark, y recientemente cambié de usar Spark Standalone a Mesos para la gestión de clústeres. Ahora me encuentro confundido acerca de cómo asignar recursos al enviar un trabajo bajo el nuevo sistema. En modo ...
PySpark 1.5 Cómo truncar la marca de tiempo al minuto más cercano desde segundos
Estoy usando PySpark. Tengo una columna ('dt') en un marco de datos ('canon_evt') que es una marca de tiempo. Estoy tratando de eliminar segundos de un valor DateTime. Originalmente se lee desde el parquet como una cadena. Luego trato de ...
Devuelve RDD de los mayores valores de N de otro RDD en SPARK
Estoy tratando de filtrar un RDD de tuplas para devolver las N tuplas más grandes basadas en valores clave. Necesito que el formato de devolución sea un RDD. Entonces el RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]filtrado para las ...