Resultados de la búsqueda a petición "apache-spark"
¿Cómo definir el esquema para el tipo personalizado en Spark SQL?
El siguiente código de ejemplo intenta colocar algunos objetos de caso en un marco de datos. El código incluye la definición de una jerarquía de objetos de caso y una clase de caso que utiliza este rasgo: import org.apache.spark.{SparkContext, ...
¿Cómo obtener datos de una partición específica en Spark RDD?
Quiero acceder a datos de una partición particular en Spark RDD. Puedo obtener la dirección de una partición de la siguiente manera: myRDD.partitions(0)Pero quiero obtener datos demyRDD.partitions(0) dividir. Probé la documentación oficial de ...
¿Habrá algún escenario en el que los Spark RDD no puedan satisfacer la inmutabilidad?
Los Spark RDD se construyen de manera inmutable, tolerante a fallas y resistente. ¿Los RDD satisfacen la inmutabilidad en todos los escenarios? ¿O hay algún caso, ya sea en Streaming o Core, donde RDD podría no satisfacer la inmutabilidad?
¿Dónde busca spark los archivos de texto?
Pensé que la carga de archivos de texto se realiza solo desde los trabajadores / dentro del clúster (solo debe asegurarse de que todos los trabajadores tengan acceso a la misma ruta, ya sea teniendo ese archivo de texto disponible en todos los ...
Spark: transmitiendo jackson ObjectMapper
Tengo una aplicación de chispa que lee líneas de un archivo y trata de deserializarlas usando jackson. Para que este código funcionara, necesitaba definir el ObjectMapper dentro de la operación Map (de lo contrario, obtuve ...
Almacenamiento en caché de resultados intermedios en la tubería de Spark ML
Últimamente estoy planeando migrar mi código ML de Python independiente para generar. La tubería de ML enspark.ml Resulta bastante útil, con API optimizada para encadenar etapas de algoritmo y búsqueda de cuadrícula de hiperparámetros. Aún así, ...
¿Cómo implementar Like-condition en SparkSQL?
¿Cómo escribo una declaración SQL para alcanzar el objetivo como la siguiente declaración: SELECT * FROM table t WHERE t.a LIKE '%'||t.b||'%';Gracias.
¿Cómo particionar por clave en Spark?
Dado que los documentos de HashPartitioner dicen: [HashPartitioner] implementa particionamiento basado en hash utilizando Object.hashCode de Java. Di que quiero particionarDeviceData por estokind. case class DeviceData(kind: String, time: ...
PySpark: tome el promedio de una columna después de usar la función de filtro
Estoy usando el siguiente código para obtener la edad promedio de las personas cuyo salario es mayor que algún umbral. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})la edad de la columna es numérica (flotante) pero todavía recibo ...
¿Cuál es la mejor manera de definir métodos personalizados en un DataFrame?
Necesito definir métodos personalizados en DataFrame. ¿Cuál es la mejor manera de hacerlo? La solución debe ser escalable, ya que tengo la intención de definir un número significativo de métodos personalizados. Mi enfoque actual es crear una ...