Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

No se pueden generar UUID en Spark SQL

a continuación se muestra el bloque de código y el error recibido > creating a temporary views sqlcontext.sql("""CREATE TEMPORARY VIEW temp_pay_txn_stage USING org.apache.spark.sql.cassandra OPTIONS ( table "t_pay_txn_stage", keyspace "ks_pay", ...

1 la respuesta

División de <dbl [2]> resultado de Sparklyr como objeto de chispa

Tengo un problema al dividir el resultado de mi bosque aleatorio generado por Sparklyr. Estoy usando el siguiente código para generar un modelo, que predice un {0 | 1} valorar y predecir el resultado para un conjunto de validación ...

2 la respuesta

Pyspark Vector escaso

Me gustaría encontrar un método eficiente para crear vectores de repuesto en PySpark utilizando marcos de datos. Digamos dada la entrada transaccional: df = spark.createDataFrame([ (0, "a"), (1, "a"), (1, "b"), (1, "c"), (2, "a"), (2, "b"), (2, ...

1 la respuesta

error de shell de chispa en Windows: ¿se puede ignorar si no se utiliza hadoop?

Recibí el siguiente error al iniciar el spark-shell. Voy a usar Spark para procesar datos en SQL Server. ¿Puedo ignorar los errores? java.io.IOException: no se pudo encontrar null ejecutable \ bin \ winutils.exe en los binarios de ...

0 la respuesta

¿Por qué las llamadas de caché tardan tanto en un conjunto de datos de Spark?

Estoy cargando grandes conjuntos de datos y luego los almacena en caché como referencia en todo mi código. El código se parece a esto: val conversations = sqlContext.read .format("com.databricks.spark.redshift") .option("url", jdbcUrl) ...

3 la respuesta

¿Cómo proteger la contraseña y el nombre de usuario en Spark (como para conexiones JDBC / acceder a bases de datos RDBMS)?

Tenemos un caso de uso en el que necesitamos exportar datos de HDFS a un RDBMS. yo vi estoejemplo [https://docs.databricks.com/spark/latest/data-sources/sql-databases.html]. Aquí tienen almacenado el nombre de usuario y la contraseña en el ...

1 la respuesta

¿Cómo usar un predicado mientras se lee desde una conexión JDBC?

Por defecto,spark_read_jdbc() lee una tabla de base de datos completa en Spark. He usado la siguiente sintaxis para crear estas conexiones. library(sparklyr) library(dplyr) config <- spark_config() config$`sparklyr.shell.driver-class-path` ...

2 la respuesta

Cambie la marca de tiempo al formato UTC en Pyspark

Tengo un marco de datos de entrada (ip_df), los datos en este marco de datos son los siguientes: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Necesito crear un nuevo marco de datos ...

2 la respuesta

¿Cómo ordenar dentro de particiones (y evitar ordenarlas) usando la API RDD?

Es el comportamiento predeterminado de Hadoop MapReduce shuffle ordenar la clave aleatoria dentro de la partición, pero no las particiones cruzadas (es el orden total que hace que las teclas ordenadas crucen las particiones) Preguntaría cómo ...

3 la respuesta

Tramas de datos de chispa (scala): compruebe si las cadenas de la columna contienen elementos de un conjunto

Soy bastante nuevo en scala y spark y he estado tratando de encontrar una solución para este problema todo el día, me está haciendo la cabeza. He probado 20 variaciones diferentes del siguiente código y sigo obteniendotype mismatch errores cuando ...