Resultados de la búsqueda a petición "apache-spark"
No se pueden generar UUID en Spark SQL
a continuación se muestra el bloque de código y el error recibido > creating a temporary views sqlcontext.sql("""CREATE TEMPORARY VIEW temp_pay_txn_stage USING org.apache.spark.sql.cassandra OPTIONS ( table "t_pay_txn_stage", keyspace "ks_pay", ...
División de <dbl [2]> resultado de Sparklyr como objeto de chispa
Tengo un problema al dividir el resultado de mi bosque aleatorio generado por Sparklyr. Estoy usando el siguiente código para generar un modelo, que predice un {0 | 1} valorar y predecir el resultado para un conjunto de validación ...
Pyspark Vector escaso
Me gustaría encontrar un método eficiente para crear vectores de repuesto en PySpark utilizando marcos de datos. Digamos dada la entrada transaccional: df = spark.createDataFrame([ (0, "a"), (1, "a"), (1, "b"), (1, "c"), (2, "a"), (2, "b"), (2, ...
error de shell de chispa en Windows: ¿se puede ignorar si no se utiliza hadoop?
Recibí el siguiente error al iniciar el spark-shell. Voy a usar Spark para procesar datos en SQL Server. ¿Puedo ignorar los errores? java.io.IOException: no se pudo encontrar null ejecutable \ bin \ winutils.exe en los binarios de ...
¿Por qué las llamadas de caché tardan tanto en un conjunto de datos de Spark?
Estoy cargando grandes conjuntos de datos y luego los almacena en caché como referencia en todo mi código. El código se parece a esto: val conversations = sqlContext.read .format("com.databricks.spark.redshift") .option("url", jdbcUrl) ...
¿Cómo proteger la contraseña y el nombre de usuario en Spark (como para conexiones JDBC / acceder a bases de datos RDBMS)?
Tenemos un caso de uso en el que necesitamos exportar datos de HDFS a un RDBMS. yo vi estoejemplo [https://docs.databricks.com/spark/latest/data-sources/sql-databases.html]. Aquí tienen almacenado el nombre de usuario y la contraseña en el ...
¿Cómo usar un predicado mientras se lee desde una conexión JDBC?
Por defecto,spark_read_jdbc() lee una tabla de base de datos completa en Spark. He usado la siguiente sintaxis para crear estas conexiones. library(sparklyr) library(dplyr) config <- spark_config() config$`sparklyr.shell.driver-class-path` ...
Cambie la marca de tiempo al formato UTC en Pyspark
Tengo un marco de datos de entrada (ip_df), los datos en este marco de datos son los siguientes: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Necesito crear un nuevo marco de datos ...
¿Cómo ordenar dentro de particiones (y evitar ordenarlas) usando la API RDD?
Es el comportamiento predeterminado de Hadoop MapReduce shuffle ordenar la clave aleatoria dentro de la partición, pero no las particiones cruzadas (es el orden total que hace que las teclas ordenadas crucen las particiones) Preguntaría cómo ...
Tramas de datos de chispa (scala): compruebe si las cadenas de la columna contienen elementos de un conjunto
Soy bastante nuevo en scala y spark y he estado tratando de encontrar una solución para este problema todo el día, me está haciendo la cabeza. He probado 20 variaciones diferentes del siguiente código y sigo obteniendotype mismatch errores cuando ...