Resultados da pesquisa a pedido "apache-spark"
Operador Spark <">" SQL
Recentemente, deparei com esse operador: "<=>" em um projeto Scala Spark. Estou tendo problemas para encontrar qualquer documentação. Alguém sabe como funciona, ou conhece alguma documentação? Eu acredito que tem algo a ver com operações de ...
PySpark no notebook iPython gera Py4JJavaError ao usar count () e first ()
Estou usando o PySpark (v.2.1.0) no notebook iPython (python v.3.6) sobre o virtualenv no meu Mac (Sierra 10.12.3 Beta). 1.Lancei o notebook iPython fotografando isso no Terminal - PYSPARK_PYTHON=python3 ...
Não foi possível gerar UUIDs no Spark SQL
abaixo está o bloco de código e o erro recebido > creating a temporary views sqlcontext.sql("""CREATE TEMPORARY VIEW temp_pay_txn_stage USING org.apache.spark.sql.cassandra OPTIONS ( table "t_pay_txn_stage", keyspace "ks_pay", cluster "Test ...
Divisão <dbl [2]> resultado do Sparklyr como um objeto spark
Tenho um problema ao dividir o resultado da minha floresta aleatória gerada pelo Sparklyr. Estou usando o código a seguir para gerar um modelo, que prevê um {0 | 1} valor e preveja o resultado para um conjunto de validação especificado. model ...
Spark combina colunas como matriz aninhada
Como combinar colunas no spark como uma matriz aninhada? val inputSmall = Seq( ("A", 0.3, "B", 0.25), ("A", 0.3, "g", 0.4), ("d", 0.0, "f", 0.1), ("d", 0.0, "d", 0.7), ("A", 0.3, "d", 0.7), ("d", 0.0, "g", 0.4), ("c", 0.2, "B", ...
PySpark - Adicione uma nova coluna aninhada ou altere o valor das colunas aninhadas existentes
Supondo, eu tenho um arquivo json com linhas na estrutura a seguir: { "a": 1, "b": { "bb1": 1, "bb2": 2 } }Eu quero mudar o valor da chavebb1 ou adicione uma nova chave, como:bb3. Atualmente, eu uso o spark.read.json para carregar o arquivo json ...
Spark 2.1 - Erro ao instanciar o HiveSessionState
Com uma nova instalação do Spark 2.1, estou recebendo um erro ao executar o comando pyspark. Traceback (most recent call last): File "/usr/local/spark/python/pyspark/shell.py", line 43, in <module> spark = SparkSession.builder\ File ...
Exceção no encadeamento "main" java.lang.NoClassDefFoundError: org / spark_project / guava / cache / CacheLoader
Quando estou tentando executar meu projeto kafka spark. Estou recebendo o erro abaixo: Exception in thread "main" java.lang.NoClassDefFoundError: org/spark_project/guava/cache/CacheLoader ...
A opção ignorar da função jdbc do Pyspark DataFrameWriter ignora a transação inteira ou apenas as linhas ofensivas?
The PysparkDataFrameWriter classe tem umjdbc função [http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.jdbc] para escrever um dataframe no sql. Esta função possui um--ignore opção que a documentação diz ...
Transmitir uma classe definida pelo usuário no Spark
Estou tentando transmitir uma variável definida pelo usuário em um aplicativo PySpark, mas sempre tenho o seguinte erro: File "/usr/local/spark-2.1.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker.py", line 174, in main process() ...