Resultados da pesquisa a pedido "apache-spark-sql"
Convertendo uma string para dobrar em um dataframe
Eu construí um quadro de dados usandoconcat que produz uma string. import sqlContext.implicits._ val df = sc.parallelize(Seq((1.0, 2.0), (3.0, 4.0))).toDF("k", "v") df.registerTempTable("df") val dfConcat = df.select(concat($"k", lit(","), ...
O spark-sql suporta vários delimitadores nos dados de entrada?
Eu tenho dados de entrada com vários delimitadores de caracteres únicos, conforme a seguir: col1data1"col2data1;col3data1"col4data1 col1data2"col2data2;col3data2"col4data2 col1data3"col2data3;col3data3"col4data3Nos dados acima, os ["], [;] são ...
Como filtrar com base no valor do array no PySpark?
Meu esquema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...
Exceção do Spark: tarefa falhou ao gravar linhas
Estou lendo arquivos de texto e convertendo-os em arquivos em parquet. Estou fazendo isso usando o código spark. Mas quando tento executar o código, recebo a seguinte exceção org.apache.spark.SparkException: Job aborted due to stage failure: ...
Spark SQL - Como gravar DataFrame em arquivo de texto?
estou usandoSpark SQL para ler parquet e escrever arquivo em parquet. Mas alguns casos, eu preciso escrever oDataFrame como arquivo de texto em vez de Json ou Parquet. Existe algum método padrão suportado ou eu tenho que converter esse ...
Pyspark: preenchimento para frente com última observação para um DataFrame
Usando o Spark 1.5.1, Eu tenho tentado encaminhar preenchimentovalores nuloscom a última observação conhecida parauma colunado meu DataFrame. É possível começar com um valor nulo e, nesse caso, eu preencheria esse valor nulo com a primeira ...
Fazendo histograma com a coluna Spark DataFrame
Estou tentando fazer um histograma com uma coluna de um dataframe que se parece com DataFrame[C0: int, C1: int, ...]Se eu fizesse um histograma com a coluna C1, o que devo fazer? Algumas coisas que eu tentei ...
Exceção do Apache Spark no encadeamento “main” java.lang.NoClassDefFoundError: scala / collection / GenTraversableOnce $ class
Versão Scala: 2.11.7 (foi necessário atualizar o scala verison para permitir que a classe de caso aceite mais de 22 parâmetros.) Versão Spark: 1.6.1 PFB pom.xml Ficando abaixo do erro ao tentar configurar o spark no intellij IDE, 16/03/16 ...
PySpark: cuspir arquivo único ao escrever em vez de vários arquivos de peça
Existe uma maneira de impedir que o PySpark crie vários arquivos pequenos ao gravar um DataFrame em um arquivo JSON? Se eu correr: df.write.format('json').save('myfile.json')ou df1.write.json('myfile.json')ele cria a pasta chamadamyfile e ...
Linha Spark para JSON
Gostaria de criar um JSON a partir de um dataframe Spark v.1.6 (usando scala). Eu sei que existe a solução simples de fazerdf.toJSON. No entanto, meu problema parece um pouco diferente. Considere, por exemplo, um quadro de dados com as seguintes ...