Resultados da pesquisa a pedido "spark-dataframe"
Spark 2.2 Scala DataFrame selecione da matriz de strings, capturando erros
Eu sou novo no SparkSQL / Scala e estou lutando com algumas tarefas aparentemente simples. Estou tentando criar algum SQL dinâmico a partir de uma matriz de seqüência de caracteres Scala. Estou tentando redigitar algumas colunas no meu ...
Como transformar o DataFrame antes de ingressar na operação?
O código a seguir é usado para extrair classificações da colunaproducts. As fileiras são segundos números em cada par[...]. Por exemplo, no exemplo dado[[222,66],[333,55]] as fileiras são66 e55 para produtos com PK222 e333, adequadamente. Mas o ...
Transformando uma coluna e atualize o DataFrame
Então, o que estou fazendo abaixo é soltar uma colunaA a partir de umDataFrame porque eu quero aplicar uma transformação (aqui eu apenasjson.loads uma sequência JSON) e substitua a coluna antiga pela transformada. Após a transformação, juntei os ...
Como substituir valores vazios em uma coluna do DataFrame?
Como posso substituir valores vazios em uma colunaField1 do DataFramedf? Field1 Field2 AA 12 BBEste comando não fornece um resultado esperado: df.na.fill("Field1",Seq("Anonymous"))O resultado esperado: Field1 Field2 Anonymous AA 12 BB
Obtendo o erro "Falha ao obter uma instância do HMACSHA256" ao acessar o Azure CosmosDB
Estou tentando gravar o quadro de dados Spark no Azure CosmosDB e defini toda a configuração correta, mas obtendo o seguinte erro ao tentar gravar dados. My Build.sbt name := "MyApp" version := "1.0" scalaVersion := "2.10.7" ...
Atualizando uma coluna de quadro de dados no spark
Observando a nova API do spark dataframe, não está claro se é possível modificar as colunas do dataframe. Como eu alteraria um valor na linhax colunay de um quadro de dados? Nopandas este seriadf.ix[x,y] = new_value Edit: consolidando o que ...
Salvar o quadro de dados Spark como tabela particionada dinâmica no Hive
Eu tenho um aplicativo de exemplo trabalhando para ler arquivos csv em um dataframe. O quadro de dados pode ser armazenado em uma tabela do Hive no formato parquet usando o métododf.saveAsTable(tablename,mode). O código acima funciona bem, mas ...
Qual é eficiente, Dataframe ou RDD ou hiveql?
Eu sou novato no Apache Spark. Meu trabalho é ler dois arquivos CSV, selecionar algumas colunas específicas, mesclar, agregar e gravar o resultado em um único arquivo CSV. Por exemplo, CSV1name,age,deparment_id ...
Erro SparkR collect () e head () para Spark DataFrame: argumentos implicam número diferente de linhas
Eu li um arquivo em parquet do sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...
SPARK O método de amostra nos Dataframes é uniforme?
Quero escolher aleatoriamente um número selecionado de linhas de um quadro de dados e sei que o método de amostra faz isso, mas estou preocupado que minha aleatoriedade seja uma amostragem uniforme? Então, eu queria saber se o método de amostra ...