Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Spark SQL - String de Consulta de Escape

Não acredito que estou perguntando isso, mas ... COMO ESCAPAR UMA QUERY STRING DO SQL NO SPARK SQL USANDO SCALA? Eu cansei de tudo e procurei em todos os lugares. Eu pensei que a biblioteca apache commons faria isso, mas sem sorte: import ...

9 a resposta

A faísca do apache pode ser executada sem hadoop?

Existe alguma dependência entreFaíscaeHadoop? Caso contrário, há algum recurso que sentirei falta quando corroFaíscasemHadoop?

1 a resposta

Problema ao criar uma lista global a partir do mapa usando o PySpark

Eu tenho esse código em que estou lendo um arquivoipython usandopyspark. O que estou tentando fazer é adicionar um pedaço a ele, que forma uma lista com base em uma coluna específica lida no arquivo, mas quando tento executá-lo, a lista fica ...

1 a resposta

PySpark, importando esquema através do arquivo JSON

tbschema.json se parece com isso: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Carrego-o usando o seguinte código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...

1 a resposta

Qual é a diferença entre spark.eventLog.dir e spark.history.fs.logDirectory?

No Spark, qual é a diferença entre o diretório de log de eventos e o diretório de log do servidor de histórico? spark.eventLog.dir hdfs:///var/log/spark/apps spark.history.fs.logDirectory hdfs:///var/log/spark/apps

6 a resposta

Localizando o número total de linhas no arquivo distribuído hdfs usando a linha de comando

Estou trabalhando em um cluster em que um conjunto de dados é mantido emhdfs de maneira distribuída. Aqui está o que eu tenho: [hmi@bdadev-5 ~]$ hadoop fs -ls /bdatest/clm/data/ Found 1840 items -rw-r--r-- 3 bda supergroup 0 2015-08-11 00:32 ...

1 a resposta

Como definir e usar uma função agregada definida pelo usuário no Spark SQL?

Eu sei como escrever um UDF no Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)Posso fazer algo semelhante para definir uma função agregada? Como isso é ...

2 a resposta

Como converter um mapa no RDD do Spark

Eu tenho um conjunto de dados que está na forma de alguns mapas aninhados e seu tipo Scala é: Map[String, (LabelType,Map[Int, Double])]O primeiroString key é um identificador exclusivo para cada amostra, e o valor é uma tupla que contém o rótulo ...

1 a resposta

Databricks (Spark): dependências .egg não instaladas automaticamente?

Eu tenho um criado localmente.egg pacote que dependeboto==2.38.0. Eu usei setuptools para criar a distribuição de build. Tudo funciona no meu próprio ambiente local, pois ele buscaboto corretamente dePiP. No entantodatabricks ele não busca ...

1 a resposta

Executar mais de 3000 modelos de floresta aleatória por grupo usando a API Spark MLlib Scala

Estou tentando criar modelos de floresta aleatórios por grupo (School_ID, mais de 3 mil) em um arquivo csv de entrada de modelo grande usando a API Spark Scala. Cada grupo contém cerca de 3000 a 4000 registros. Os recursos que tenho à disposição ...