Resultados da pesquisa a pedido "apache-spark"
Spark SQL - String de Consulta de Escape
Não acredito que estou perguntando isso, mas ... COMO ESCAPAR UMA QUERY STRING DO SQL NO SPARK SQL USANDO SCALA? Eu cansei de tudo e procurei em todos os lugares. Eu pensei que a biblioteca apache commons faria isso, mas sem sorte: import ...
A faísca do apache pode ser executada sem hadoop?
Existe alguma dependência entreFaíscaeHadoop? Caso contrário, há algum recurso que sentirei falta quando corroFaíscasemHadoop?
Problema ao criar uma lista global a partir do mapa usando o PySpark
Eu tenho esse código em que estou lendo um arquivoipython usandopyspark. O que estou tentando fazer é adicionar um pedaço a ele, que forma uma lista com base em uma coluna específica lida no arquivo, mas quando tento executá-lo, a lista fica ...
PySpark, importando esquema através do arquivo JSON
tbschema.json se parece com isso: [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Carrego-o usando o seguinte código >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...
Qual é a diferença entre spark.eventLog.dir e spark.history.fs.logDirectory?
No Spark, qual é a diferença entre o diretório de log de eventos e o diretório de log do servidor de histórico? spark.eventLog.dir hdfs:///var/log/spark/apps spark.history.fs.logDirectory hdfs:///var/log/spark/apps
Localizando o número total de linhas no arquivo distribuído hdfs usando a linha de comando
Estou trabalhando em um cluster em que um conjunto de dados é mantido emhdfs de maneira distribuída. Aqui está o que eu tenho: [hmi@bdadev-5 ~]$ hadoop fs -ls /bdatest/clm/data/ Found 1840 items -rw-r--r-- 3 bda supergroup 0 2015-08-11 00:32 ...
Como definir e usar uma função agregada definida pelo usuário no Spark SQL?
Eu sei como escrever um UDF no Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)Posso fazer algo semelhante para definir uma função agregada? Como isso é ...
Como converter um mapa no RDD do Spark
Eu tenho um conjunto de dados que está na forma de alguns mapas aninhados e seu tipo Scala é: Map[String, (LabelType,Map[Int, Double])]O primeiroString key é um identificador exclusivo para cada amostra, e o valor é uma tupla que contém o rótulo ...
Databricks (Spark): dependências .egg não instaladas automaticamente?
Eu tenho um criado localmente.egg pacote que dependeboto==2.38.0. Eu usei setuptools para criar a distribuição de build. Tudo funciona no meu próprio ambiente local, pois ele buscaboto corretamente dePiP. No entantodatabricks ele não busca ...
Executar mais de 3000 modelos de floresta aleatória por grupo usando a API Spark MLlib Scala
Estou tentando criar modelos de floresta aleatórios por grupo (School_ID, mais de 3 mil) em um arquivo csv de entrada de modelo grande usando a API Spark Scala. Cada grupo contém cerca de 3000 a 4000 registros. Os recursos que tenho à disposição ...