Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Spark Launcher aguardando a conclusão do trabalho infinitamente

Estou tentando enviar uma tarefa JAR com Spark para o cluster YARN a partir do código Java. Estou usando o SparkLauncher para enviar um exemplo do SparkPi: Process spark = new ...

2 a resposta

SPARK: falha: `` união '' esperada, mas `('encontrada

Eu tenho um dataframe chamado df com a coluna employee_id. Estou fazendo: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result = Spark.getSqlContext().sql(query)Mas ...

0 a resposta

Como o número de tarefas e partições é definido ao usar o MemoryStream?

Estou tentando entender um comportamento estranho que observei no meu aplicativo de streaming de estrutura Spark em execução nolocal[*] modo. Eu tenho 8 núcleos em minhas máquinas. Enquanto a maioria dos meus lotes tem 8 partições, de vez em ...

1 a resposta

Calcular o desvio padrão de dados agrupados em um Spark DataFrame

Eu tenho logs de usuário que tirei de um csv e converti em um DataFrame para aproveitar os recursos de consulta do SparkSQL. Um único usuário criará inúmeras entradas por hora e eu gostaria de reunir algumas informações estatísticas básicas para ...

1 a resposta

Como imprimir o caminho / regras de decisão usados para prever a amostra de uma linha específica no PySpark?

Como imprimir o caminho de decisão de uma amostra específica em um Spark DataFrame? Spark Version: '2.3.1'O código abaixo imprime o caminho de decisão de todo o modelo. Como fazê-lo imprimir um caminho de decisão de uma amostra específica? Por ...

2 a resposta

Como lidar com tarefas que executam muito tempo (comparando com outras pessoas no trabalho) no yarn-client?

Usamos um cluster Spark comoyarn-client para calcular vários negócios, mas às vezes temos uma tarefa executada por muito tempo: [/imgs/IWSbQ.png] Não definimos o tempo limite, mas acho que o tempo limite padrão de uma tarefa de faísca não é ...

2 a resposta

Como passar a linha inteira para o UDF - filtro Spark DataFrame

Estou escrevendo a função de filtro para conjuntos de dados JSON complexos com muitas estruturas internas. Passar colunas individuais é muito complicado. Então eu declarei a seguinte UDF: val records:DataFrame = = sqlContext.jsonFile("...") ...

1 a resposta

PhoenixOutputFormat não encontrado ao executar um trabalho de faísca no CDH 5.4 com Phoenix 4.5

Consegui configurar o Phoenix 4.5 no Cloudera CDH 5.4 recompilando o código-fonte.sqlline.py funciona bem, mas há problemas com a faísca. spark-submit --class my.JobRunner \ --master yarn --deploy-mode client \ --jars `ls -dm /myapp/lib/* | tr ...

1 a resposta

Grupo de quadros de dados do Spark

Eu estou tentando fazer alguma análise sobre conjuntos. Eu tenho um conjunto de dados de exemplo que se parece com isso: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Tudo o que existe é um único campo ...

1 a resposta

como construir um gráfico a partir de tuplas no graphx e rotular os nós depois?

Algum contexto pode ser encontradoaqui [https://stackoverflow.com/questions/31928133/how-to-create-a-graph-from-arrayany-any-using-graph-fromedgetuples/31929807?noredirect=1#comment51792711_31929807] , a ideia é que eu criei um gráfico a partir ...