Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Por que resultados inconsistentes usando subtração em reduzir?

Dado o seguinte: val rdd = List(1,2,3)Eu assumi querdd.reduce((x,y) => (x - y)) retornaria-4 (ou seja,(1-2)-3=-4), mas retornou2. Por quê?

1 a resposta

YARN: Qual é a diferença entre número de executores e núcleos de executores no Spark?

Estou aprendendo o Spark no AWS EMR. No processo, estou tentando entender a diferença entre o número de executores (- num-executors) e núcleos de executores (--executor-cores). Alguém pode me dizer aqui? Além disso, quando estou tentando enviar ...

6 a resposta

Problema no Guava detectado # 1635, que indica que uma versão do Guava menor que 16.01 está em uso

Estou executando o trabalho spark no emr e usando o conector de dadostax para conectar-se ao cluster cassandra. Estou enfrentando problemas com o pote de goiaba. Encontre os detalhes abaixo. Estou usando abaixo os cassandra deps cqlsh 5.0.1 | ...

1 a resposta

PySpark convertendo uma coluna do tipo 'map' em várias colunas em um dataframe

EntradaEu tenho uma colunaParameters do tipomap do formulário: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...

3 a resposta

Como substituo um valor de string por um NULL no PySpark?

Eu quero fazer algo assim: df.replace('empty-value', None, 'NAME')Basicamente, quero substituir algum valor por NULL. mas não aceita nenhum nesta função. Como posso fazer isso?

2 a resposta

Usar o Spark para escrever um arquivo em parquet para s3 sobre s3a é muito lento

Estou tentando escrever umparquet arquivar paraAmazon S3 usandoSpark 1.6.1. O pequenoparquet que eu estou gerando é~2GB uma vez escrito, portanto, não há muitos dados. Estou tentando provarSpark como uma plataforma que eu possa ...

2 a resposta

Por que o Spark SQL considera o suporte de índices sem importância?

Citando os DataFrames Spark,Conjuntos de dados e manual SQL [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Algumas otimizações do Hive ainda não estão incluídas no Spark. Alguns desses (como ...

2 a resposta

Como passar várias instruções no Spark SQL HiveContext

Por exemplo, tenho algumas instruções Hive HQL que quero passar para o Spark SQL: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;O seguinte ...

1 a resposta

Como alterar o tipo de coluna de String para Date em DataFrames?

Eu tenho um quadro de dados que tem duas colunas (C, D) são definidas como tipo de coluna de seqüência de caracteres, mas os dados nas colunas são realmente datas. por exemplo, a coluna C tem a data como "01-APR-2015" e a coluna D ...

2 a resposta

Bluemix spark-submit - Como proteger credenciais necessárias ao meu frasco Scala

Eu tenho um aplicativo Spark que estou enviando para o Bluemix Spark Cluster. Ele lê de um banco de dados DASHDB e grava os resultados no Cloudant. O código acessa o DASHDB usando Spark e JDBC. O ID do usuário e a senha do banco de dados DASHDB ...