Resultados da pesquisa a pedido "apache-spark"
Spark: qual é a melhor estratégia para unir um RDD de duas tuplas com RDD de chave única?
Eu tenho dois RDD's que quero juntar e eles se parecem com isso:
Definindo textinputformat.record.delimiter em faísca
No Spark, é possível definir algumas configurações de hadoop como, por ex.
Filtre o quadro de dados spark / scala se a coluna estiver presente no conjunto
Estou usando o Spark 1.4.0, é o que tenho até agora: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))A funçãoaceso [https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/functions.html#lit(java.lang.Object)] converte um ...
Fator desequilibrado de KMeans?
Edit: A resposta desta pergunta é fortemente discutida em:A soma no Spark foi ruim [https://stackoverflow.com/questions/39627773/sum-in-spark-gone-bad] NoCalcular o custo de ...
Use mais de um collect_list em uma consulta no Spark SQL
Eu tenho o seguinte quadro de dadosdata: root |-- userId: string |-- product: string |-- rating: doublee a seguinte consulta: val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by ...
Spark lendo o arquivo WARC com InputFormat customizado
Preciso processar um arquivo .warc através do Spark, mas não consigo encontrar uma maneira direta de fazer isso. Eu preferiria usar Python e não ler o arquivo inteiro em um RDD atravéswholeTextFiles() (porque o arquivo inteiro seria processado em ...
Spark: número de desempenho inconsistente no número de núcleos de escala
Estou fazendo um teste de escala simples no Spark usando classificação de classificação - de 1 núcleo até 8 núcleos. Percebo que 8 núcleos são mais lentos que 1 núcleo. //run spark using 1 core spark-submit --master local[1] --class ...
Como implementar o incremento automático no spark SQL (PySpark)
Eu preciso implementar uma coluna de incremento automático na minha tabela sql spark, como eu poderia fazer isso. Por favor, me guie. eu estou usando o pyspark 2.0 Obrigado Kalyan
Extrair partição de tabela de seção no Spark - java
Existe alguma maneira no Spark extrair apenas os nomes das colunas da partição? A solução alternativa que estou usando é executar "show extended table like table_name"usandoHiveContext
Lendo arquivos csv com campos entre aspas contendo vírgulas incorporadas
Estou lendo um arquivo csv no Pyspark da seguinte maneira: df_raw=spark.read.option("header","true").csv(csv_path)No entanto, o arquivo de dados citou campos com vírgulas incorporadas, que não devem ser tratados como vírgulas. Como posso lidar ...