Suchergebnisse für Anfrage "apache-spark"

6 die antwort

Wie werden Elemente einer bestimmten RDD-Partition in Spark gedruckt?

Wie drucke ich die Elemente einer bestimmten Partition, zB 5th, alleine? val distData = sc.parallelize(1 to 50, 10)

2 die antwort

In Apache Spark, warum behält RDD.union den Partitioner nicht bei?

Wie jeder weiß, haben Partitionierer in Spark enorme Auswirkungen auf die Leistung von "Wide" -Operationen, daher werden sie normalerweise in Operationen angepasst. Ich habe mit folgendem Code experimentiert: val rdd1 = sc.parallelize(1 to ...

12 die antwort

Wie wird der DataFrame gedreht?

Ich fange an, Spark DataFrames zu verwenden, und ich muss in der Lage sein, die Daten zu schwenken, um mehrere Spalten aus einer Spalte mit mehreren Zeilen zu erstellen. In Scalding ist dafür eine integrierte Funktionalität vorhanden, und ich ...

TOP-Veröffentlichungen

6 die antwort

Einfachste Methode zur Textlemmatisierung in Scala und Spark

Ich möchte die Lemmatisierung für eine Textdatei verwenden: surprise heard thump opened door small seedy man clasping package wrapped. upgrading system found review spring 2008 issue moody audio backed. omg left gotta wrap review order asap . ...

6 die antwort

Erstelle eine neue Spalte mit der Funktion in Spark Dataframe

Ich versuche, die neue Datenrahmen-API in Spark herauszufinden. scheint ein guter Schritt vorwärts zu sein, aber es fällt mir schwer, etwas zu tun, das ziemlich einfach sein sollte. Ich habe einen Datenrahmen mit 2 Spalten, "ID" und "Betrag". ...

4 die antwort

Differenz zwischen org.apache.spark.ml.classification und org.apache.spark.mllib.classification

Ich schreibe eine Spark-Anwendung und möchte Algorithmen in MLlib verwenden. In der API-Dokumentation habe ich zwei verschiedene Klassen für denselben Algorithmus gefunden. Zum Beispiel gibt es eine LogisticRegression ...

4 die antwort

Wie führe ich mehrere Jobs in einem Sparkcontext aus separaten Threads in PySpark aus?

s wird aus der Spark-Dokumentation über @ verstandePlanung innerhalb einer Anwendung [http://spark.apache.org/docs/latest/job-scheduling.html]: In einer bestimmten Spark-Anwendung (SparkContext-Instanz) können mehrere parallele Jobs gleichzeitig ...

12 die antwort

Umformen / Schwenken von Daten in Spark RDD und / oder Spark DataFrames

Ich habe einige Daten im folgenden Format (entweder RDD oder Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...

12 die antwort

Berechnung der Dauer durch Subtraktion von zwei datetime-Spalten im Zeichenfolgenformat

Ich habe einen Spark-Datenrahmen, der aus einer Reihe von Daten besteht: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...

4 die antwort

Spark Python Avro Kafka Deserialiser

Ich habe einen Kafka-Stream in einer Python-Spark-App erstellt und kann jeden Text analysieren, der durch ihn kommt. kafkaStream = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer", {topic: 1})Ich möchte dies ändern, um ...