Suchergebnisse für Anfrage "apache-spark"
Wie werden Elemente einer bestimmten RDD-Partition in Spark gedruckt?
Wie drucke ich die Elemente einer bestimmten Partition, zB 5th, alleine? val distData = sc.parallelize(1 to 50, 10)
In Apache Spark, warum behält RDD.union den Partitioner nicht bei?
Wie jeder weiß, haben Partitionierer in Spark enorme Auswirkungen auf die Leistung von "Wide" -Operationen, daher werden sie normalerweise in Operationen angepasst. Ich habe mit folgendem Code experimentiert: val rdd1 = sc.parallelize(1 to ...
Wie wird der DataFrame gedreht?
Ich fange an, Spark DataFrames zu verwenden, und ich muss in der Lage sein, die Daten zu schwenken, um mehrere Spalten aus einer Spalte mit mehreren Zeilen zu erstellen. In Scalding ist dafür eine integrierte Funktionalität vorhanden, und ich ...
Einfachste Methode zur Textlemmatisierung in Scala und Spark
Ich möchte die Lemmatisierung für eine Textdatei verwenden: surprise heard thump opened door small seedy man clasping package wrapped. upgrading system found review spring 2008 issue moody audio backed. omg left gotta wrap review order asap . ...
Erstelle eine neue Spalte mit der Funktion in Spark Dataframe
Ich versuche, die neue Datenrahmen-API in Spark herauszufinden. scheint ein guter Schritt vorwärts zu sein, aber es fällt mir schwer, etwas zu tun, das ziemlich einfach sein sollte. Ich habe einen Datenrahmen mit 2 Spalten, "ID" und "Betrag". ...
Differenz zwischen org.apache.spark.ml.classification und org.apache.spark.mllib.classification
Ich schreibe eine Spark-Anwendung und möchte Algorithmen in MLlib verwenden. In der API-Dokumentation habe ich zwei verschiedene Klassen für denselben Algorithmus gefunden. Zum Beispiel gibt es eine LogisticRegression ...
Wie führe ich mehrere Jobs in einem Sparkcontext aus separaten Threads in PySpark aus?
s wird aus der Spark-Dokumentation über @ verstandePlanung innerhalb einer Anwendung [http://spark.apache.org/docs/latest/job-scheduling.html]: In einer bestimmten Spark-Anwendung (SparkContext-Instanz) können mehrere parallele Jobs gleichzeitig ...
Umformen / Schwenken von Daten in Spark RDD und / oder Spark DataFrames
Ich habe einige Daten im folgenden Format (entweder RDD oder Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...
Berechnung der Dauer durch Subtraktion von zwei datetime-Spalten im Zeichenfolgenformat
Ich habe einen Spark-Datenrahmen, der aus einer Reihe von Daten besteht: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...
Spark Python Avro Kafka Deserialiser
Ich habe einen Kafka-Stream in einer Python-Spark-App erstellt und kann jeden Text analysieren, der durch ihn kommt. kafkaStream = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer", {topic: 1})Ich möchte dies ändern, um ...