Suchergebnisse für Anfrage "bigdata"
Operation Time Out-Fehler in der cqlsh-Konsole von cassandra
ch habe einen Cassandra-Cluster mit drei Knoten und eine Tabelle mit mehr als 2.000.000 Zeile Wenn ich das ausführe select count(*) from userdetails) Abfrage in cqlsh, ich habe diesen Fehler bekommen: OperationTimedOut: errors = {}, last_host = ...
Apache Drill vs Spark
Ich habe Erfahrung mit Apache Spark und Spark-SQL. Kürzlich habe ich ein Apache Drill Projekt gefunden. Könnten Sie mich beschreiben, was sind die wichtigsten Vorteile / Unterschiede zwischen ihnen? Ich habe schon gelesenFast Hadoop Analytics ...
Wie wandle ich eine kategoriale Variable in Spark in eine Reihe von Spalten um, die mit {0,1} codiert sind?
Ich versuche, eine logistische Regression (LogisticRegressionWithLBFGS) mit Spark MLlib (mit Scala) für einen Datensatz durchzuführen, der kategoriale Variablen enthält. Ich stelle fest, dass Spark nicht in der Lage war, mit solchen Variablen zu ...
Finden Sie Lücken in großen Ereignisströmen?
ch habe ungefähr 1 Million Ereignisse in einer PostgreSQL-Datenbank, die dieses Format habe id | stream_id | timestamp ----------+-----------------+----------------- 1 | 7 | .... 2 | 8 | ....s gibt ungefähr 50.000 eindeutige Stream Ich muss ...
Warum ist die Leistung von Kafka-Verbrauchern langsam?
Ich habe ein einfaches Thema und einen einfachen Kafka-Konsumenten und -Produzenten mit der Standardkonfiguration. Das Programm ist sehr einfach, ich habe zwei Threads. Im Producer werden weiterhin 16-Byte-Daten gesendet. Und auf der ...
Wie verwende ich mehrere Verbraucher in Kafka?
Ich bin ein neuer Student, der Kafka studiert, und bin auf einige grundlegende Probleme gestoßen, wenn ich mehrere Verbraucher verstehe, bei denen Artikel, Dokumentationen usw. bisher nicht allzu hilfreich waren. Eine Sache, die ich versucht ...
Wie lade ich eine große Tabelle für die Datenvisualisierung in ein Tableau?
Ich kann Tableau mit meiner Datenbank verbinden, aber die Tabelle ist hier wirklich groß. Jedes Mal, wenn ich versuche, die Tabelle in Tableau zu laden, stürzt sie ab und ich kann keine Arbeit finden. Die Tabellengröße variiert zwischen 10 und ...
nkrementeller PCA für Big Da
Ich habe gerade versucht, IncrementalPCA von sklearn.decomposition zu verwenden, aber es hat einen MemoryError ausgelöst, genau wie zuvor PCA und RandomizedPCA. Mein Problem ist, dass die Matrix, die ich zu laden versuche, zu groß ist, um in RAM ...
Job Queue für Hive Action in oozie
Ich habe einen netten Workflow. Ich übermittle alle Hive-Aktionen mit <name>mapred.job.queue.name</name> <value>${queueName}</value>Aber für einige Hive-Aktionen befindet sich der gestartete Job nicht in der angegebenen Warteschlange. Es wird in ...
Was passiert, wenn ein RDD in Spark nicht in den Speicher passt? [Duplikat
Diese Frage hat hier bereits eine Antwort: Was macht der Funke, wenn ich nicht genug Speicher habe? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 answers Soweit ich weiß, versucht Spark, alle Berechnungen im ...