Suchergebnisse für Anfrage "bigdata"

14 die antwort

Operation Time Out-Fehler in der cqlsh-Konsole von cassandra

ch habe einen Cassandra-Cluster mit drei Knoten und eine Tabelle mit mehr als 2.000.000 Zeile Wenn ich das ausführe select count(*) from userdetails) Abfrage in cqlsh, ich habe diesen Fehler bekommen: OperationTimedOut: errors = {}, last_host = ...

4 die antwort

Apache Drill vs Spark

Ich habe Erfahrung mit Apache Spark und Spark-SQL. Kürzlich habe ich ein Apache Drill Projekt gefunden. Könnten Sie mich beschreiben, was sind die wichtigsten Vorteile / Unterschiede zwischen ihnen? Ich habe schon gelesenFast Hadoop Analytics ...

8 die antwort

Wie wandle ich eine kategoriale Variable in Spark in eine Reihe von Spalten um, die mit {0,1} codiert sind?

Ich versuche, eine logistische Regression (LogisticRegressionWithLBFGS) mit Spark MLlib (mit Scala) für einen Datensatz durchzuführen, der kategoriale Variablen enthält. Ich stelle fest, dass Spark nicht in der Lage war, mit solchen Variablen zu ...

TOP-Veröffentlichungen

4 die antwort

Finden Sie Lücken in großen Ereignisströmen?

ch habe ungefähr 1 Million Ereignisse in einer PostgreSQL-Datenbank, die dieses Format habe id | stream_id | timestamp ----------+-----------------+----------------- 1 | 7 | .... 2 | 8 | ....s gibt ungefähr 50.000 eindeutige Stream Ich muss ...

0 die antwort

Warum ist die Leistung von Kafka-Verbrauchern langsam?

Ich habe ein einfaches Thema und einen einfachen Kafka-Konsumenten und -Produzenten mit der Standardkonfiguration. Das Programm ist sehr einfach, ich habe zwei Threads. Im Producer werden weiterhin 16-Byte-Daten gesendet. Und auf der ...

6 die antwort

Wie verwende ich mehrere Verbraucher in Kafka?

Ich bin ein neuer Student, der Kafka studiert, und bin auf einige grundlegende Probleme gestoßen, wenn ich mehrere Verbraucher verstehe, bei denen Artikel, Dokumentationen usw. bisher nicht allzu hilfreich waren. Eine Sache, die ich versucht ...

8 die antwort

Wie lade ich eine große Tabelle für die Datenvisualisierung in ein Tableau?

Ich kann Tableau mit meiner Datenbank verbinden, aber die Tabelle ist hier wirklich groß. Jedes Mal, wenn ich versuche, die Tabelle in Tableau zu laden, stürzt sie ab und ich kann keine Arbeit finden. Die Tabellengröße variiert zwischen 10 und ...

2 die antwort

nkrementeller PCA für Big Da

Ich habe gerade versucht, IncrementalPCA von sklearn.decomposition zu verwenden, aber es hat einen MemoryError ausgelöst, genau wie zuvor PCA und RandomizedPCA. Mein Problem ist, dass die Matrix, die ich zu laden versuche, zu groß ist, um in RAM ...

2 die antwort

Job Queue für Hive Action in oozie

Ich habe einen netten Workflow. Ich übermittle alle Hive-Aktionen mit <name>mapred.job.queue.name</name> <value>${queueName}</value>Aber für einige Hive-Aktionen befindet sich der gestartete Job nicht in der angegebenen Warteschlange. Es wird in ...

2 die antwort

Was passiert, wenn ein RDD in Spark nicht in den Speicher passt? [Duplikat

Diese Frage hat hier bereits eine Antwort: Was macht der Funke, wenn ich nicht genug Speicher habe? [/questions/20301661/what-will-spark-do-if-i-dont-have-enough-memory] 3 answers Soweit ich weiß, versucht Spark, alle Berechnungen im ...