Suchergebnisse für Anfrage "data.table"

2 die antwort

R: data.table vs. merge (aggregate ()) performance

Oder allgemeiner zu sein, es istDT[,.SD[...],by=...] gegenmerge(aggregate(...)). Ohne weiteres hier Daten und Beispiel: set.seed(5141) size = 1e6 df <- data.table(a = rnorm(size), b = paste0(sample(letters, size, T), sample(letters, size, T), ...

4 die antwort

Wie werden Zeilen aus einer Datentabelle ausgewählt, die in einer anderen Datentabelle angewendet werden sollen?

Ich habe zwei data.tablesdf (21 MIO-Zeilen) undtmp (500.000 Zeilen) df hat drei Spalten, die ein Originalpatent verknüpfen origpat) mit einem Referenzpatent refpat) und Binden einer ursprünglichen Klassifizierung ...

4 die antwort

fread EOF anstelle von separator

Ich versuche, eine große Datei mit Fread zu lesen, aber ich schätze, dass etwas mit dem Layout der Datei zu tun hat. Wenn ich versuche, die Datei mit @ zu les data = fread(input = "../data.txt", sep = "\t") Auf dieser Datei (ich habe gerade ...

TOP-Veröffentlichungen

6 die antwort

Vectorize data.table like, grepl oder ähnliches für den Vergleich von Big Data Strings

Ich muss prüfen, ob eine Zeichenfolge in einer Spalte für alle Zeilen einen entsprechenden (numerischen) Wert aus derselben Zeile einer anderen Spalte enthält. Wenn ich nur die Zeichenfolge auf ein einzelnes Muster überprüft hätte, wäre dies mit ...

2 die antwort

Gruppieren einer data.table durch Ausführen von Intervallen

Ich verwende R mit Paket data.table und möchte eine data.table nach (Zeit-) Intervallen oder überlappenden Behältern gruppieren. Für jedes dieser Laufintervalle möchte ich das Vorkommen gleicher Datenpaare ermitteln. Außerdem sollten diese ...

6 die antwort

Schnellste Methode zum Einlesen von 100.000 .dat.gz-Dateien

Ich habe ein paar hunderttausend sehr kleine.dat.gz -Dateien, die ich möglichst effizient in R einlesen möchte. Ich lese die Datei ein und fasse die Daten sofort zusammen und verwerfe sie. Ich mache mir also keine Sorgen um ...

2 die antwort

combining tail with by in data.table

Was ist der beste Weg, um die Endzeile einer data.table um einen Faktor zu bestimmen? Sag ich habe: > dt <- data.table(category = c("A", "A", "B", "B", "B"), value = c(1,2,3,4,5)) > dt category value 1: A 1 2: A 2 3: B 3 4: B 4 5: B 5 Ich ...

4 die antwort

data.table: Summe aller vorhandenen Kombinationen in Tabelle

Ich habe eine data.tableout wie folgt (in Wirklichkeit ist es viel größer): out <- code weights group 1: 2 0.387 1 2: 1 0.399 1 3: 2 1.610 1 4: 3 1.323 2 5: 2 0.373 2 6: 1 0.212 2 7: 3 0.316 3 8: 2 0.569 3 9: 1 0.120 3 10: 1 0.354 3s hat 3 ...

2 die antwort

nzahl der eindeutigen Zeilen basierend auf zwei Spalten, nach Gruppe

Ich habe eine data.table in r col1 col2 col3 col4 1: 5.1 3.5 1.4 setosa 2: 5.1 3.5 1.4 setosa 3: 4.7 3.2 1.3 setosa 4: 4.6 3.1 1.5 setosa 5: 5.0 3.6 1.4 setosa 6: 5.1 3.5 3.4 eer 7: 5.1 3.5 3.4 eer 8: 5.1 3.2 1.3 eer 9: 5.1 3.5 1.5 eer 10: 5.1 ...

6 die antwort

Wie vergleiche ich zwei Datenrahmen / Tabellen und extrahiere Daten in R?

Beim Versuch, Fehlanpassungen zwischen den beiden folgenden Datenrahmen zu extrahieren, ist es mir bereits gelungen, einen neuen Datenrahmen zu erstellen, in dem Fehlanpassungen ersetzt werden. Was ich jetzt brauche, ist eine Liste von ...