Rcpp: Empfohlene Codestruktur bei Verwendung von Datenrahmen mit Rcpp (Inline)

Question

Jun 06, 2012, 11:57 AM

Rcpp: Empfohlene Codestruktur bei Verwendung von Datenrahmen mit Rcpp (Inline)

[Ich hatte dies als Kommentar an anderer Stelle skizziert, aber beschlossen, eine richtige Frage zu erstellen ...]

Was wird derzeit als "Best Practice" in Bezug auf die Codestrukturierung bei der Verwendung von Datenrahmen in Rcpp angesehen? Die Leichtigkeit, mit der man einen Eingangsdatenrahmen von R zu dem C ++ - Code "beamen" kann, ist bemerkenswert, aber wenn der Datenrahmen n Spalten hat,denkt man derzeit, dass diese Daten vor der Verwendung in n separate (C ++) Vektoren aufgeteilt werden sollten?

Die Antwort auf meine vorherige Frage zur Verwendung einer Zeichenfolgenspalte (Zeichenvektor) in einem Datenrahmen legt nahe, dass dies richtig ist. Im Speziellen,Es scheint keine Unterstützung für eine Notation wie df.name [i] zu geben. auf die Datenrahmeninformationen direkt zu verweisen (wie man es in einer C-Struktur haben könnte), sofern ich mich nicht irre.

Dies führt uns jedoch in eine Situation, in der das Untersetzen der Daten viel umständlicher ist - anstatt einen Datenrahmen in einer Zeile unterteilen zu können, muss jede Variable separat behandelt werden. So,ist die Überlegung, dass die Teilmenge in Rcpp am besten implizit über boolesche Vektoren erfolgt, z. B.?

Zusammenfassend möchte ich auf den Punkt bringen, dass ich mein derzeitiges Verständnis überprüfen wollte, dass ein Datenrahmen zwar auf den C ++ - Code übertragen werden kann, es jedoch keine Möglichkeit gibt, direkt auf die einzelnen Elemente seiner Spalten in einem "df.name [ i] "Mode und kein einfaches Verfahren zum Erzeugen eines Unterdatenrahmens der Eingabe df durch Auswählen von Zeilen, die einfache Kriterien erfüllen (z. B. liegt df.date in einem bestimmten Bereich).