Substring-Extraktion aus dem Vektor in R

Question

Mar 22, 2015, 05:24 PM

Substring-Extraktion aus dem Vektor in R

Ich versuche, Teilzeichenfolgen aus einem unstrukturierten Text zu extrahieren. Nehmen Sie zum Beispiel einen Vektor mit Ländernamen an:

countries <- c("United States", "Israel", "Canada")

Wie übergebe ich diesen Vektor von Zeichenwerten, um genaue Übereinstimmungen aus unstrukturiertem Text zu extrahieren?

text.df <- data.frame(ID = c(1:5), 
text = c("United States is a match", "Not a match", "Not a match",
         "Israel is a match", "Canada is a match"))

In diesem Beispiel wäre die gewünschte Ausgabe:

ID     text
1      United States
4      Israel
5      Canada

Bis jetzt habe ich mit @ gearbeitgsub von wo ich alle Nicht-Übereinstimmungen entferne und dann entferne Zeilen mit leeren Werten. Ich habe auch mit @ gearbeitstr_extract aus dem stringr-Paket, aber es ist mir nicht gelungen, die Arugments für den regulären Ausdruck richtig zu machen. Jede Hilfe wäre sehr dankbar!