Substring-Extraktion aus dem Vektor in R
Ich versuche, Teilzeichenfolgen aus einem unstrukturierten Text zu extrahieren. Nehmen Sie zum Beispiel einen Vektor mit Ländernamen an:
countries <- c("United States", "Israel", "Canada")
Wie übergebe ich diesen Vektor von Zeichenwerten, um genaue Übereinstimmungen aus unstrukturiertem Text zu extrahieren?
text.df <- data.frame(ID = c(1:5),
text = c("United States is a match", "Not a match", "Not a match",
"Israel is a match", "Canada is a match"))
In diesem Beispiel wäre die gewünschte Ausgabe:
ID text
1 United States
4 Israel
5 Canada
Bis jetzt habe ich mit @ gearbeitgsub
von wo ich alle Nicht-Übereinstimmungen entferne und dann entferne Zeilen mit leeren Werten. Ich habe auch mit @ gearbeitstr_extract
aus dem stringr-Paket, aber es ist mir nicht gelungen, die Arugments für den regulären Ausdruck richtig zu machen. Jede Hilfe wäre sehr dankbar!