объединить данные с частичным совпадением в r

Question

May 16, 2012, 04:54 PM

объединить данные с частичным совпадением в r

У меня есть два набора данных

datf1 <- data.frame (name = c("regular", "kklmin", "notSo", "Jijoh",
 "Kish", "Lissp", "Kcn", "CCCa"),
 number1 = c(1, 8, 9,  2,  18, 25, 33,   8))
#-----------
    name number1
1 regular       1
2  kklmin       8
3   notSo       9
4   Jijoh       2
5    Kish      18
6   Lissp      25
7     Kcn      33
8    CCCa       8

 datf2 <- data.frame (name = c("reGulr", "ntSo", "Jijoh", "sean", "LiSsp",
 "KcN", "CaPN"),
   number2 = c(2, 8, 12,    13, 20, 18,   13))
#-------------
   name number2
1 reGulr       2
2   ntSo       8
3  Jijoh      12
4   sean      13
5  LiSsp      20
6    KcN      18
7   CaPN      13

Я хочу объединить их по имени столбца, однако с частичным совпадением разрешено (чтобы не мешать объединению орфографических ошибок в большом наборе данных и даже обнаруживать такие орфографические ошибки) и, например,

(1) Если четыре последовательные буквы (все, если количество букв меньше 4) в любой позиции - соответствует, что хорошо

 ABBCD = BBCDK = aBBCD = ramABBBCD = ABB

(2) Чувствительность к регистру отключена, напримерABBCD = aBbCd

(3) В новом наборе данных будут сохранены оба имени (имена из datf1 и datf2). Таким образом, эта буква, которую мы можем определить, является ли совпадение идеальным (может быть отдельный столбец с тем, сколько букв соответствует)

Возможно ли такое слияние?

Редактирование:

datf1 <- data.frame (name = c("xxregular", "kklmin", "notSo", "Jijoh",
             "Kish", "Lissp", "Kcn", "CCCa"),
                     number1 = c(1, 8, 9,  2,  18, 25, 33,   8))
datf2 <- data.frame (name = c("reGulr", "ntSo", "Jijoh", "sean", 
             "LiSsp", "KcN", "CaPN"),
                     number2 = c(2, 8, 12,  13, 20, 18,   13))


uglyMerge(datf1, datf2)
       name1  name2 number1 number2 matches
1  xxregular   <NA>       1      NA       0
2     kklmin   <NA>       8      NA       0
3      notSo   <NA>       9      NA       0
4      Jijoh  Jijoh       2      12       5
5       Kish   <NA>      18      NA       0
6      Lissp  LiSsp      25      20       5
7        Kcn    KcN      33      18       3
8       CCCa   <NA>       8      NA       0
9       <NA> reGulr      NA       2       0
10      <NA>   ntSo      NA       8       0
11      <NA>   sean      NA      13       0
12      <NA>   CaPN      NA      13       0

объединить данные с частичным совпадением в r

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

объединить данные с частичным совпадением в r

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы