scal dane z częściowym dopasowaniem w r

Question

May 16, 2012, 01:14 PM

scal dane z częściowym dopasowaniem w r

Mam dwa zestawy danych

datf1 <- data.frame (name = c("regular", "kklmin", "notSo", "Jijoh",
 "Kish", "Lissp", "Kcn", "CCCa"),
 number1 = c(1, 8, 9,  2,  18, 25, 33,   8))
#-----------
    name number1
1 regular       1
2  kklmin       8
3   notSo       9
4   Jijoh       2
5    Kish      18
6   Lissp      25
7     Kcn      33
8    CCCa       8

 datf2 <- data.frame (name = c("reGulr", "ntSo", "Jijoh", "sean", "LiSsp",
 "KcN", "CaPN"),
   number2 = c(2, 8, 12,    13, 20, 18,   13))
#-------------
   name number2
1 reGulr       2
2   ntSo       8
3  Jijoh      12
4   sean      13
5  LiSsp      20
6    KcN      18
7   CaPN      13

Chcę scalić je według kolumny nazwy, jednak z częściowym dopasowaniem jest dozwolone (aby uniknąć utrudniania łączenia błędów ortograficznych w dużym zbiorze danych, a nawet do wykrywania takich błędów ortograficznych) i na przykład

(1) Jeśli kolejne cztery litery (wszystkie, jeśli liczba liter jest mniejsza niż 4) w dowolnej pozycji - mecz jest w porządku

 ABBCD = BBCDK = aBBCD = ramABBBCD = ABB

(2) Czułość jest wyłączona w meczu, npABBCD = aBbCd

(3) Nowy zestaw danych będzie zawierał obie nazwy (nazwy z datf1 i datf2). Tak więc list ten możemy wykryć, jeśli dopasowanie jest idealne (może być oddzielna kolumna z liczbą pasujących liter)

Czy takie połączenie jest możliwe?

Edytuje:

datf1 <- data.frame (name = c("xxregular", "kklmin", "notSo", "Jijoh",
             "Kish", "Lissp", "Kcn", "CCCa"),
                     number1 = c(1, 8, 9,  2,  18, 25, 33,   8))
datf2 <- data.frame (name = c("reGulr", "ntSo", "Jijoh", "sean", 
             "LiSsp", "KcN", "CaPN"),
                     number2 = c(2, 8, 12,  13, 20, 18,   13))


uglyMerge(datf1, datf2)
       name1  name2 number1 number2 matches
1  xxregular   <NA>       1      NA       0
2     kklmin   <NA>       8      NA       0
3      notSo   <NA>       9      NA       0
4      Jijoh  Jijoh       2      12       5
5       Kish   <NA>      18      NA       0
6      Lissp  LiSsp      25      20       5
7        Kcn    KcN      33      18       3
8       CCCa   <NA>       8      NA       0
9       <NA> reGulr      NA       2       0
10      <NA>   ntSo      NA       8       0
11      <NA>   sean      NA      13       0
12      <NA>   CaPN      NA      13       0