Czy istnieje skuteczny algorytm rozmytej deduplikacji list ciągów? [duplikować

Question

Apr 06, 2013, 03:33 PM

Czy istnieje skuteczny algorytm rozmytej deduplikacji list ciągów? [duplikować

To pytanie ma już odpowiedź tutaj:

Rozmyte dopasowanie deduplikacji w czasie krótszym niż wykładniczy? 6 odpowiedzi

Na przykład mam długą listę ciągów, każdy ciąg ma około 30-50 znaków i chcę usunąć ciągi podobne do niektórych innych ciągów z tej listy (pozostawiając tylko jedno wystąpienie z rodziny duplikatów

Spojrzałem na różne algorytmy podobieństwa ciągów, na przykład odległość Levensteina i metodę przedstawioną wTen artyku. Działają, ale jest boleśnie powolny - najlepszy algorytm, jaki wymyśliłem, wykazuje złożoność O (n ^ 2) i zajmuje około 1,5 s na przetworzenie listy z 3000 ciągów.

Czy istnieje jakiś szybki sposób na deduplikację tych list?

questionAnswers(2)

Popularne pytania

0 odpowiedzi

Jak używać nth-child do stylizacji za pomocą tabeli z rowspan?

0 odpowiedzi

Posty na stronie Facebooka są podawane

0 odpowiedzi

Błąd podczas wdrażania wojny hudson do jboss 6

0 odpowiedzi

Dlaczego zależności ramowe systemu iOS nie muszą być jawnie powiązane ze statycznym projektem biblioteki lub projektem ramowym, gdy robią to dla projektu aplikacji?

0 odpowiedzi

Jak programowo odznaczyć aktualnie wybrany wiersz w JTable (swing)?

Jesteś bardzo aktywny! To świetnie!

Czy istnieje skuteczny algorytm rozmytej deduplikacji list ciągów? [duplikować

questionAnswers(2)

yourAnswerToTheQuestion

Popularne pytania