Параллельная обработка с использованием Stanford CoreNLP (3.5.2)
Я столкнулся с проблемой параллелизма в аннотировании нескольких предложений одновременно. Мне неясно, делаю ли я что-то не так или, может быть, есть ошибка в CoreNLP.
Моя цель - аннотировать предложения с помощью конвейера «tokenize, ssplit, pos, lemma, ner, parse, dcoref», используя несколько потоков, работающих параллельно. Каждый поток выделяет свой собственный экземпляр StanfordCoreNLP и затем использует его для аннотации.
Проблема в том, что в какой-то момент выдается исключение:
java.util.ConcurrentModificationException
at java.util.ArrayList$Itr.checkForComodification(ArrayList.java:901)
at java.util.ArrayList$Itr.next(ArrayList.java:851)
at java.util.Collections$UnmodifiableCollection$1.next(Collections.java:1042)
at edu.stanford.nlp.trees.GrammaticalStructure.analyzeNode(GrammaticalStructure.java:463)
at edu.stanford.nlp.trees.GrammaticalStructure.analyzeNode(GrammaticalStructure.java:488)
at edu.stanford.nlp.trees.GrammaticalStructure.analyzeNode(GrammaticalStructure.java:488)
at edu.stanford.nlp.trees.GrammaticalStructure.analyzeNode(GrammaticalStructure.java:488)
at edu.stanford.nlp.trees.GrammaticalStructure.analyzeNode(GrammaticalStructure.java:488)
at edu.stanford.nlp.trees.GrammaticalStructure.analyzeNode(GrammaticalStructure.java:488)
at edu.stanford.nlp.trees.GrammaticalStructure.analyzeNode(GrammaticalStructure.java:488)
at edu.stanford.nlp.trees.GrammaticalStructure.analyzeNode(GrammaticalStructure.java:488)
at edu.stanford.nlp.trees.GrammaticalStructure.analyzeNode(GrammaticalStructure.java:488)
at edu.stanford.nlp.trees.GrammaticalStructure.analyzeNode(GrammaticalStructure.java:488)
at edu.stanford.nlp.trees.GrammaticalStructure.analyzeNode(GrammaticalStructure.java:488)
at edu.stanford.nlp.trees.GrammaticalStructure.<init>(GrammaticalStructure.java:201)
at edu.stanford.nlp.trees.EnglishGrammaticalStructure.<init>(EnglishGrammaticalStructure.java:89)
at edu.stanford.nlp.semgraph.SemanticGraphFactory.makeFromTree(SemanticGraphFactory.java:139)
at edu.stanford.nlp.pipeline.DeterministicCorefAnnotator.annotate(DeterministicCorefAnnotator.java:89)
at edu.stanford.nlp.pipeline.AnnotationPipeline.annotate(AnnotationPipeline.java:68)
at edu.stanford.nlp.pipeline.StanfordCoreNLP.annotate(StanfordCoreNLP.java:412)
Я прилагаю пример кода приложения, которое воспроизводит проблему примерно за 20 секунд на моем ноутбуке Core i3 370M (Win 7 64bit, Java 1.8.0.45 64bit). Это приложение читает XML-файл корпусов Recognizing Textual Entailment (RTE), а затем анализирует все предложения одновременно, используя стандартные классы параллелизма Java. В качестве аргумента командной строки необходимо указать путь к локальному RTE-XML-файлу. В своих тестах я использовал общедоступный файл XML здесь:http://www.nist.gov/tac/data/RTE/RTE3-DEV-FINAL.tar.gz
package semante.parser.stanford.server;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.io.PrintStream;
import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.List;
import java.util.Properties;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.TimeUnit;
import java.util.concurrent.atomic.AtomicInteger;
import javax.xml.bind.JAXBContext;
import javax.xml.bind.Unmarshaller;
import javax.xml.bind.annotation.XmlAccessType;
import javax.xml.bind.annotation.XmlAccessorType;
import javax.xml.bind.annotation.XmlAttribute;
import javax.xml.bind.annotation.XmlElement;
import javax.xml.bind.annotation.XmlRootElement;
import edu.stanford.nlp.pipeline.Annotation;
import edu.stanford.nlp.pipeline.StanfordCoreNLP;
public class StanfordMultiThreadingTest {
@XmlRootElement(name = "entailment-corpus")
@XmlAccessorType (XmlAccessType.FIELD)
public static class Corpus {
@XmlElement(name = "pair")
private List<Pair> pairList = new ArrayList<Pair>();
public void addPair(Pair p) {pairList.add(p);}
public List<Pair> getPairList() {return pairList;}
}
@XmlRootElement(name="pair")
public static class Pair {
@XmlAttribute(name = "id")
String id;
@XmlAttribute(name = "entailment")
String entailment;
@XmlElement(name = "t")
String t;
@XmlElement(name = "h")
String h;
private Pair() {}
public Pair(int id, boolean entailment, String t, String h) {
this();
this.id = Integer.toString(id);
this.entailment = entailment ? "YES" : "NO";
this.t = t;
this.h = h;
}
public String getId() {return id;}
public String getEntailment() {return entailment;}
public String getT() {return t;}
public String getH() {return h;}
}
class NullStream extends OutputStream {
@Override
public void write(int b) {}
};
private Corpus corpus;
private Unmarshaller unmarshaller;
private ExecutorService executor;
public StanfordMultiThreadingTest() throws Exception {
javax.xml.bind.JAXBContext jaxbCtx = JAXBContext.newInstance(Pair.class,Corpus.class);
unmarshaller = jaxbCtx.createUnmarshaller();
executor = Executors.newFixedThreadPool(Runtime.getRuntime().availableProcessors());
}
public void readXML(String fileName) throws Exception {
System.out.println("Reading XML - Started");
corpus = (Corpus) unmarshaller.unmarshal(new InputStreamReader(new FileInputStream(fileName), StandardCharsets.UTF_8));
System.out.println("Reading XML - Ended");
}
public void parseSentences() throws Exception {
System.out.println("Parsing - Started");
// turn pairs into a list of sentences
List<String> sentences = new ArrayList<String>();
for (Pair pair : corpus.getPairList()) {
sentences.add(pair.getT());
sentences.add(pair.getH());
}
// prepare the properties
final Properties props = new Properties();
props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");
// first run is long since models are loaded
new StanfordCoreNLP(props);
// to avoid the CoreNLP initialization prints (e.g. "Adding annotation pos")
final PrintStream nullPrintStream = new PrintStream(new NullStream());
PrintStream err = System.err;
System.setErr(nullPrintStream);
int totalCount = sentences.size();
AtomicInteger counter = new AtomicInteger(0);
// use java concurrency to parallelize the parsing
for (String sentence : sentences) {
executor.execute(new Runnable() {
@Override
public void run() {
try {
StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
Annotation annotation = new Annotation(sentence);
pipeline.annotate(annotation);
if (counter.incrementAndGet() % 20 == 0) {
System.out.println("Done: " + String.format("%.2f", counter.get()*100/(double)totalCount));
};
} catch (Exception e) {
System.setErr(err);
e.printStackTrace();
System.setErr(nullPrintStream);
executor.shutdownNow();
}
}
});
}
executor.shutdown();
System.out.println("Waiting for parsing to end.");
executor.awaitTermination(10, TimeUnit.MINUTES);
System.out.println("Parsing - Ended");
}
public static void main(String[] args) throws Exception {
StanfordMultiThreadingTest smtt = new StanfordMultiThreadingTest();
smtt.readXML(args[0]);
smtt.parseSentences();
}
}
В моей попытке найти некоторую справочную информацию я столкнулся с ответами, даннымиКристофер Мэннинг а такжеГабор Анжели из Stanford, которые указывают, что современные версии Stanford CoreNLP должны быть поточно-ориентированными. Тем не менее, недавнийсообщение об ошибке в CoreNLP версии 3.4.1 описана проблема параллелизма. Как уже упоминалось в названии, я использую версию 3.5.2.
Мне неясно, связана ли проблема, с которой я сталкиваюсь, из-за ошибки или из-за неправильного использования пакета. Я был бы признателен, если бы кто-то более знающий мог пролить свет на это. Я надеюсь, что пример кода будет полезен для воспроизведения проблемы. Спасибо!
[1]: