在sbt控制台中使用Crawler4j可以正常工作。使用sbt-assembly创建fatjar Tika (?)开始时,似乎不再能够检测页面的编码
java -jar crawler.jar
为了检测编码,Tika缺少什么?
ERROR edu.uci.ics.crawler4j.parser.Parser - Failed to detect the character
encoding of a document, while parsing
合并策略是
assemblyMergeStrategy in assembly := {
case PathList("META-INF", xs @ _*) => MergeStrategy.discard
case _ => MergeStrategy.first
}
发布于 2017-05-23 22:18:29
删除了合并策略,现在可以使用标准策略。这是从一个不好的例子中得到的。
https://stackoverflow.com/questions/44137182
复制相似问题