我需要将维基百科的修订历史加载到POJO中,所以我使用JAXB来解锁wikipeida数据转储(好吧,它的各个页面)。问题是文本节点偶尔包含没有在wikipedia xml转储中定义的实体。‘°’请记住,我不知道我需要阅读的一整套实体。我的输入文件是3tb,所以让我们假设html可以呈现的所有内容都在那里。)Exception in thread "m
我有一个未压缩的Wikipedia转储文件,大约75 GB (压缩后:大约16 GB)。我尝试过使用类似以下内容的东西
for event, elem in iterparse('enwiki-latest-pages-articles-multistream.xml问题是,我不想要这个转储中的所有数据(假设大约1000M行) --我只想过滤几个实体。但要做到这一点,我必须先读一遍,对吧?这似乎就是导致内核