我试图从非结构化文本中提取信息。当被问及发布日期时,首席执行官给出了Q2 2021年的估计发布时间。我认为我需要注释我的数据集,然后使用NLP和学习工具,如spaCy、NLTK或Stanford从未来的示例中提取属性值对。我试图使用在线资源/教程,但它们似乎都专注于单独命名实体识别或提取基于字符串的实体的关系(例如,LOC:Paris,REL:is capital of,LOC:France)。我需要<em
ENTITY foo SYSTEM "http://example.org/myent.ent">
我实际上是读取XHTML源代码的片段(包含命名实体),因此需要定义/识别XML1.0/命名为的。(我在询问如何在设置读取片段的XmlReader及其设置时以编程方式引用它们;不过,我对选项很开放)。无论哪种方式,如果我不包括这些命名实体,读者就会咳嗽并产生.NET错误,例如&am