我正在尝试用NLP做一个项目。我的目标是处理像这这样的网络威胁情报文章,以提取诸如演员姓名、恶意软件和使用…的工具等信息
为了做到这一点,我想用纳。然而,网络上没有培训数据。因此,我想知道我是否应该手动处理10-20篇文章来生成我的培训数据,或者我是否可以做一些事情,比如只使用一些有趣的行,比如在倍数文章中使用“Rancor conducted at least two rounds of attacks intending to install Derusbi or KHRat malware on victim systems”,并将组名替换为另一个参与者。这样,我就可以用已知演员的数量去