我正在努力寻找一个包含来自不同兴趣领域(例如,神经科学、数学、物理、历史、生物学、医学等)的科学论文的数据集。为了开发一个NLP项目,旨在总结科学文本,同时将特定领域的术语转换为更常见的单词。
有人知道我在哪里可以找到这样的数据集吗?
发布于 2021-08-28 13:18:15
byarmancohan should do.提供的5 5GB数据集
正如他所指出的:
提供了两个长的结构化文档(科学论文)的数据集。数据集从ArXiv和PubMed OpenAccess存储库获得。
或者直接从TensorFlow datasets得到。
https://stackoverflow.com/questions/68938478
复制相似问题