首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

数据划分

这段时间在研究自然语言处理的相关问题,主要是学习如划分数据,尝试过利用机器学习中的相关知识建立模型对数据进行评分后加以划分,但是由于语料库的不足导致训练出的模型对数据的区分度不够,另一方面也是因为部分数据比较‘刁钻’难以以正常方法区分。后来尝试过调用百度的词法分析,利用百度平台现成的技术对数据做初步处理,然后再进一步处理,这样会大大降低数据划分的难度。做到后面发现百度的词法分析存在太多不足,许多作品、名人以及地名都不能很好得到识别,基于百度词法分析得出数据划分结果正确率只能维持在85%上下,很难再得到提高。后面也试过利用boson平台的相关技术,和百度一样也存在很多不足。经过一番思考决定建立一套自己的数据划分流程,写下这篇博客用以记录。

01
领券