首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    技术干货 | 如何做好文本关键词提取?从三种算法说起

    在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。 关于文本的关键词提取方法分为有监督、半监督和无监督三种: 1 有监督的关键词抽取算法 它是建关键词抽取算法看作是二分类问题,判断文档中的词或者短语是或者不是关键词

    014

    利用Word Embedding自动生成语义相近句子

    自然语言生成也是NLP中重要的一个方面,将来的计算机一定能够吟诗作对、写书画画,具有创造性,能够生成有创意的文化作品,让我们闭上眼一起来畅想一下美好的未来:在北京零下三十度的天气里,一层窗户玻璃之隔,好似天堂地狱之分,当此际,屋外滴水成冰,屋内温暖如春,你的机器姬望着屋外纷飞大雪,意兴大发,挥毫泼墨来幅浓墨重彩的中国风山水画,再即席赋诗一首题于其上,然后弹起了你心爱的土琵琶……..这该是怎样醉人的场景@^^@,到了那一天,很多三流诗人、作家、画家、书法家估计也得成为“供给侧改革”的牺牲品,时刻准备着下岗再就业。

    03

    程序员大数据智能分析唐诗朋友圈:李杜关系如何?谁是好基友?

    唐朝诗人最喜欢的季节是春天,最钟意的动物是龙、马,最喜欢提及的地名是江南…… 这不够,他还要告诉你全唐诗中排名第一的“好基友”是哪两位;初唐、盛唐、中唐、晚唐各时期诗坛社交网络如何,分别产生了以谁为中心的“朋友圈”……程序员的文章发表后,引发不凡的阅读量与回应,同时有人文领域的研究者指出其不足之处。高呼“代码改变世界”操之过急,技术的进步带给人文社科领域巨大的推力却是不争的事实:跨界研究有益亦有趣。 全唐诗作数量“无名氏”排第四 2017年2月26日,“前进四先生”终于在自己的微信公众号“前进日志”上贴

    04

    【NLP基础】NLP关键字提取技术之LDA算法原理与实践

    人们是如何从大量文本资料中便捷得浏览和获取信息?答案你肯定会说通过关键字。仔细想想,我们人类是怎么提取关键词?我们从小就接触语言,语法,当听到或者看到一句话时,我们大脑自动会对这句话按规则分词(小学是不是做过断句的训练),还记得语文老师讲过,一句话中主语(名词),谓语(动词),宾语(名词)通常就是重点,这样我们大脑从小就会根据词性和语法对句中词进行打标签,训练分类器,随着我们接触到的语料越来越多,分类器也越来越准确(如果你是从事语言学的,那你的分类器就更准)。仅仅通过词性和语法,会在长文本中出现一个问题,因为一篇文章中会出现很多主语,谓语,宾语,不可能所有的这些词都是关键词,这样我们大脑是怎么处理的,如果我们对一篇文章的背景和主题很熟悉的话,我们会很准确得从一篇文章中提取关键词,但当我们接触一篇比较陌生的文章,我们往往很难准确提取关键词。

    02
    领券