前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >【说站】Python中Tf-idf文本特征的提取

【说站】Python中Tf-idf文本特征的提取

作者头像
很酷的站长
发布于 2022-11-26 02:15:24
发布于 2022-11-26 02:15:24
88300
代码可运行
举报
运行总次数:0
代码可运行

Python中Tf-idf文本特征的提取

说明

1、TF-IDF是如果词或词组出现在文章中的概率较高,而在其他文章中很少出现,那么它就被认为具有很好的类别区分能力,适合进行分类。

2、提取文本特征,用来评估字词对文件集或某个语料库中文件的重要性。

实例

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def tfidf_demo():
    """
    用tfidf的方法进行文本特征提取
    :return:
    """
    # 1.将中文文本进行分词
    data = ["一种还是一种今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。",
            "如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    # print(data_new)
    # 2.实例化一个转换器类
    transfer = TfidfVectorizer(stop_words=["一种", '因为'])
    # 3.调用fit_transform
    data_final = transfer.fit_transform(data_new)
    print("data_new:\n", data_final.toarray())
    print("特征名字:\n", transfer.get_feature_names())
    return None

以上就是Python中Tf-idf文本特征的提取,希望对大家有所帮助。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验