专栏首页腾讯云 Serverless 专栏Serverless实践系列(一):如何通过SCF与自然语言处理为网站赋能

Serverless实践系列(一):如何通过SCF与自然语言处理为网站赋能

自然语言的内容有很多,今天本文所介绍的自然语言处理部分是“文本摘要”和“关键词提取”。在做博客的时候,经常会发一些文章,这些文章发出去了,有的很容易被搜索引擎检索,有的则很难,那么有没有什么方法,让博客对搜索引擎友好一些呢?

一个比较好的方法就是填写网页的Description还有Keywords。但是每次都需要我们自己去填写,比较繁琐,本文将会分享一种方法:通过Python的jieba和snownlp实现关键词和文本摘要的自动提取。

准备资源

下载以下资源:

https://github.com/fxsjy/jieba
https://github.com/isnowfy/snownlp

下载之后,新建文件夹,将这些文件中对应的文件拷贝:

拷贝之后,建立文件index.py

# -*- coding: utf8 -*-import jsonimport jieba.analysefrom snownlp import SnowNLP
def FromSnowNlp(text, summary_num):    s = SnowNLP(text)    return s.summary(summary_num)
def FromJieba(text, keywords_type, keywords_num):    if keywords_type == "tfidf":        return jieba.analyse.extract_tags(text, topK=keywords_num)    elif keywords_type == "textrank":        return jieba.analyse.textrank(text, topK=keywords_num)    else:        return None
def main_handler(event, context):    text = event["text"]    summary_num = event["summary_num"]    keywords_num = event["keywords_num"]    keywords_type = event["keywords_type"]
    return {"keywords": FromJieba(text, keywords_type, keywords_num),            "summary": FromSnowNlp(text, summary_num)}

超简单的代码有没有!

上传文件

在SCF网页上面建立一个项目:

提交方法选择上传zip

然后压缩文件,并改名为index.zip:

测试

测试之前可以适当调整一下配置:

然后进行input模板的输入:

模板可以是:

{  "text": "前来参观的人群络绎不绝。在“两弹历程馆”里,讲解员龚照怡正在给参观的学生介绍:“这是我国第一颗核航弹的模型,长3米、直径1.5米左右,后面就是它爆炸时产生的蘑菇云。”学生们一边听一边认真记录。记者看到,馆内利用声、光、电等手段,通过实物、模型、影像资料和场景复原,展现“两弹”研制工作的艰辛历程。“算盘、计算尺这些文物都是激励后人艰苦奋斗的好教材。我们让文物‘回家’,让观众看到当年科研人员住什么样的房子,用什么样的用具,了解在那么艰苦的环境下,他们是怎样研制‘两弹’的,怎么样让中国挺起了民族的脊梁。”四川省梓潼两弹城红色旅游开发有限公司副总经理贾鲁蓉告诉记者,作为爱国主义教育基地,这里目前存有2万多份图片资料、500多万字文字资料、3000余件实物。在“两弹历程馆”的不远处是“将军楼”。1983年5月20日,时任国防部部长张爱萍将军来到长卿山视察中物院,看到科学家们在大山沟里艰苦卓绝地工作,即兴赋诗一首:“二十二年难忘情,崎岖道路信踏平。屡建奇功震寰宇,更创奇迹惊鬼神。”",  "summary_num": 5,  "keywords_num": 5,  "keywords_type": "tfidf"}

然后点击测试:

应用

至此,我们完成了简单的关键词提取功能和简单的抽取式文本摘要过程。当然,这部分依旧是一个简单的抛砖引玉,因为摘要这里还要声称是文本摘要,而且抽取式摘要也可能会根据不同的文章类型,有着不同的特色方法,所以这里只是通过一个简单的Demo来实现一个小功能,帮助大家做一个简单的SEO优化,大家可以在做博客的时候,增加keywords或者description字段,然后每次从sql获得文章数据的时候,将这两个部分放到meta中,会大大的提高页面被索引的概率哦!

本文分享自微信公众号 - ServerlessCloudNative(ServerlessGo)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基于 Serverless + 企业微信打造 nCoV 疫情监控小助手

    最近的一些疫情信息很让人揪心,为了方便大家掌握疫情信息,在空闲之余做了一个关于 nCoV 的疫情监控小助手。主要的功能是通过企业微信的 WebHook 来推送...

    腾讯云serverless团队
  • 基于 Node.js 的轻量级云函数功能实现

    导语 在万物皆可云的时代,你的应用甚至不需要服务器。云函数功能在各大云服务中均有提供,那么,如何用「无所不能」的 Node.js 实现呢? ---- 一、什么...

    腾讯云serverless团队
  • 前端学serverless系列——WebApplication迁移实践

    导语:说起当前最火的技术,除了最新的区块链,AI,还有一个不得不提的概念是Serverless。Serverless作为一种新型的互联网架构直接或间接推动了云计...

    腾讯云serverless团队
  • shell入门系列(四)case

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    suveng
  • 【深入浅出】| 基于深度学习的机器翻译(附PDF+视频下载)

    关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 源|将门创投 本文所分享的是清华大学...

    昱良
  • 安全渗透测试服务体系内容详情

    小小白承包了一块20亩的土地,依山傍水,风水不错。听朋友说去年玉米大卖,他也想尝尝甜头,也就种上了玉米。

    技术分享达人
  • Mac全栈开发-通用设置

    具体设置位置为:System Preferences > Network > Wi-Fi > Advanced > DNS

    用户1065635
  • 腾讯为人工智能泰斗颁发CCF终身成就奖

    1月31日,以“责任•创新•奉献”为主题的中国计算机学会(CCF)颁奖大会在京举行。中国科学院陆汝钤院士和清华大学张钹院士获得2014 CCF终身成就奖。腾讯公...

    腾讯高校合作
  • CCF终身成就奖:向人工智能泰斗陆汝钤院士、张钹院士致敬

      1月31日,以“责任·创新·奉献”为主题的中国计算机学会(CCF)颁奖大会在京举行。中国科学院陆汝钤院士和清华大学张钹院士获得2014 CCF终身成就奖。腾...

    腾讯研究院
  • 小白入门学习web前端,这些干货不能少

    入门级别指的是了解什么是前端(前端到底是什么其实很多人还是不清楚的),了解基本的html、css和javascript语法(这些语方面的东西网上随便搜一下就有很...

    用户5827212

扫码关注云+社区

领取腾讯云代金券