专栏首页Jerry的SAP技术分享在SAP HANA Express Edition里进行文本分析
原创

在SAP HANA Express Edition里进行文本分析

这个练习会使用SAP HANA Express Edition的文本语义分析引擎对JSON格式的documents进行语义分析。

首先创建一个column table,对其index开启fuzzy text search(模糊搜索)功能。

上述描述的操作可以用下面的SQL语句来完成:

create column table food_analysis
(
	name nvarchar(64),
	description text FAST PREPROCESS ON FUZZY SEARCH INDEX ON
);

其中description字段开启了模糊搜索功能。

将存储于名为doc_store的document store collection里的json key-value键值对拷贝到刚刚创建的数据库表里:

insert into food_analysis
with doc_store as (select "name", "description" from food_collection)
select doc_store."name" as name, doc_store."description" as description
from doc_store;

执行上述的sql语句,确保数据全部拷贝到数据库表food_analysis中:

使用下列的sql语句对description字段进行模糊搜索:

select  name, score() as similarity, TO_VARCHAR(description)
from food_analysis
where contains(description, 'nuts', fuzzy(0.5,'textsearch=compare'))
order by similarity desc

执行结果:

HANA Express Edition里的linguistic 文本分析步骤也比较简单。

首先还是创建一个数据库表:

create column table food_sentiment
(
	name nvarchar(64) primary key,
	description nvarchar(2048)
);

将document store里的json数据拷贝到数据库表里:

insert into food_sentiment
with doc_store as (select "name", "description" from food_collection)
select doc_store."name" as name, doc_store."description" as description
from doc_store;

针对description字段创建一个新的index:

CREATE FULLTEXT INDEX FOOD_SENTIMENT_INDEX ON "FOOD_SENTIMENT" ("DESCRIPTION")
CONFIGURATION 'GRAMMATICAL_ROLE_ANALYSIS'
LANGUAGE DETECTION ('EN')
SEARCH ONLY OFF
FAST PREPROCESS OFF
TEXT MINING OFF
TOKEN SEPARATORS ''
TEXT ANALYSIS ON;

上述SQL语句会自动创建一个名为$TA_FOOD_SENTIMENT_INDEX的文本分析表:

该表里的内容:

由此可以发现,之前我们导入到数据库表里的英文句子,被HANA text engine拆解成单词,并且每个单词的词性也自动被HANA解析出来了。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 在SAP HANA Express Edition里进行文本分析

    这个练习会使用SAP HANA Express Edition的文本语义分析引擎对JSON格式的documents进行语义分析。

    Jerry Wang
  • SAP Analytics Cloud导入数据的规模限制

    SAP Analytics Cloud部署在SAP Cloud Platform的Neo或者CloudFoundry环境上:

    Jerry Wang
  • ABAP webdynpro的view navigation和WebUI的view navigation

    虽然ABAP webdynpro已经不是SAP未来主流的UX技术,但是在很多老的模块里使用还是很广泛。

    Jerry Wang
  • 在SAP HANA Express Edition里进行文本分析

    这个练习会使用SAP HANA Express Edition的文本语义分析引擎对JSON格式的documents进行语义分析。

    Jerry Wang
  • Python Logging库HTTP

    Python的logging库是标准库中用来实现日志的库,功能强大,而且使用起来也算是方便。该库提供了很多个不同的Handler,用来对日志进行不同的处理。例如...

    py3study
  • 影响SDN和NFV部署速度的两个因素

    不同服务提供商在SDN和NFV的部署速度上有所差异,主要基于以下两个原因:组织自身的业务考虑及进展缓慢的标准化。 近期对软件定义网络(SDN)和网络功能虚拟化(...

    SDNLAB
  • QQ聊天窗口发送URL显示简介自定义分类目录文章标签友情链接联系我们

    用户1246209
  • SDN和NFV兴起 看网络运营商市场新变化

    编者按:网络改变了人类的生活,但是随着云计算、大数据等新技术的兴起,网络逐渐成为新技术发展的瓶颈,而SDN/NFV的出现有效地改善了运营商所面临的困境,据201...

    SDNLAB
  • 应用尚早!2016年SDN和NFV仍将继续PoC

    最近两年,软件定义网络SDN和网络功能虚拟化NFV的确是火得“一塌糊涂”,以至于有些调研机构在2014年底就预计SDN和NFV将在2015年全面商用。然而到了2...

    SDNLAB
  • 算法工程师-SQL进阶:神奇的自连接与子查询

    自连接与子查询是SQL中非常重要的两项技术,自连接是针对相同的表的联结方法,是SQL语言面向集合编程思想的集中体现,而子查询有很多变式,关联子查询技术是在实际中...

    小萌哥

扫码关注云+社区

领取腾讯云代金券