通过本次分享大家可以了解商业版Greenplum中的重要组件——GPText,它有着强大的并行化文本处理和分析计算能力。
GPText——大数据时代的数据库内文本分析扩展。众所周知,企业数据存储中有大量数据是文本数据,例如:文档,电子邮件,社交媒体,日志,运维和故障系统等。然而,公司无法解锁其文本数据的价值。随着文本数据量的增加,检索其中的关键数据的难度也会相应的越来越大。
目前,大多数公司分析文本数据需要将信息从源数据库移动到外部工作平台进行处理,然后将结果推送回数据库。此外,许多流行的文本分析工具不能扩展到生产大小的数据集,并且需要专业人员进行操作。而关系数据库技术也不适合处理文本数据。
下面我们来通过PPT的形式来看下GPText是如何处理文本数据的。
领取专属 10元无门槛券
私享最新 技术干货