文智的专栏

8 篇文章
27 人订阅

全部文章

文智

【 文智背后的奥秘 】系列篇 : 分布式爬虫之 WebKit

WebKit 是由 Apple 公司开发的开源浏览器内核,WebKit 主要分为三个模块:WebCore、JavaScriptCore、平台应用相关Port。相...

2.7K1
文智

【文智背后的奥秘】系列篇:海量数据抓取

现有的研究、工程应用方向基本上都是围绕着大数据的存储 、计算等方面展开,本文重点围绕如何获取垂直海量数据展开讨论。

9.8K3
文智

【文智背后的奥秘】系列篇:基于 CRF 的人名识别

命名实体识别是自然语言处理领域的基础任务,对很多应用都有十分大的作用,比如信息检索,文本摘要等。

2.2K2
文智

【 文智背后的奥秘 】系列篇 : 自动文本分类

自动文本分类系统,为用户提供自动文本分类服务,平台已对文本分类的模型算法进行了封装,用户只需提供待分类的文本数据,而不必关注具体的实现,通过平台就能得到提供文本...

2.5K1
文智

【 文智背后的奥秘 】系列篇 :文本聚类系统

通过文本聚类的自动化流程,文本聚类用户可以挖掘出数据中的热门话题或热门事件,从而为用户对数据的分析提供重要的基础。本文下面先对文本聚类的主要算法作介绍,然后再具...

2.9K0
文智

【 文智背后的奥秘 】系列篇:关键词智能提取

目前,关键词自动标注方法分为两类:关键词分配,预先定义一个关键词词库,对于一篇文章,从词库中选取若干词语作为文章的关键词;关键词抽取,从文章的内容中抽取一些词语...

2.8K1
文智

【 文智背后的奥秘 】系列篇 :情感分类

情感分类是对带有感情色彩的主观性文本进行分析、推理的过程,即分析对说话人的态度,倾向正面,还是反面。它与传统的文本主题分类又不相同,传统主题分类是分析文本讨论的...

2.2K1
文智

【 文智背后的奥秘 】系列篇:结构化抽取平台

随着大数据时代的到来,一个大规模生成、分享、处理以及应用数据的时代正在开启。如果能将互联网上异源异构的非结构化或半结构化数据转换为更易处理的结构化数据,可以极大...

1.9K2

扫码关注云+社区