首页
学习
活动
专区
工具
TVP
发布

文智的专栏

专栏作者
8
文章
41591
阅读量
29
订阅数
【 文智背后的奥秘 】系列篇 : 分布式爬虫之 WebKit
本文介绍了一种基于Qt的Webkit框架实现的浏览器方案,该方案可以加载和渲染网页,支持JavaScript等脚本语言的解析,实现了对网页的爬取和模拟点击等操作。该方案具有高度可扩展性和可定制性,可以广泛应用于各种不同的应用场景。
文智
2016-10-11
4.5K0
【文智背后的奥秘】系列篇:海量数据抓取
文智
2016-10-10
11.6K2
【文智背后的奥秘】系列篇:基于 CRF 的人名识别
本文介绍了基于条件随机场(CRF)的人名识别技术。首先介绍了命名实体识别的任务,然后阐述了基于CRF的人名识别方法,包括特征选择、语料获取等。最后通过实验验证了该方法的性能,并在开放集合上达到了96%的准确率和89%的召回率。
文智
2016-10-09
3.7K0
【 文智背后的奥秘 】系列篇 : 自动文本分类
本文讲述了一种基于自然语言处理的文本分类系统,通过使用朴素贝叶斯、规则引擎、主题模型等算法,实现对互联网文本的快速分类。系统具有良好的扩展性,支持快速更新,可以应用在多种场景中。
文智
2016-10-08
4.3K3
【 文智背后的奥秘 】系列篇 :文本聚类系统
本文介绍了基于Spark的LDA主题模型在文本聚类分析中的应用,通过与其他常见聚类算法进行比较,展示了其在处理大规模文本数据时的效率和准确性。同时,文章还介绍了文智平台在支持多语言、处理多主题、提供可视化界面等方面的特点。
文智
2016-09-29
5.1K0
【 文智背后的奥秘 】系列篇:关键词智能提取
文智
2016-09-29
4.7K0
【 文智背后的奥秘 】系列篇 :情感分类
本文介绍了文智平台情感分类系统,该系统主要基于深度学习技术,针对互联网产品、新闻、影视等领域的评论进行情感倾向分析。系统通过自然语言处理技术对文本进行预处理、特征提取、分类器等模块,最终输出情感分类结果。系统还介绍了在垂直领域的应用,如电影评论、电商评论等,并给出了相应的系统架构设计、算法细节等。
文智
2016-09-29
4K3
【 文智背后的奥秘 】系列篇:结构化抽取平台
随着大数据时代的到来,一个大规模生成、分享、处理以及应用数据的时代正在开启。如果能将互联网上异源异构的非结构化或半结构化数据转换为更易处理的结构化数据,可以极大的降低获取数据的门槛,为信息检索和数据挖
文智
2016-09-29
3.6K0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档