首页
学习
活动
专区
工具
TVP
发布

达观数据

专栏成员
116
文章
159224
阅读量
39
订阅数
干货分享 | 人工智能如何驱动未来教育发展?
ABOUT 1月13日下午,在沪江北京研发中心、沪江智能学习实验室和CCtalk在京举办的“智能引擎,驱动教育”技术沙龙中,达观数据创始人&CEO陈运文作为受邀嘉宾,在大会上进行了《文本智能处理在教育行业的应用》的演讲,与来自云知声等企业嘉宾共话智能驱动下的教育未来发展,上百位在线教育行业技术大咖共议智能技术在教育行业的应用。 我们日常工作中不管是做教育还是接受完教育后踏上工作岗位,都会面临各种各样的文档资料和文本数据。 大家每天都在看的各种媒体内容,公司里大量的公文和办公资料,如果涉及到和客户打交道
达观数据
2018-04-02
7720
技术干货 | 搜索那点事儿:Lucene文件存储和读取技术详解
作者简介 ---- 刘光敏: 达观数据搜索组研发技术人员,负责搜索引擎架构的设计和研发,搜索集群健康状况监控模块的开发及维护等。 ---- Lucene是一个高性能、可伸缩的信息搜索(IR)库。它可以为你的应用程序添加索引和搜索能力。Lucene是用java实现的、成熟的开源项目,是著名的Apache Jakarta大家庭的一员,并且基于Apache软件许可。 同样,Lucene是当前非常流行的、免费的Java信息搜索(IR)库。Lucene的检索算法属于索引检索,即用空间来换取时间,对需要检索的文
达观数据
2018-03-30
1.6K0
技术干货 | 搜索引擎之倒排索引解读
互联网时代,信息纷繁海量,人们通过搜索引擎直达“心中所想”已是常态。那么搜索引擎到底是如何高效查找目标内容呢?本文主要介绍搜索引擎里一个比较重要的结构——倒排索引。 1 倒排索引简介 倒排索引(英文:Inverted Index),是一种索引方法,常被用于全文检索系统中的一种单词文档映射结构。现代搜索引擎绝大多数的索引都是基于倒排索引来进行构建的,这源于在实际应用当中,用户在使用搜索引擎查找信息时往往只输入信息中的某个属性关键字,如一些用户不记得歌名,会输入歌词来查找歌名;输入某个节目内容片段来查找该
达观数据
2018-03-30
1.9K0
案例 | 二层楼书院签约达观数据,推荐引擎让阅读有个性
近几年,网络文学的发展进入空前繁盛的阶段,纵观市场上热播的影视作品,有近80%皆改编自网络文学。近日,最受新生代群体欢迎的阅读平台二层楼书院与达观数据正式签约,通过接入达观的个性化推荐引擎,为读者提供更”对味”的小说和书籍。 二层楼书院作为一家新生代群体阅读平台,拥有庞大的作家资源,其文学的内容多元,涉及历史,玄幻,都市,军事,游戏,竞技,灵异,科幻多种题材的小说。与此同时,二层楼书院也非常注重用户体验,一直致力于为网络文学爱好者们打造最便捷的创作平台和最舒适的阅读环境。 为何选择达观? 显著的
达观数据
2018-03-30
7280
达观数据搜索引擎排序实践(上篇)
前言 随着互联网的深入发展,人类已然进入大数据时代。如何在浩瀚的数据海洋里高速有效的获取有价值的信息,正是促使大数据技术具备走向众多企业的潜力。搜索引擎作为获取信息的有效入口,已然经历了20多年的发展,并一直试图理解用户搜索意图以及提升搜索的精准性。 Google是全球性的搜索引擎,看似简单的搜索框背后隐藏的是极其复杂的系统架构和搜索算法,其中排序(以下统称Ranking)的架构和算法更是关键部分。Google正是通过PageRank算法深刻改变搜索排序而一举击败众多竞争对手。 Ranking是搜索引擎的核
达观数据
2018-03-30
1.6K0
达观数据搜索引擎排序实践(下篇)
机器学习排序 机器学习排序(Machine Learning to rank, 简称MLR) 机器学习排序系统框架 机器学习排序系统一般分为离线学习系统和在线预测排序系统。离线系统的设计需要靠特征的选
达观数据
2018-03-30
1.3K0
达观数据告诉你机器如何理解语言 -中文分词技术
前言 中文分词算法是指将一个汉字序列切分成一个一个单独的词,与英文以空格作为天然的分隔符不同,中文字符在语义识别时,需要把数个字符组合成词,才能表达出真正的含义。分词算法是文本挖掘的基础,通常应用于自然语言处理、搜索引擎、智能推荐等领域。 一、分词算法分类 中文分词算法大概分为三大类。 第一类是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,比如机械分词方法。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。 第二类是基于统计以及机器学习的分词方法,
达观数据
2018-03-30
1.2K0
技术干货 |“搜你所想”之用户搜索意图识别
人类自诞生以来就伴随着各种信息的生产和获取,如今这个信息爆炸的 DT 时代,人们更是被各种信息所包围。我们知道,人获取信息的方式主要有被动获取和主动获取两种,其中被动获取就是推荐的方式、主动获取就是搜索的方式。 获取信息是人类认知世界、生存发展的刚需,搜索就是最明确的一种方式,其体现的动作就是“出去找”,找食物、找地点等,到了互联网时代,搜索引擎(Search Engine)就是满足找信息这个需求的最好工具,你输入想要找的内容(即在搜索框里输入查询词,或称为 Query),搜索引擎快速的给你最好的结果,
达观数据
2018-03-30
8K0
达观数据搜索引擎的Query自动纠错技术和架构详解
达观数据搜索引擎 Query自动纠错技术和架构 1 背景 如今,搜索引擎是人们的获取信息最重要的方式之一,在搜索页面小小的输入框中,只需输入几个关键字,就能找到你感兴趣问题的相关网页。搜索巨头Google,甚至已经使Google这个创造出来的单词成为动词,有问题Google一下就可以。在国内,百度也同样成为一个动词。除了通用搜索需求外,很多垂直细分领域的搜索需求也很旺盛,比如电商网站的产品搜索,文学网站的小说搜索等。面对这些需求,达观数据(www.datagrand.com)作为国内提供中文云搜索服务的
达观数据
2018-03-30
3.2K0
达观数据阐述推荐系统和搜索引擎的关系
从信息获取的角度来看,搜索和推荐是用户获取信息的两种主要手段。无论在互联网上,还是在线下的场景里,搜索和推荐这两种方式都大量并存,那么推荐系统和搜索引擎这两个系统到底有什么关系?区别和相似的地方有哪些
达观数据
2018-03-30
1K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档