首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

达观数据告诉你机器如何理解语言 -中文分词技术

前言 中文分词算法是指将一个汉字序列切分成一个一个单独的词,与英文以空格作为天然的分隔符不同,中文字符在语义识别时,需要把数个字符组合成词,才能表达出真正的含义。分词算法是文本挖掘的基础,通常应用于自然语言处理、搜索引擎、智能推荐等领域。 一、分词算法分类 中文分词算法大概分为三大类。 第一类是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,比如机械分词方法。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。 第二类是基于统计以及机器学习的分词方法,

07

投稿 | 机器如何理解语言—中文分词技术

前言 中文分词算法是指将一个汉字序列切分成一个一个单独的词,与英文以空格作为天然的分隔符不同,中文字符在语义识别时,需要把数个字符组合成词,才能表达出真正的含义。分词算法是文本挖掘的基础,通常应用于自然语言处理、搜索引擎、智能推荐等领域。 一、分词算法分类 中文分词算法大概分为三大类: 第一类是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词典中的词相同,就算匹配,比如机械分词方法。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等。 第二类是基于统计以及机器学习的分词方法,

05

深入浅出:隐马尔科夫模型

隐马尔科夫模型(Hidden Markov Model,HMM),和回归、分类那些处理相互独立的样本数据的模型不同,它用于处理时间序列数据,即样本之间有时间序列关系的数据。从这一点来说,它和卡尔曼滤波算法很像。事实上,HMM和卡尔曼滤波的算法本质是一模一样的,只不过HMM要假设隐藏变量是离散的,而卡尔曼滤波假设隐藏变量是连续的。隐藏变量是HMM里的关键概念之一,可以理解为无法直接观测到的变量,即HMM中Hidden一词的含义;与之相对的是观测变量,即可以直接观测到的变量;HMM的能力在于能够根据给出的观测变量序列,估计对应的隐藏变量序列是什么,并对未来的观测变量做预测。

04

最小二乘法 原理_高斯最小二乘法原理

概念:最小二乘法是一种熟悉而优化的方法。主要是通过最小化误差的平方以及最合适数据的匹配函数。 作用:(1)利用最小二乘法可以得到位置数据(这些数据与实际数据之间误差平方和最小)(2)也可以用来曲线拟合 实例讲解:有一组数据(1,6),(3,5),(5,7),(6,12),要找出一条与这几个点最为匹配的直线 : y = A + Bx 有如下方程: 6 = A + B 5 = A + 3B 7 = A + 5B 12 = A + 6B 很明显上面方程是超定线性方程组,要使左边和右边尽可能相等;采用最小二乘法: L(A,B)=[6-(A + B)]^2 + [5-(A + 3B)]^2 + [7-(A + 5B)]^2 +[12-(A + 6B)]^2使得L的值最小:这里L是关于A,B的函数;那么我们可以利用对A,B求偏导,进而求出A,B的值使得Lmin

05

《机器学习》笔记-概率图模型(14)

如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还是自身充电,跟上潮流,我觉得都值得试一试。对于自己,经历了一段时间的系统学习(参考《机器学习/深度学习入门资料汇总》),现在计划重新阅读《机器学习》[周志华]和《深度学习》[Goodfellow et al]这两本书,并在阅读的过程中进行记录和总结。这两本是机器学习和深度学习的入门经典。笔记中除了会对书中核心及重点内容进行记录,同时,也会增加自己的理解,包括过程中的疑问,并尽量的和实际的工程应用和现实场景进行结合,使得知识不只是停留在理论层面,而是能够更好的指导实践。记录笔记,一方面,是对自己先前学习过程的总结和补充。 另一方面,相信这个系列学习过程的记录,也能为像我一样入门机器学习和深度学习同学作为学习参考。 章节目录

03

分析师入门常见错误 "幸存者偏差",如何用匹配和加权法规避

在日常功能迭代分析中,一般会直接看使用该功能和未使用该功能的用户在成功指标上的表现,将两组数据求个差异值就得出功能的效果结论。但是有敏锐的分析师会发现,功能大部分情况下有筛选效应,即使用该功能的用户可能本身质量比较高,活跃比较频繁。用以上的方法估计会导致效果评估失真,那么如何规避混杂因素导致的幸存者偏差。优先考虑的做法是探究一些相关关系因素,用 A/B 测试验证,把因果推断作为备选或探索式分析的手段,但有些场景无法进行 A/B 测试。这里介绍因果推断中的两个方法——匹配和逆概率加权。并将其和直接回归方法的结论进行对比,看看相关和因果的结论到底会差异多少。

02
领券