笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP
1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。 2 什么是自然语言处理? 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。 自然语言处理原理:形式化描述-数学模型算法化-程序化-实用化 语音的自动合成与识别、机器翻译、自然语言理解、
关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。
如果让你来设计一个算法来分析以下段落,你会怎么做? Emma knocked on the door. No answer. She knocked again and waited. There was a large maple tree next to the house. Emma looked up the tree and saw a giant raven perched at the treetop. Under the afternoon sun, the raven gleamed ma
一直想写些东西来记录我的机器学习之路(包括学术和工业),经过N多次决定,终于下定决心把自己积累的点点滴滴保存下来,一方面帮助自己更好的归纳之前研究和使用过的技术,另一方面希望大家多多提出宝贵意见,一起学习进步,有说的不对的地方还请多多包涵。
摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛。笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文章全部看了一遍做个整理,也可以称之为概述。关于这些问题,博客里面都有详细的文章去介绍,本文只是对其各个部分高度概括梳理。 转载:理想者的辩证思维 http://www.cnblogs.com/baiboy/p/learnnlp.html 1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪
假设检验的核心其实就是反证法。反证法是数学中的一个概念,就是你要证明一个结论是正确的,那么先假设这个结论是错误的,然后以这个结论是错误的为前提条件进行推理,推理出来的结果与假设条件矛盾,这个时候就说明这个假设是错误的,也就是这个结论是正确的。以上就是反证法的一个简单思路。 了解完反证法以后,我们开始正式的假设检验,这里还是引用一个大家都很熟悉的一个例子『女士品茶』。 女士品茶是一个很久远的故事,讲述了在很久很久以前的一个下午,有一群人在那品茶,这个时候有位女士提出了一个有趣的点,就是把茶加到奶里和把奶加到茶
该论文名为《Relationship between the ABO Blood Group and the COVID-19 Susceptibility》,论述了武汉金银潭医院、南方科技大学、上海交大、武汉中南医院等8家单位的最新研究成果——A、B、AB和O型这几种不同血型与新冠肺炎易感性存在的关联。
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 一、关键词提取概述 关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。 从算法的角度来看,关键词提取算法主要有两类:无监督关键词提取方法和有监督关键词提取方法。 1、无监督关键词提取方法 不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进
【机器学习 | 假设检验系列】假设检验系列—卡方检验(详细案例,数学公式原理推导),最常被忽视得假设检验确定不来看看? 作者: 计算机魔术师 版本: 1.0 ( 2023.8.27 )
上次写了统计学里面的置信度与置信区间以后,文章反响还不错,这次再来试着写写统计学里面的假设检验。点击查看:聊聊置信度与置信区间
AI 科技评论按:在近些年的自然语言处理研究中,「词类比」是一个十分有趣的现象,最经典的例子莫过于「国王-男人+女人=皇后」。然而,如何将神经网路的黑盒拆开从而解释这一神奇的现象,一直都是有待探索的有趣的科学问题。近日,ACL 2019 上一篇名为「Towards Understanding Linear Word Analogies」(https://arxiv.org/abs/1810.04882)的论文对该问题进行了探究,从 csPMI 理论的角度对此进行了解释。
随着互联网的普及和电子商务的快速发展,网络购物已成为大学生日常生活中不可或缺的一部分。大学生作为网络购物的主体力量,其消费观念、行为特征以及影响因素对于电子商务行业的发展具有重要的研究价值。因此,本文旨在通过问卷调查的方式,帮助客户对大学生网络购物行为进行深入调查与分析,以期为电子商务企业提供有针对性的市场策略建议(点击文末“阅读原文”获取完整代码数据)。
翻译自:https://iksinc.online/tag/continuous-bag-of-words-cbow/
概率与分布 硬币的例子 正态曲线 推论统计 检验方法 参数检验 两个独立群体均值的t检验 概述 效应量 相关群体均值的t检验 简单方差分析 析因分析 相关系数 线性回归 检验和测量 信度和效度 测量尺
显然"西安在去哪"是一句极其别扭不通的句子,所以我们会很自然的选择输出"现在去哪",但是输入法没有我们那么智能能够一下子就判断出要输出哪一句话,输入法会计算出两个句子的概率值,然后通过比较选择概率值大的句子作为最终的输出结果,计算句子概率值的工具就是语言模型。
word2vec(W2V)这类神经网络生成的词嵌入以其近似线性的特性而闻名,比如「女人之于王后就像男人之于国王」这种类比嵌入,描述了一种近似平行四边形的结构。
计算句子概率值的工具就是语言模型,但是随着句子长度的逐渐增大,语言模型会遇到下面两个问题:
技术点:ctr预估,learning to rank,排序模型指标评测,逻辑回归,gbdt
我们再在进行数据分析时,简单的数据分析不能深刻的反映一组数据得总体情况,倘若我们用统计学角度来分析数据则会解决一些平常解决不了得问题.
词袋模型是一种在使用机器学习算法建模文本时表示文本数据的方式; 易于理解和实现,并且在语言建模和文档分类等问题上取得了巨大成功。
医疗研究会产生大量不同类型的数据,最容易识别的是定量的数据。例如,直腿抬高 (SLR) 的受试者能够将腿抬高大于 0 度,这让我们可以计算两组的平均 SLR,并进行 t 检验。但并不是所有的数据都有这种定量特性。
论文:Graph Convolutional Networks for Text Classification. Liang Yao, Chengsheng Mao, Yuan Luo∗.
统计测试最常见的领域之一是测试列联表中的独立性。在这篇文章中,我将展示如何计算列联表,我将在列联表中引入两个流行的测试:卡方检验和Fisher精确检验。
注意:如果您正在查找调查报告,此博客文章也可作为arXiv上的一篇文章。
paper: Contextualized Weak Supervision for Text Classification
当我们想要切入某个领域时,显然这个领域已经有大量前人的工作,包括大家常用的模型、数据集、评价指标等等,初出茅庐的你却不知道这些大家习以为常的背景知识,那么如何才能快速切入一个子领域呢?
作为一名数据科学家,文本数据提出了一个独特的挑战:虽然金融、年龄和温度数据可以立即被注入线性回归,但词汇和语言本身对统计模型毫无意义。
一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个。通俗点说,就是拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育。文本分类是一个监督学习的过程,常见的应用就是新闻分类,情感分析等等。其中涉及到机器学习,数据挖掘等领域的许多关键技术:分词,特征抽取,特征选择,降维,交叉验证,模型调参,模型评价等等,掌握了这个有助于加深对机器学习的的理解。这次我们用python的scikit-learn模块实现文本分类。
作者:王千发 编辑:李文臣 什么是文本分类 一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个。通俗点说,就是拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育。文本分类是一个监督学习的过程,常见的应用就是新闻分类,情感分析等等。其中涉及到机器学习,数据挖掘等领域的许多关键技术:分词,特征抽取,特征选择,降维,交叉验证,模型调参,模型评价等等,掌握了这个有助于加深对机器学习的的理解。这次我们用python的scikit-learn模块实现文本分类。 文本分类的过程 首先是获取数据集,为
摘要 随着大型语言模型(LLM)的快速发展,许多下游的 NLP 任务都可以在友善的提示(即Prompt,是用户或程序向LLM AI 提供的输入或查询)下得到很好的解决。尽管模型开发人员和研究人员在对话安全性方面做了大量工作以避免从语言模型生成有害文字,但要引导 AI 生成内容 (AIGC,AI-Generated Content) 造福于人类仍然具有挑战性。由于强大的 LLM 正在收集来自各个领域的现有文本数据(例如,GPT-3 是在 45TB的文本上训练的),公众很自然地怀疑隐私信息是否包含在训练数据
假设指的是当我们没有足够的证据支持一个结果时,先可以假定一个结果。这个事先给出的假定结果,就叫做原假设(或零假设, H0),同时提出与之相对应的假设,叫做备择假设(H1)。
将词语表示为向量的技术并不是最近几年的新思想。例如向量空间模型将词表示为词典维度的高维向量。这种表示带来的问题主要包括两个方面。一方面词与词之间相互独立,无法表达词语之间的关系。另一方面向量过于稀疏,计算和存储的效率都不高。
在机器学习领域通常会根据实际的业务场景拟定相应的不同的业务指标,针对不同机器学习问题如回归、分类、排序,其评估指标也会不同。
spss中交叉分析主要用来检验两个变量之间是否存在关系,或者说是否独立,其零假设为两个变量之间没有关系。在实际工作中,经常用交叉表来分析比例是否相等。例如分析不同的性别对不同的报纸的选择有什么不同。
word2vector已经成为NLP领域的基石算法。作为一名AI 从业者,如果不能主动去熟悉该算法,应该感到脸红。本文是一篇翻译的文章,原文链接是:http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/ 如果你的英语很好,强烈建议直接阅读原文。这篇文章写的非常好,简明扼要,语言流畅。是我认为入门word2vector的最好文章,没有之一。当然,我也不是生硬的翻译,而是理解之后按照自己的逻辑再写出来,希望能更加清晰一些。
给定一个英文语料库,里面有很多句子,已经做好了分词,/前面的是词,后面的表示该词的词性并且每句话由句号分隔,如下图所示
接上一期的分享,今天继续学习统计学的相关知识,今天涉及到的五个知识点主要包括离散型概率分布、连续型概率分布、假设检验、假设检验的运用(一类错误与二类错误)以及相关、因果以及回归关系。
在企业人工智能中,有两种主要类型的模型:判别式和生成式。判别式模型用于对数据进行分类或预测,而生成式模型用于创建新数据。尽管生成式 AI 近来占据新闻头条,但企业仍在追求这两种类型的 AI。
链接:https://www.jianshu.com/p/1405932293ea
自然语言处理(Natural Language Processing,NLP)是一门融合了计算机科学、人工智能及语言学的交叉学科,它们的关系如下图所示。这门学科研究的是如何通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标–理解人类语言或人工智能。
前些日子,星球里讨论风控建模面试中的一些问题,其中就提到了 “卡方分箱”。大家对卡方分箱都有或多或少的疑问,应星球朋友要求,最近整理了一下我对卡方分箱的理解,也借此分享给公众号的朋友们。
也许所有机器学习的初学者,或者中级水平的学生,或者统计专业的学生,都听说过这个术语,假设检验。
下图展示了完整的 tokenization 流程,接下来会对每个步骤做进一步的介绍。
由于疫情的原因,全球计算机领域的顶会之一,第58届国际计算语言学年会ACL2020今年改成了线上会议,会议时间从7月5日持续到7月10日。
领取专属 10元无门槛券
手把手带您无忧上云