首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    算法集锦(17)|自然语言处理| 比特币市场情绪分析算法

    本次算法分享,我们提供了一种可以通过Twitter(或微博)信息进行加密货币市场预测的方法。该方法利用Twitter上的数据来预测人们对加密货币市场的情绪:贪婪?恐惧还是观望? ?...具体的,我们可以使用像TextBlob这样的Python NLP(自然语言处理库)来评估语句是正面的还是负面的。...总的来说,本算法主要有两个流程: 获取微博信息 将微博信息作为字符串输入TextBlob,并估算其极性 ?...算法基本内容 在此,我们并不重点分析市场的情绪如何,而是讨论的是如何收集和分析我们的数据。...以上是本算法的基本内容,你可以参考本算法去评估更多的市场行为。 对于本算法的优化,可行的方向有:使用机器学习模型来细化极性输出或者使用极性作为其他机器学习模型的输入,等等。

    1.4K10

    非主流自然语言处理——遗忘算法系列(一):算法概述

    一、前言 这里“遗忘”不是笔误,这个系列要讲的“遗忘算法”,是以牛顿冷却公式模拟遗忘为基础、用于自然语言处理(NLP)的一类方法的统称,而不是大名鼎鼎的“遗传算法”!   ...在“遗忘”这条非主流自然语言处理路上,不知不觉已经摸索了三年有余,遗忘算法也算略成体系,虽然仍觉时机未到,还是决定先停一下,将脑中所积梳理成文,交由NLP的同好们点评交流。...在自然语言处理中,很多对象比如:词、词与词的关联、模板等,都具备按相对稳定重现的特征,因此非常适用遗忘来处理。 三、牛顿冷却公式   那么,我们用什么来模拟遗忘呢?   ...四、已经实现的功能 如果把自然语言处理比作从矿砂中淘金子,那么业界主流算法的方向是从矿砂中将金砂挑出来,而遗忘算法的方向则是将砂石筛出去,虽然殊途但同归,所处理的任务也都是主流中所常见。   ...本系列文章将逐一讲解遗忘算法如何以O(N)级算法性能实现:   1、大规模语料词库生成 1.1、跨语种,算法语种无关,比如:中日韩、少数民族等语种均可支持 1.2、未登录词发现(只要符合按相对稳定周期性重现的词汇都会被收录

    1.9K120

    某公司自然语言处理算法笔试题

    1 请列出几种文本特征提取算法 答:文档频率、信息增益、互信息、X^2统计、TF-IDF 2 简述几种自然语言处理开源工具包 答:LingPipe、FudanNLP、OpenNLP、CRF++、Standord...CoreNLP、IKAnalyzer 3 简述无监督和有监督算法的区别 答: (1)有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。...PS:部分带标记的是半监督学习 (3)训练集有输入有输出是有监督,包括所有的回归算法分类算法,比如线性回归、决策树、神经网络、KNN、SVM等;训练集只有输入没有输出是无监督,包括所有的聚类算法,比如k-means...、PCA、 GMM等 4 请简述几种熟悉的分类算法 答:kNN,kMeans,决策树,随机森林等 5 以下代码是Java实现中文分词,请简述分词过程 public class SplitChineseCharacter

    73270

    Python NLTK自然语言处理:词干、词形与MaxMatch算法

    Python自然语言处理:词干、词形与MaxMatch算法 自然语言处理中一个很重要的操作就是所谓的stemming 和 lemmatization,二者非常类似。...我们会在后面给出一个同MaxMatch算法相结合的更为复杂的例子。...3、最大匹配算法(MaxMatch) MaxMatch算法在中文自然语言处理中常常用来进行分词(或许从名字上你已经能想到它是基于贪婪策略设计的一种算法)。...我们可以通过一个英文的例子来演示MaxMatch算法(其实中文处理的道理也是一样的)。算法从右侧开始逐渐减少字符串长度,以此求得可能匹配的最大长度的字符串。...以上便是我们对NLTK这个自然语言处理工具包的初步探索,最后,我想说《Python 自然语言处理》仍然是当前非常值得推荐的一本讲述利用NLTK和Python进行自然语言处理技术的非常值得推荐的书籍。

    2.1K50

    自然语言处理背后的算法基本功能

    自然语言处理背后的数据科学 自然语言处理(NLP)是计算机科学和人工智能范畴内的一门学科。 NLP是人与机器之间的沟通,使得机器既可以解释我们的语言,也可以就此作出有效回答。...本文将详细介绍自然语言处理领域的一些算法的基本功能,包含一些Python代码示例。 标记化 开始自然语言处理之前,我们看几个非常简单的文本解析。...使用Python判断词性:(使用NLTK库) 你必须安装NLTK,这是一个用于自然语言处理的Python库。...计算系统中的自然语言不是噱头或玩具,而是我们生活中无缝对接计算系统的未来。 Arcadia Data刚刚发布了5.0版,其中包括我们称之为Search Based BI的自然语言查询功能。

    1.3K20

    非主流自然语言处理——遗忘算法系列(三):分词

    这个假设分词无关的公式,也是本文所介绍的分词算法所使用的。 三、算法分析   问:假设分词结果中各词相互无关是否可行?   ...答:可行,前提是使用遗忘算法系列(二)中所述方法生成的词库,理由如下:   分析ICTCLAS广受好评的分词系统的免费版源码,可以发现,在这套由张华平、刘群两位博士所开发分词系统的算法中假设了:分词结果中词只与其前面的一个词有关...3、算法特点     3.1、无监督学习;     3.2、O(N)级时间复杂度;     3.3、词库自维护,程序可无需人工参与的情况下,自行发现并添加新词、调整词频、清理错词、移除生僻词,保持词典大小适当...往期回顾 : 非主流自然语言处理——遗忘算法系列(一):算法概述 非主流自然语言处理——遗忘算法系列(二):大规模语料词库生成

    1.1K60

    自然语言处理之Skip-Gram的预测算法

    一文理解Skip-Gram上下文的预测算法 自然语言处理属于人工智能领域,它将人类语言当做文本或语音来处理,以使计算机和人类更相似,是人工智能最复杂的领域之一。...它和连续词袋模型(CBOW)算法相反。 在Skip-gram中,中心词是输入词(input word),上下文词是输出词(output word)。 因为要预测多个上下文词,所以这一过程比较困难。...如果在指定上下文位置中预测的单词是错误的,我们会使用反向传播算法来修正权重向量W和W’。 以上步骤对字典中的每个单词w(t) 都要执行。 而且,每个单词w(t) 会被传递K次。...所以我们可以得知,正向传播算法在每段时间内会执行 |v|*k次。...训练这个算法耗时较长。 编译组: 章文斐、苏英豪

    1.7K10
    领券