在Quanteda中建立语料库，同时跟踪ID_在Laravel中同时建立种子关系_在ARImageTrackingConfiguration中同时跟踪两个目标 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

R语言︱文本挖掘套餐包之——XML+SnowballC+tm包

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

ChineseGLUE 的成员包括全国各地关注 NLP 的热心专业人士，包括清华、北大、浙大等知名高校的毕业生。团队的愿景是通过完善中文语言理解基础设施，促进中文语言模型的发展，能够作为通用语言模型测评的补充，以更好地服务中文语言理解、任务和产业界。

ChineseGLUE：为中文NLP模型定制的自然语言理解基准

超全必读！事件抽取综述（上）

本系列文章主要总结近年来事件抽取方法总结，包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等。主要包括以下几大部分：

【ICLR】四篇好文简读-专题11

Linking Emergent and Natural Languages via Corpus Transfer

Nature子刊 | 像婴儿一样学习，DeepMind新模型28小时学会物理世界规则

来源：ScienceAI本文约2200字，建议阅读5分钟DeepMind 旨在建立一个能够直观学习物理学的模型。从 AlphaFold 到数学推理，DeepMind 一直在尝试将 AI 和基础科学结合。现在，DeepMind 又创建了一个可以学习简单物理规则的新模型。发育心理学家测试分析了婴儿如何通过目光来跟随物体的运动。例如，当播放视频中有一个球突然消失时，孩子们会表现出惊讶。 DeepMind 的计算机科学家 Luis Piloto 及其同事希望为人工智能 (AI) 开发类似的测试。该团队使用立方体

Nature子刊 | 像婴儿一样学习，DeepMind新模型28小时学会物理世界规则

机器之心报道编辑：小舟、陈萍 Deepmind 旨在建立一个能够学习直观物理学的模型，并剖析模型实现这种能力的原因。从 AlphaFold 到数学推理，DeepMind 一直在尝试将 AI 和基础科学结合。现在，DeepMind 又创建了一个可以学习简单物理规则的新模型。发育心理学家测试分析了婴儿如何通过目光来跟随物体的运动。例如，当播放视频中有一个球突然消失时，孩子们会表现出惊讶。 DeepMind 的计算机科学家 Luis Piloto 及其同事希望为人工智能 (AI) 开发类似的测试。该团队使用

开发 | Twitter客户支持数据集公布：来自大企业的超百万条推文与回复

AI科技评论消息，近日，Kaggle平台上公布了Twitter客户支持数据集，这个数据集包括来自大企业的超百万条推文与回复，大家可以利用这个数据集做很多有意思的工作。数据集的具体信息如下所示，AI科技评论编辑整理如下： Twitter客户支持数据集（Customer Support）是一个庞大的推文与回复语料库，这个数据集比较现代化，有助于自然语言理解和会话模型的创新，也对客户支持实践与影响效果的相关研究有所帮助。背景自然语言处理（NLP）目前仍然需要密集的编码方式，NLP中的创新加速了对数据的理解

6种用于文本分类的开源预训练模型

文本分类是自然语言处理的核心思想之一。如果一台机器能够区分名词和动词，或者它能够在客户的评论中检测到客户对产品的满意程度，我们可以将这种理解用于其他高级NLP任务。

干货 | 自然语言处理(1)之聊一聊分词原理

关键字全网搜索最新排名【机器学习算法】：排名第一【机器学习】：排名第一【Python】：排名第三【算法】：排名第四前言在做文本挖掘时，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但有时也需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都类似，本文就对文本挖掘时的分词原理做一个总结。分词的基本原理现代分词都是基于统计的分词，而统计的样本内容来自于一些标

文本挖掘的分词原理

关键字全网搜索最新排名【机器学习算法】：排名第一【机器学习】：排名第二【Python】：排名第三【算法】：排名第四前言在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都是类似的，本文就对文本挖掘时的分词原理做一个总结。分词的基本原理现代分词都是基于统计的分词，而统计的样本内容

关于自然语言处理系列-聊天机器人之gensim

技术点：ctr预估，learning to rank，排序模型指标评测，逻辑回归，gbdt

用 Python 和 Gensim 库进行文本主题识别

从大量文本中自动提取人们谈论的主题（主题识别）是自然语言处理的基本应用之一。大型文本示例包括社交媒体订阅、消费者对酒店、电影和其他业务的评价、用户评论、新闻和客户发来的邮件。

【搜索引擎】Apache Solr 神经搜索

Sease[1] 与 Alessandro Benedetti（Apache Lucene/Solr PMC 成员和提交者）和 Elia Porciani（Sease 研发软件工程师）共同为开源社区贡献了 Apache Solr 中神经搜索的第一个里程碑。

上海大学建了一个“突发事件语料库”，包括地震、恐怖袭击等5大类

本体最初是一个哲学上的概念，十多年前被引入计算机领域中作为知识表示的方法并被广泛使用。本体对于探索人的认知原理、发展自然语言理解技术和人机交互技术有重要意义。

Facebook增强版LASER开源：零样本迁移学习，支持93种语言

【导语】为了加速自然语言处理 (NLP) 在更多语言上实现零样本迁移学习 (zero-shot transfer learning)，Facebook 研究者扩展并增强了 LASER (Language-Agnostic Sentence Representations) 工具包，并在近期开源了这个项目。

基于Noisy Channel Model和Viterbi算法的词性标注问题

给定一个英文语料库，里面有很多句子，已经做好了分词，/前面的是词，后面的表示该词的词性并且每句话由句号分隔，如下图所示

AI 大模型最新突破：帮科学家读论文，小菜一碟

大数据文摘转载自AI科技评论作者：施方圆编辑：陈彩娴自人类迈入信息时代开始，信息资源总量越来越多，信息过载的现象非常严重。英国学者带姆·乔丹曾说：“拥有太多信息使信息的利用变得不可能。” 美国工程师 Vannever Bush 也观察到信息过载的情况，在上个世纪就提出通过计算机来解决日益庞大的信息量问题。 Meta AI 新近推出的语言大模型 Galactica，正是在这样的背景下诞生。由于语言模型可以潜在地储存、组织和推理科学知识，所以语言模型可以作为一种工具帮人类处理大量的信息。例如，语言模型

从经典结构到改进方法，神经网络语言模型综述

语言模型（LM）是很多自然语言处理（NLP）任务的基础。早期的 NLP 系统主要是基于手动编写的规则构建的，既费时又费力，而且并不能涵盖多种语言学现象。直到 20 世纪 80 年代，人们提出了统计语言模型，从而为由 N 个单词构成的序列 s 分配概率，即：

NLP基础：N-Gram模型

从计算上看，知道一个词出现的概率需要知道其前面所有词的出现概率，这种方法太过复杂，因此这里引入了马尔可夫模型，即当前词的出现概率仅与前面几个词有关。由此产生了N-Gram模型。

主题建模技术介绍-机器学习模型的自然语言处理方法

主题模型（topic model）是以非监督学习的方式对文集的隐含语义结构（latent semantic structure）进行聚类（clustering）的统计模型。

AI 大模型最新突破：帮科学家读论文，小菜一碟

科研者的福音。作者 | 施方圆编辑 | 陈彩娴自人类迈入信息时代开始，信息资源总量越来越多，信息过载的现象非常严重。英国学者带姆·乔丹曾说：“拥有太多信息使信息的利用变得不可能。” 美国工程师 Vannever Bush 也观察到信息过载的情况，在上个世纪就提出通过计算机来解决日益庞大的信息量问题。 Meta AI 新近推出的语言大模型 Galactica，正是在这样的背景下诞生。由于语言模型可以潜在地储存、组织和推理科学知识，所以语言模型可以作为一种工具帮人类处理大量的信息。例如，语言模型可以在

HanLP《自然语言处理入门》笔记--1.新手上路

自然语言处理(Natural Language Processing，NLP)是一门融合了计算机科学、人工智能及语言学的交叉学科，它们的关系如下图所示。这门学科研究的是如何通过机器学习等技术，让计算机学会处理人类语言，乃至实现终极目标–理解人类语言或人工智能。

Nature子刊 | 像婴儿一样学习，DeepMind新模型28小时学会物理世界规则

从 AlphaFold 到数学推理，DeepMind 一直在尝试将 AI 和基础科学结合。现在，DeepMind 又创建了一个可以学习简单物理规则的新模型。

EMNLP2023 | LLM作用下的成分句法分析基础研究

自训练已被证明是一种有效的针对跨域任务的方法。传统的自训练方法依赖于有限且低质量的源语料库。为克服这一限制，本文提出用大型语言模型(LLM)增强自训练，以迭代地生成特定领域的语料库。并针对句法成分解析，引入了指导LLM生成源语料库的语法规则，建立了选择伪实例的标准。

Word2vec理论基础——词向量

我们希望原始文本信息能够得到保留，例如国王和女王之间的关系和男人与女人之间的关系应是特别接近的，法国和巴黎之间关系与德国和巴黎的关系也是接近的。

用好这几款炼丹利器，调参从此得心应手

来源：PaperWeekly ▌01. Live CV 实现显示结果的CV开发环境 Live CV 是一个用于实现显示结果的计算机视觉算法开发环境，基于 QtQuick 开发。它可以用于交互、链接和调整算法，以便快速创建解决方案。官网：http://livecv.dinusv.com/ 项目链接：https://github.com/livecv/livecv ▌02.Netron 神经网络可视化浏览器 Netron 是一个神经网络和机器学习模型可视化浏览器，支持 ONNX ，Keras

用好这几款炼丹利器，调参从此得心应手 | Let's Fork

#实现显示结果的CV开发环境 Live CV 是一个用于实现显示结果的计算机视觉算法开发环境，基于 QtQuick 开发。它可以用于交互、链接和调整算法，以便快速创建解决方案。官网：http://l

用好这几款炼丹利器，调参从此得心应手 | Let's Fork

Live CV 是一个用于实现显示结果的计算机视觉算法开发环境，基于 QtQuick 开发。它可以用于交互、链接和调整算法，以便快速创建解决方案。

学界 | 无监督神经机器翻译：仅需使用单语语料库

选自arXiv 机器之心编译参与：路雪、李泽南、蒋思源神经机器翻译近期取得很大成功，但缺乏双语数据的语言对很难基于现有方式训练出好的机翻系统。近日，有研究者提出一种无监督新方法，无需使用平行语料库

R语言SVM和LDA文本挖掘分类开源软件存储库标签数据和词云可视化

开源软件存储库上有数千个开源软件，可以从中免费使用该软件。为了能够有效和高效地识别用户所需的软件，已根据软件的功能和属性向软件判断了标记。因此，标签分配成为开源软件存储库软件维护成功的关键。手动分配需要专家判断软件的功能和性能，并从软件的大型标签池中选择适当的预定义标签，这显然很耗时。因此，此任务上的软件挖掘的目的是利用数据挖掘的进步，为新上传的软件项目启用自动标记分配（重新推荐）。

这篇论文，透露谷歌团队构想的“未来搜索”

作者 | 青苹果来源 | 数据实战派头图 | 付费下载于 IC Photo 传统的信息检索（IR, Information Retrieval）系统，并不直接回应信息需求，而仅提供对内容的参考。排序（Ranking）是该范式的关键组成部分。这样的检索系统为用户提供了潜在答案的选择，实际上也给用户带来了相当严重的认知负担。开发问答（QA, Question Answering）系统的动机之一，正是在于希望返回的是答案而非结果的排序列表。现在已经有很多关于 QA 系统的研究，然而现实中的大规模成功案例

关于词向量

参考论文：Efficient Estimation of Word Representations in Vector Space

架构师的AI/ML数据湖参考架构指南

在企业人工智能中，有两种主要类型的模型：判别式和生成式。判别式模型用于对数据进行分类或预测，而生成式模型用于创建新数据。尽管生成式 AI 近来占据新闻头条，但企业仍在追求这两种类型的 AI。

NLP经典书籍鱼书笔记2-单词的分布式表示

WordNet是NLP中常用的同义词词典，普林斯顿大学在1985年开发的；在NLTK模块中已经存在这个同义词词典

使用 Kubernetes 模糊测试

在阅读了一篇关于0days 用 30 行代码 fuzzingradare2的文章后，我认为扩展这项研究并将其代码移植到容器并部署到 Kubernetes 集群中将是一个有趣的周末项目。更进一步，构建 radare2 项目的主分支的新版本，并将其集成到 CI/CD 管道中，然后将容器构建部署到 Kuberentes 集群，这似乎是一种真正过火的好方法，只是吃掉我的全部周末。最终结果最终看起来类似于下图。

NLP学习2-单词的分布式表示

WordNet是NLP中常用的同义词词典，普林斯顿大学在1985年开发的；在NLTK模块中已经存在这个同义词词典

周伯文对话斯坦福AI实验室负责人：下一个NLP前沿是什么？

10 月 31 日，在北京智源大会上，京东集团副总裁兼人工智能事业部总裁、智源-京东联合实验室主任周伯文，斯坦福人工智能实验室负责人（SAIL）Christopher Manning，以《Next NLP Frontier After Deep Learning: A Conversation about Conversation and Beyond》为题，从语义、语境和知识，当前NLP的典型技术或应用以及以任务为导向的多轮和多模态对话三大部分出发，对下一个自然语言处理最前沿的课题展开尖峰对话。

带你用深度学习虚拟机进行文本迁移学习（附代码）

本文讲述了现代机器学习的模型，主要由微软数据科学家Anusua Trivedi和数据科学家经理Wee Hyong Tok共同撰写。

英文文本挖掘预处理流程总结

在中文文本挖掘预处理流程总结中，我们总结了中文文本挖掘的预处理流程，这里我们再对英文文本挖掘的预处理流程做一个总结。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐