python语料建设_语料分析python_python爬虫语料 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

NLP札记1

NLP（Natural Language Processing），自然语言处理，是一门融合了计算机科学、人工智能以及语言学的交叉学科。自然语言和编程语言对比自然语言比编程语言的词汇量丰富自然语言是非机构化的；编程语言是结构化的。结构化指的是信息具有明确的结构关系，比如编程语言中具有类和成员、数据库中的表和字段等，都可以通过明确的机制来进行读写。自然语言存在大量的歧义，这些歧义根据语境的不同变现为特定的义项。自然语言容错性高，编程语言中程序员必须保证拼写、语法绝对规范。编程语言的变化缓慢温和

01

Github 项目推荐 | 在线新闻评论分析数据集——SOCC

SOCC 是一个用于分析在线新闻评论的语料库，该语料库里包含了大量的新闻及相关的新闻评论。库中搜集的文章都是评论文章，不是纯的新闻资讯，它比当前任何可用的新闻评论语料库都大，并且保留了评论回答的结构和其他的元数据。除了原始的预料库，SOCC 还提供了四种标注形式：有建设性的、恶意的、否定的和评估的语料。原始数据该库包含 10339 条评论文章，加拿大日报英文版 303665 条评论主题的 663173 条评论，时间跨度从 2012 年的 1 月到 2016 年的 12 月。我们将语料库分成三个子语料

05

您找到你想要的搜索结果了吗？

是的

没有找到

基于HMM的中文词性标注 POSTagging

给定标注文本corpus4pos_tagging.txt，训练一个模型，用模型预测给定文本的词性

01

HanLP《自然语言处理入门》笔记--1.新手上路

自然语言处理(Natural Language Processing，NLP)是一门融合了计算机科学、人工智能及语言学的交叉学科，它们的关系如下图所示。这门学科研究的是如何通过机器学习等技术，让计算机学会处理人类语言，乃至实现终极目标–理解人类语言或人工智能。

03

TTS评测--方案介绍和实践分享

语音合成（Text To Speech，TTS）技术将文本转化为声音，目前广泛应用于语音助手、智能音箱、地图导航等场景。TTS的实现涉及到语言学、语音学的诸多复杂知识，因合成技术的区别，不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现，如何从多维度综合评价TTS系统质量成了TTS测试人员的一大挑战。针对TTS前端、后端的存在的问题，选取TTS评测指标，制定各指标评测方法，形成了一套系统的TTS评测方案。

06

TTS系统评测方法介绍--WSRD AI评测实验室

TTS的实现涉及到语言学、语音学的诸多复杂知识，因合成技术的区别，不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现，如何从多维度综合评价TTS系统质量成了TTS测试人员的一大挑战。

文本分析40年政府工作报告发现了这些关键词

授权转自澎湃新闻编辑：熊平平 3月5日,第十二届全国人民代表大会第五次会议在北京人民大会堂开幕。国务院总理李克强作政府工作报告。澎湃新闻（thepaper.cn）整理了中国政府网上1978年至2017年共计40份《政府工作报告》中的常青词汇。结果显示，“发展”、“建设”、“经济”、“改革”等词语在过去40年中一直高频出现。还有部分词语愈发频繁地出现在《政府工作报告》中。“创新”，1997年后开始被频频提起，因其增长趋势，澎湃新闻将此类词语称为“喇叭形词语”，类似的词语还有“就业”、“创业”、“民生”等

02

数据告诉你：四十年来政府都在为何事“烧脑”？

3月5日,第十二届全国人民代表大会第五次会议在北京人民大会堂开幕。国务院总理李克强作政府工作报告。澎湃新闻整理了中国政府网上1978年至2017年共计40份《政府工作报告》中的常青词汇。结果显示，“发

06

动态 | 达观数据联合上海交通大学外国语学院建立语言智能实验室

AI 科技评论消息，在上海科技企业孵化器 30 周年巡礼中国电子合作伙伴大会上，达观数据、上海交通大学、浦东软件园进行了产学研合作签约仪式，联合建立语言智能实验室。这一事件在雷锋网旗下学术频道 AI 科技评论数据库产品「AI 影响因子」上有相应加分。

02

达观数据如何打造一个中文NER系统

1 NER简介 NER（Named Entity Recognition，命名实体识别）又称专名识别，是自然语言处理中常见的一项任务，使用的范围非常广。命名实体通常指的是文本中具有特别意义或者指代性非常强的实体，通常包括人名、地名、机构名、时间、专有名词等。NER系统就是从非结构化的文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体，比如产品名称、型号、价格等。因此实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称为实体。以下将详细介绍达观数据在文本语义理解过程中是如何构建中文NER系统

09

spaCy 2.1 中文模型下载

spaCy是最流行的开源NLP开发包之一，它有极快的处理速度，并且预置了词性标注、句法依存分析、命名实体识别等多个自然语言处理的必备模型，因此受到社区的热烈欢迎。中文版预训练模型包括词性标注、依存分析和命名实体识别，由汇智网提供

02

直观易用的大模型开发框架LangChain，你会了没？

目前LangChain框架在集团大模型接入手册中的学习案例有限，为了让大家可以快速系统地了解LangChain大模型框架并开发，产出此文章。本文章包含了LangChain的简介、基本组件和可跑的代码案例（包含Embedding、Completion、Chat三种功能模型声明）。

01

专访上海大学倪兰教授：语言学与手语识别技术的融合突破，解锁交流障碍｜GAIR live

上海大学的倪兰教授，作为中国大陆培养的第一位「手语语言学」方向博士，在谈到自己选择手语方向时仍忍不住感慨，“往前推二十年，语言学界几乎无人涉足这一领域。”

01

腾讯AI Lab开源了覆盖性广、准确性高的汉语词汇语料库

腾讯开源了一个语料库，为超过800万个汉语词汇提供了200维向量表征，即嵌入，这些词汇是在大规模高质量数据上预先训练的。这些向量捕获中文单词和短语的语义含义，可以广泛应用于许多下游中文处理任务（例如，命名实体识别和文本分类）以及进一步的研究中。

05

GPT大语言模型Alpaca-lora本地化部署实践

Tech 导读大模型技术日新月异，开源大模型层出不穷，本文针对开源大模型Alpaca-lora进行本地化部署实践，探索大模型在部署和使用方面的细节。

02

基于分布式的短文本命题实体识别之----人名识别（python实现）

据统计：未登录词中中文姓人名在文本中一般只占2%左右，但这其中高达50%以上的人名会产生切分错误。在所有的分词错误中，与人名有关的错误占到了将近90%，这中国人名都是根据人的想法起的名字，有很大的随意性，并且数量巨大，规律也不尽相同。

02

ACL 2019论文分享: 让机器有自主意识地和人类对话

（对人机对话技术不是很了解的读者，建议先阅读此前的一篇公众号内容“一文看懂人机对话”）

03

【NLP】Python NLTK获取文本语料和词汇资源

NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。本文主要介绍NLTK（Natural language Toolkit）的几种语料库，以及内置模块下函数的基本操作，诸如双连词、停用词、词频统计、构造自己的语料库等等，这些都是非常实用的。

02

响铃：当AI翻译能识别“语境”，我们的“地球村”梦想就不远了

当时人类联合起来兴建希望能通往天堂的高塔，为了阻止人类的计划，上帝让人类说不同语言，使人类相互之间不能沟通，计划因此失败，人类自此各散东西。

01

【语料库】中文公开聊天语料库

使用该项目，即可对所有的聊天语料进行一次性的处理和统一下载，不需要到处自己去搜集下载和分别处理各种不同的格式。

05

AI中台——智能聊天机器人平台的架构与应用（分享实录）

导读：随着“中台”战略的提出，目前宜信中台建设在思想理念及架构设计上都已经取得了很多成果。宜信是如何借助中台化的思想打造“AI中台”及相关的智能产品呢？本次直播，宜信科技中心AI中台团队负责人王东老师分享了宜信AI中台的具体实施路径，并重点介绍了AI中台的智能产品——智能聊天机器人平台，包括智能聊天机器人平台的背景理念、设计思想、技术架构和应用场景，该平台能提供什么样的能力，以及它如何快速地支持业务方，提供一种以中台化的思想来建设智能产品的实践思路。

03

做项目一定用得到的NLP资源【分类版】

原文链接：https://github.com/fighting41love/funNLP

04

《精通Python自然语言处理》高清pdf 分享

一句话评价: 这可能是市面上(包括国外出版的)你能找到最好的讲python自然语言处理的书了

04

星环科技孙元浩：语料已经是大模型最大的挑战

「原来以为语料已经匮乏了，大模型训练已经没有语料了，实际上不是的，数据还远远没有跑光」。

01

自然语言处理简介（1）---- 服务梳理与传统汉语分词

同步发表于：本人所属公司博客<知盛数据集团西安研发中心技术博客> https://blog.csdn.net/Insightzen_xian/article/details/81168829

02

零点有数董事长袁岳：算法产业化应更多聚焦中模型发展

袁岳，零点有数董事长，黑苹果青年公益理事长，飞马旅联合创始人，独立媒体人，发表关于数据科学、管理科学、社会群体研究等相关领域著作逾一千三百五十万字。2021年，在世界人工智能大会之算法峰会期间，袁岳接受亿欧专访，就“算法产业化”进程中的机遇与挑战分享了洞见。本次2023世界人工智能大会期间，袁岳再次接受媒体关于算法模型的专访，阐述当下算法模型发展的产业价值，深化大模型背景下算法模型发展的新议题。

02

python实现文本分类

本文采用复旦中文文本分类语料库，下载链接：https://download.csdn.net/download/laobai1015/10431543

02

AI语音自动化脚本开发

本篇文章主要介绍如何使用python代码实现文字转换成语音文件，电脑再执行语音文件，使用音响进行播放，然后对智慧屏执行的语料进行测试，再对语音执行效果进行断言，最后输出测试结果，不一定是智慧屏，也可以是其它支持语音的设备都能测试，比如汽车智能系统、各种支持语音的智能设备

01

基于Python的语料库数据处理（二）

语料库处理中，Python语言的字符串运算主要是将词语、句子连接起来，或者将词语、句子重复若干次，如：string1+string2(两个字符串相加)，string*n（将该字符串重复n次），具体示例如下：

02

关于聊天机器人，这里有一份中文聊天语料库资源

使用该项目，即可对所有的聊天语料进行一次性的处理和统一下载，不需要到处自己去搜集下载和分别处理各种不同的格式。

07

NLTK 基础知识总结

NLTK，全称Natural Language Toolkit，自然语言处理工具包，是NLP研究领域常用的一个Python库，由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块，至今已有超过十万行的代码。这是一个开源项目，包含数据集、Python模块、教程等；

02

WenetSpeech数据集的处理和使用

WenetSpeech数据集包含了10000+小时的普通话语音数据集，所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量，WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

01

腾讯TMQ在线沙龙回顾|大数据

大数据活动时间：2017年12月20日斗鱼直播分享活动介绍：TMQ在线沙龙第三十六期分享本次分享的主题：大数据。共有65位测试小伙伴报名参加活动。想知道活动分享了啥吗？请往下看吧！嘉宾刘楚蓉：腾讯高级测试工程师。过去主要负责移动端产品质量体系建设、自动化工具开发、大数据业务测试等。在移动端质量体系建设及大数据测试方面有丰富的经验。分享主题大数据业务介绍研发效率提升思路实例分享问答环节 1、这个平台是使用的什么工具？自己开发的吗？和大数据有什么关系呢？答：平台开发使用的是

NLTK相关知识介绍

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

02

自然语言处理（NLP）相关

结巴分词使用中文分词之结巴分词~~~附使用场景+demo（net） jieba分词、自定义词典提取高频词、词性标注及获取词的位置 jieba分词增加自定义词表词性标注 [python] 使用Jieba工具中文分词及文本聚类概念 jieba分词词性标记含义 Toolkits 综合NLP工具包 THULAC 中文词法分析工具包 by 清华 (C++/Java/Python) NLPIR by 中科院 (Java) LTP 语言技术平台 by 哈工大 (C++) FudanNLP

08

Python3 如何使用NLTK处理语言数据

文本已成为最常见的表达形式之一。我们每天都要发送电子邮件、短信、推文、更新状态。因此，非结构化文本数据变得非常普遍，分析大量文本数据现在是了解人们的想法的关键方法。

05

基于Python的语料库数据处理（三）

在执行某个语句前，我们可能需要对某个条件进行判断，并根据条件判断的结果来决定是否执行该语句。这时就需要使用条件判断if。

04

爱数智慧 CEO 张晴晴：对话式 AI 是人工智能的终极形态 | AICon

嘉宾 | 张晴晴编辑 | 李忠良人工智能有两个重要的部分，数据与算法。作为一家人工智能数据服务提供商，爱数智慧在语音数据的采集与处理上有其独到的价值，在今年的 11 月 5 日与 6 日 AICon 全球人工智能与机器学习大会（北京站）2021 上，我们邀请了爱数智慧创始人兼 CEO 张晴晴来分享他们在人工智能方面的前沿研究。在正式分享前，我们采访了张晴晴，以下为采访整理，希望对你有所启发。 InfoQ：是否可以简述一下您在人工智能方面的研究历程？张晴晴：我是在 2005 年开始接触人

01

抓住机遇，积极应对生成式人工智能挑战

马克思在《资本论》中指出，“划分经济时期的事情，不是生产了什么，而是怎样生产，用什么劳动手段生产。劳动手段不仅是人类劳动力发展的分度尺，并且也是劳动所在的社会关系的指示器”。

01

基于各种机器学习和深度学习的中文微博情感分析

向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程公众号：datayx 中文微博情感分类语料库 "情感分析"是我本科的毕业设计, 也是我入门并爱上NLP的项目hhh, 当时网上相关语料库的质量都太低了, 索性就自己写了个爬虫, 一边标注一边爬, 现在就把它发出来供大家交流。因为是自己的项目,所以标注是相当认真的,还请了朋友帮忙校验,过滤掉了广告/太短/太长/表意不明等语料,语料质量是绝对可以保证的带情感标注的微博语料数量: 10000(train.txt)+500(test.txt)

03

Awesome-Chinese-NLP：中文自然语言处理相关资料

推荐Github上一个很棒的中文自然语言处理相关资料的Awesome资源：Awesome-Chinese-NLP ，Github链接地址，点击文末"阅读原文"可直达：

01

各种机器学习和深度学习的中文微博情感分析

📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程公众号：datayx "情感分析"是我本科的毕业设计, 也是我入门并爱上NLP的项目hhh, 当时网上相关语料库的质量都太低了, 索性就自己写了个爬虫, 一边标注一边爬, 现在就把它发出来供大家交流。因为是自己的项目,所以标注是相当认真的,还请了朋友帮忙校验,过滤掉了广告/太短/太长/表意不明等语料,语料质量是绝对可以保证的带情感标注的微博语料数量: 10000(train.txt)+500(test.txt) 数据格式文档的每一行代

04

资源 | 十五分钟完成Regex五天任务：FastText，语料库数据快速清理利器

选自FreeCoderCamp 作者：Vikash Singh 机器之心编译参与：李泽南、刘晓坤数据清理是很多机器学习任务上我们遇到的首要问题。本文介绍的 FastText 是一个开源 Python 库，可用于快速进行大规模语料库的文本搜索与替换。该项目的作者表示，使用正则表达式（Regex）需要 5 天的任务在新的方法中只需要 15 分钟即可完成。项目链接：https://github.com/vi3k6i5/flashtext 自然语言处理领域的开发者在处理文本之前必须对数据进行清理。有些时候，此

黑科技 | 用Python只花十五分钟完成正则表达式五天任务量

数据清理是很多机器学习任务上我们遇到的首要问题。本文介绍的 FastText 是一个开源 Python 库，可用于快速进行大规模语料库的文本搜索与替换。该项目的作者表示，使用正则表达式（Regex）需要 5 天的任务在新的方法中只需要 15 分钟即可完成。项目链接：https://github.com/vi3k6i5/flashtext 自然语言处理领域的开发者在处理文本之前必须对数据进行清理。有些时候，此类工作是由关键词替换完成的，就像吧「Javascript」替换成「JavaScript」。另一些

09

想用R和Python做文本挖掘又不知如何下手？方法来了！

📷 大数据文摘作品，转载要求见文末作者 | Karlijn Willems 编译团队 | 饶蓁蓁，Mirra，apple黄卓君文本挖掘应用领域无比广泛，可以与电影台本、歌词、聊天记录等产生奇妙的化学反应,电影对白、歌词和聊天记录等文本中往往藏着各种有趣的故事。想要开始文本挖掘，但是使用的教程过于复杂？找不到一个合适的数据集？大数据文摘的这篇文章将会引导你学习8个技巧和诀窍，希望能够激励你开始文本挖掘的进程并且保持兴趣。 1、对文章产生好奇在数据科学中，几乎做所有事情的

04

词云可视化——中文分词与词云制作

随着微博研究的深入，社会网络分析和可视化技术的需要，面临中文处理问题，开始钻研文本挖掘的问题，过去的传统的数据挖掘一直研究的是结构化数据，文本挖掘和意见挖掘涉及内容更多，特别是中文处理是不可逾越的障碍！从网络分析、文本挖掘和意见挖掘角度看，主要解决以下内容：网络抓数据—MySql和Hadoop存储—API接口—创建网络数据—Knime和R语言挖掘－KOL意见领袖和网络分析—中文语料和文本语义—R语言与分词—用户词典构建—情感词典建设和情感分析—文本聚类分类—归并文本挖掘与网络分析—规则建模推荐算法—P

05

基于IBM Model 1的词对齐与短语抽取Python实现

基于词的翻译模型起源于上世纪IBM关于统计机器翻译的原创性工作，教材主要介绍的是IBM Model 1模型。该模型能够从大量句对齐的语料中自动实现词对齐。

04

[文本纠错] pycorrector框架训练

通过以上两种方法的任何一种完成安装都可以。如果不想安装，可以下载github源码包，安装下面依赖再使用。

02

基于GPT2制作一个chatbot

想必大家都有经历，处于多种原因有个很好的朋友不再跟你聊天了，那么可不可以用他的微信聊天记录来大致还原一下这个人的聊天习惯语气甚至是喜欢发的表情包等等呢？

06

用Bi-GRU+Attention和字向量做端到端的中文关系抽取

使用CNN或者双向RNN加Attention的深度学习方法被认为是现在关系抽取state of art的解决方案。已有的文献和代码，大都是针对英文语料，使用词向量作为输入进行训练。这里以实践为目的，介绍一个用双向GRU、字与句子的双重Attention模型，以天然适配中文特性的字向量(character embedding)作为输入，网络爬取数据作为训练语料构建的中文关系抽取模型。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭