技术文本_文本反垃圾技术_添加文本加载器的技术是什么？ - 腾讯云开发者社区

在当今信息爆炸的时代，人们对于知识获取的需求日益增长。特别是在深度学习、高性能计算和人工智能领域，这些前沿技术的不断发展让人们对其应用场景和实现方法有了更多的探索和研究。其中，作为一种基于大规模预训练模型的人工智能问答系统，ChatGPT已经成为众多研究者和开发者的关注重点。如何向ChatGPT提问并获得高质量的答案，成为了学术界和业界需要解决的问题之一。

您找到你想要的搜索结果了吗？

是的

没有找到

AI现在都可以刷好评？水军还怎么存活？

Python数据分析中文本分析的重要技术点，包括文本预处理、特征提取、情感分析

文本数据在今天的信息时代中无处不在。随着大规模数据的产生和积累，如何从海量文本数据中提取有价值的信息成为了一个重要的挑战。Python作为一种强大的数据分析工具和编程语言，为我们提供了丰富的文本分析技术和工具。本文将详细介绍Python数据分析中文本分析的重要技术点，包括文本预处理、特征提取、情感分析等。

文本挖掘的应用场景（下）：内容类应用

以下文章来自知乎，作者Bill Tong。Bill Tong，上海交通大学管理科学与工程博士，曾出版《在线文本数据挖掘》一书。

文本挖掘的介绍

文本挖掘是指从大量文本的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么文本挖掘的过程就是从输入到输出的一个映射ξ:C→ p。

腾讯数平精准推荐 | OCR技术之检测篇

在过去的数年中，腾讯数平精准推荐(Tencent-DPPR)团队一直致力于实时精准推荐、海量大数据分析及挖掘等领域的技术研发与落地。特别是在广告推荐领域，团队自研的基于深度在线点击率预估算法及全流程实时推荐系统，持续多年在该领域取得显著成绩。而在用户意图和广告理解上，借助于广告图片中的文本识别以及物体识别等技术手段，可以更加有效的加深对广告创意、用户偏好等方面的理解，从而更好的服务于广告推荐业务。 OCR（Optical Character Recognition, 光学字符识别）是指对输入图像进行分析

人工智能领域震惊！ChatGPT不仅可以回答问题，还能写小说？|小智ai

ChatGPT丨小智ai丨chatgpt丨人工智能丨OpenAI丨聊天机器人丨AI语音助手丨GPT-3.5丨开源AI平台

借助亚马逊S3和RapidMiner将机器学习应用到文本挖掘

[自然语言处理|NLP] 信息检索与文本挖掘

当涉及到自然语言处理（NLP）中的信息检索与文本挖掘时，我们进入了一个旨在从大量文本数据中发现有价值信息的领域。信息检索涉及从文本数据中检索相关信息，而文本挖掘则旨在自动发现文本中的模式、趋势和知识。

014

“达观杯”NLP 竞赛，再启航

人工智能在2018年继续强势发展，在运算智能和感知智能取得了很大的突破和优于人类的表现。

人工智能中的文本分类：技术突破与实战指导

文本分类作为人工智能领域的一个重要分支，其价值和影响力已经深入到我们日常生活的各个角落。在这个数据驱动的时代，文本分类不仅是机器学习和深度学习技术的集中展示，更是智能化应用的基础。

Excel 字符串操作函数大全

无论是在excel中，还是在其他的编程语言中，字符串是构成整个应用体系的基础，一般老师的授课都是从字符串表达式开始，循序渐进。今天我们来讲解下一个关于字符串提取、截取、替换的几个函数，并用了几个常用的案列，如从身份证提取生日，分割省市等等，想想看看这篇文章，你会对字符换函数有一个详细的了解。

腾讯数平精准推荐 | OCR技术之检测篇

本文将主要介绍数平精准推荐团队的文本检测技术。

012

NLP入门：CNN,RNN应用文本分类，个性化搜索，苹果和乔布斯关系抽取(2)

前篇一文了解自然语言处理的每个范畴用到的核心技术，难点和热点(1)，这部分涉及的NLP范畴包括：中文分词词性标注句法分析文本分类背景下面介绍，文本分类常用的模型，信息检索，信息抽取。 8文本分类模型近年来，文本分类模型研究层出不穷，特别是随着深度学习的发展，深度神经网络模型也在文本分类任务上取得了巨大进展。文本分类模型划分为以下三类：基于规则的分类模型基于规则的分类模型旨在建立一个规则集合来对数据类别进行判断。这些规则可以从训练样本里自动产生，也可以人工定义。给定一个测试样例，我们可以

OCR技术的昨天今天和明天！2023年最全OCR技术指南！

OCR是一项科技革新，通过自动化大幅减少人工录入的过程，帮助用户从图像或扫描文档中提取文字，并将这些文字转换为计算机可读格式。这一功能在许多需要进一步处理数据的场景中，如身份验证、费用管理、自动报销、业务办理等都显得尤为实用。现如今，OCR解决方案会结合AI（人工智能）和ML（机器学习）技术，以自动化处理过程并提升数据提取的准确性。本文将介绍该技术的前世今生，一览该技术的阶段性发展：传统OCR技术统治的过去，深度学习OCR技术闪光的现在，预训练OCR大模型呼之欲出的未来！

学习助手：场景文本识别技术在教育领域的创新

随着人工智能技术的迅速发展，场景文本识别技术在教育领域的应用也越来越受到重视。本文将介绍如何利用场景文本识别技术打造学习助手，以提高教育教学的效率和质量。我们将详细介绍该技术的部署过程，并结合实例进行说明。以帮助读者更好地理解和应用这一技术。

TencentOCR 斩获 ICDAR 2021 三项冠军

作者：TencentOCR团队全球 OCR 最顶级赛事，TencentOCR 以绝对领先优势斩获三冠，腾讯技术再扬威名！一、竞赛背景 2021 年 9 月，两年一届的 ICDAR 竞赛落下帷幕，这是文字识别（OCR）领域全球最顶级赛事。TencentOCR 团队在本届比赛中参加了视频文字识别竞赛，并包揽该赛道全部 3 项冠军，成绩遥遥领先。这也是继 2017 年团队勇夺 4 项官方认证冠军[1]、2019 团队勇夺 7 项冠军后[2]，再创佳绩，同时也标志着腾讯 OCR 技术稳居国际第一流水准。

如何0代码、快速定制企业级NLP模型？百度工程师详解技术选型与模型调优策略

主讲人 | 龙心尘百度NLP资深研发工程师量子位编辑 | 公众号 QbitAI 近几年以预训练为代表的NLP技术取得了爆发式发展，新技术新模型层出不穷。企业与开发者如何将最先进的NLP领域科研成果，高效地应用到业务场景中并解决实际问题？「百度EasyDL AI开发公开课」中，百度资深研发工程师龙心尘结合世界领先的文心(ERNIE)语义理解技术，通过产业实践案例，深入解析技术选型和模型调优的方法，分享了工程实践中的经验。讲解分为5个部分： NLP常见任务 NLP典型应用场景 EasyDL-NLP与文心

深度解析NLP文本摘要技术：详解与实战

文本摘要是自然语言处理（NLP）的一个重要分支，其核心目的是提取文本中的关键信息，生成简短、凝练的内容摘要。这不仅有助于用户快速获取信息，还能有效地组织和归纳大量的文本数据。

什么是自然语言处理的语义理解？

自然语言处理（Natural Language Processing，NLP）是一种人工智能技术，旨在使计算机能够理解、解释和生成自然语言。语义理解是NLP的一个重要领域，它涉及到从文本数据中提取意义和信息的过程。本文将详细介绍自然语言处理的语义理解。

李磊：智能写作前沿技术与应用

本次报告主要介绍智能写作前沿技术和应用，从内容创作、智能辅助写作助手、机器翻译等方面展开，介绍了智能写作在写稿机器人、赛事解说、智能广告文案、社会公益、经济扶贫等具体场景中的应用案例，对智能写作目前研究上的主要进展和面临的挑战进行了总结概括。

PaddleOCR新发版v2.2：开源版面分析与轻量化表格识别

时隔数月之后PaddleOCR发版v2.2，又带着新功能和大家见面了。本次更新，为大家带来最新的版面分析与表格识别技术：PP-Structure。核心功能点如下：

GPT-4、Imagen、Stable Diffusion背后的技术支撑

常见的多模态转换就是文本生成图像或图像生成文本，即使有视频转图像，也更多的是将视频逐帧转换为图像，基本上未包含创造性和创意性的内容。

广告行业中那些趣事系列13：NLP中超实用的样本增强技术

摘要：本文主要解决在样本数量较少、样本不均衡或者需要提高模型的鲁棒性的场景下通过样本增强技术提升模型的泛化能力的问题。主要讲了近几年常用的样本增强技术，其中包括回译技术、词汇替换技术、随机噪声引入技术和生成式的方法等等。通过这些技术我们可以轻松的实现增加训练样本的目的。希望对样本增强技术感兴趣的小伙伴有所帮助。

[自然语言处理|NLP]法律NLP中的应用：从原理到实践

在法律领域，自然语言处理（NLP）技术正在为法律专业人士提供全新的工具和视角。本文将深入研究NLP在法律领域的前沿技术和应用，涵盖法律文本分析、合同智能化、司法决策支持等方面。通过详细的示例和实践代码，我们将探讨NLP如何在法律实践中发挥关键作用。

【文本检测与识别-白皮书】第二章：文本检测与识别技术发展历程

俗称光学字符识别，英文全称是Optical Character Recognition(简称OCR)，它是利用光学技术和计算机技术把印刷体或手写体文本进行读取识别，转化成计算机和人都能够识读的格式。此间OCR技术是关键一环。OCR技术中，印刷体的文本识别是最成熟的一个，因其开展最早。早在1929年就被欧美国家利用来处理大量的报刊杂志、文件和单据报表等。经过40多年的发展和完善，文本识别技术更加成熟，逐步实现了信息处理的“电子化”。

sora是视频创作相关领域的坟墓吗？

Sora模型是OpenAI最近推出的一种视频生成系统，它采用了先进的技术来将文本转化为逼真的视频内容。反正这几天就一直在研究Sora的原理，想了解为什么它可以打爆其他视频大模型。以下是我整理的Sora和其他视频模型的对比。

OCR技术在爱奇艺的应用实践及演进

随着人工智能的热度上升，图像识别这一细分领域也渐渐被人们所关注。在很多公司的业务中，有很多需要对图片进行识别的需求。为了帮助业务实现对这些图片、文档的识别和结构化，业界进行了一系列的实践和探索，最终确定了一些可行的方法。实践过程中，可能遇到过一系列问题和难点。本次直播分享，我们将结合目前的业务需求，说说爱奇艺在探索中遇到的痛点和难点以及识别技术中的一些细节。

大咖说数据挖掘的方法

数据挖掘就是对存在的数据集进行分析和总结而产出有价值信息的过程。有时数据挖掘也用来泛指一种方法，即数据挖掘是对数据进行处理，并从数据中分析、提炼、总结出有价值的信息的方法。

【文本信息抽取与结构化】详聊文本的结构化【上】

常常在想，自然语言处理到底在做的是一件什么样的事情？到目前为止，我所接触到的NLP其实都是在做一件事情，即将自然语言转化为一种计算机能够理解的形式。这一点在知识图谱、信息抽取、文本摘要这些任务中格外明显。不同的任务的差异在于目标的转化形式不一样，因而不同的任务难度、处理方式存在差异。

ChatGPT|用ChatGPT聊GPT(内有体验地址和接口)

全称：Generative Pre-Trained Transformer(生成式预训练变换模型)

OCR检测与识别技术

010

广告行业中那些趣事系列58：当我们面对文本分类任务的时，可以使用哪些优化策略

摘要：本篇主要总结了一下我在实际项目中对于文本分类任务的优化策略，主要包括预训练模型优化、语义embedding优化、分类层优化、使用知识蒸馏优化、使用标签内容信息优化、优化损失函数、通过半监督和主动学习优化、通过样本增强技术优化。对于想要提升线上文本分类任务效果的小伙伴可能有所帮助。

一文了解自然语言处理的每个范畴用到的核心技术，难点和热点(1)

希望时间的流逝不仅仅丰富了我们的阅历，更重要的是通过提炼让我们得以升华，走向卓越。 1电影Her见识NLP 可能很多朋友看过好莱坞的电影《Her》，电影中讲述的主角耳朵里戴了一个耳机，这是一个人工智能的虚拟助手，能够通过耳机与人工智能来对话。人机交互方式在经历了第一代的键盘鼠标，第二代的触摸屏和按键后，第三代对话式人工智能操作系统正在来临，让用户通过最便捷、简单的方式获取信息和服务。这其中功不可没的就是自然语言处理技术(NLP)，我们熟知的问答系统就是一种最直接的人机交互方式。NLP过去经历了怎样的发

2021最新文本综述：从浅层到深度学习（附PDF下载）

文本分类是自然语言处理中最基本的任务。由于深度学习的空前成功，过去十年中该领域的研究激增。已有的文献提出了许多方法，数据集和评估指标，从而需要对这些内容进行全面的总结。本文回顾1961年至2020年的文本分类方法，重点是从浅层学习到深度学习的模型。根据所涉及的文本以及用于特征提取和分类的模型创建用于文本分类的分类法。然后，详细讨论这些类别中的每一个类别，涉及支持预测测试的技术发展和基准数据集。并提供了不同技术之间的全面比较，确定了各种评估指标的优缺点。最后，通过总结关键含义，未来的研究方向以及研究领域面临的挑战进行总结。

「自然语言处理(NLP)」自然语言生成（NLG）资料整理

自然语言生成（NLG）作为自然语言处理的一个子方向，主要目的是降低人类和机器之间的沟通鸿沟，将非语言格式的数据转换成人类可以理解的语言格式。现在也受到广大研究学者的重视，今天ShuYini给大家整理了一下自然语言生成的相关资料供大家参考。

击败全球上千参赛队伍，合合信息获ICDAR“文本篡改检测”赛道冠军

AI技术的快速发展激发了人们对于美好未来的畅享，也带来了潜在的危机，数据泄露、电信诈骗等系列风险与隐患开始浮出水面。利用科技手段构建可信的技术发展环境，保护使用者的信息及财产安全，正在成为行业共识。

深度学习助力版面分析技术,图像“还原”有方

近期，2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 在无锡圆满落幕，此研讨会是图像视觉领域的重磅会议。作为智能文档处理领域代表的合合信息自然不会缺席，合合信息出席会议并进行智能文档处理技术研发与实践成果分享，重点介绍了其在版面分析与文档还原技术实现上的新突破。

机器学习（三）：人工智能主要分支

通讯、感知与行动是现代人工智能的三个关键能力，在这里我们将根据这些能力/应用对这三个技术领域进行介绍：

[自然语言处理|NLP]NLP在语言治理和合规性的应用：从原理到实践

在当今信息爆炸的时代，语言治理与合规性成为组织和社会不可或缺的一部分。随着自然语言处理（NLP）技术的不断发展，其在语言治理和合规性领域的应用日益受到关注。本文将深入研究NLP技术在语言治理和合规性中的创新应用，通过实例展示NLP如何帮助组织更有效地管理语言使用、确保合规性，并阐述未来的发展方向。

"多模态数字内容生成"的技术探索与应用实践

多模态数字内容生成，泛指利用AI生成技术生成图像、视频、语音、文本、音乐等内容的合成技术。自然语言处理领域的GPT-3和计算机视觉领域的Deepfake让多模态数字内容生成，成为AI领域最受关注的技术方向之一。生成式AI也是2020首次进入Gartner技术成熟度曲线，跟踪其成熟度和未来潜力。在京东，多模态内容生成有非常多且有趣的应用场景：基于图像生成的虚拟试衣、AI音乐生成、商品营销文案生成、AI写诗、风格化AI书法生成、文本与图像的相互生成等等。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐