首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大模型知识库文档预处理优化问题

使用专有数据训练embedding模型; 向量检索算法通常没什么可优化,因为向量数据库里通常都已经实现了。 本文重点要讲的是怎么优化文档预处理。...以前做nlp长文本切分也略有些经验,通常就是先按段落进行切分,对于过长段落文本,通常就是按模型(这里通常是embedding模型)能接受输入长度,按句子标点符号(如句号感叹号问号等)进行切分...另外,一些可以操作技巧是,段落片段可以做一些重复,例如,段落多个片段,前一个片段最后一句可以后一个片段第一句重复。...在实际项目中,可能还会有一些特殊情况,例如按上面的规则,段落内切分成片段后,一个片段最小单位是一个句子,但是实际上有些句子可能都会超过长度,这里还需要做些处理,例如按分号等再分一下,还不行则按逗号等再进行切分...很长句子通常出现在列表,因为列表每一项最后通常不是句号,而是分号,当然,也有可以是ocr识别时,漏掉了某些标点符号。

81320

技术文档规范

段落 # 3.1. 段落原则 一个段落只能有一个主题,或一个中心句子段落中心句子放在段首,全段内容进行概述。后面陈述句子为核心句服务。...一个段落长度不能超过七行,最佳段落长度小于等于四行。 段落句子语气要使用陈述肯定语气,避免使用感叹语气。 段落之间使用一个空行隔开。 段落开头不要留出空白字符。 # 3.2....符号原则 中文语句标点符号,均应该采取全角符号,这样可以保证视觉一致。 如果整句为英文,则该句使用英文 / 半角标点。 句号问号、叹号、逗号、顿号、分号冒号不得出现在一行之首。 # 5.2....正例:我最欣赏科技公司有 Google、Facebook、腾讯、阿里百度等。 英文句子,并列词语之间使用半角逗号( , )分隔。...感叹号 应该使用平静语气叙述,尽量避免使用感叹号 ! 。 不得多个感叹号连用,比如 !! !!! 。 # 5.11. 破折号 破折号 ———— 一般用于做进一步解释。破折号应占两个汉字位置。

85240
您找到你想要的搜索结果了吗?
是的
没有找到

内容文案基础策略如何定义?

3.优化排版 - 结构化地组织内容:使用段落、编号/无编号列表、合适停顿空格等方法,便于高效率视觉扫描。...任何文字链前句子。 ? 谨慎使用感叹号 感叹号会让文案显得过于激动,容易让气氛变得过于紧张。 注:当向用户表达问候或祝贺时,使用『!』是合理语境,例如『欢迎回到社区!』。 ?...基本标点规范 正确得使用标点符号会让句子看起来更清晰具有可读性。 具体使用请参考 1995 年中国标准出版社出版《标点符号用法》,右图为重点列出在设计需要注意部分。...标点名称 字符 描述 空格 段落句子链接和文字之间增加空格; 全角字符半角字符搭配时,需要添加空格,如:两个、2 个、50%。 句号 。...以下情况使用句号:输入框下提示;表格句子;句末为文字链(链接前使用句号);按钮标题。 感叹号 ! 只在需要表达强烈情感情况下使用。 连接号 - 不使用中文全角连接号。

1.2K30

基于词典中文情感倾向分析算法设计

在微博,可以理解为用户某客体表达自身观点所持态度是支持、反对、中立,即通常所指正面情感、负面情感、中性情感。...## 将段落用中文里常用句号、分号、问号感叹号等划分句意符号,切割成不同句子L Group = Sentence.split(“,”) ## 用逗号划分出句子意群(表示情感最小单元) Seg...有了这些,下面我们先求出意群情感值: 情感群—情感值 = 否定词-1 * 程度词权重 * 情感词权重 我们在实际应用又发现,当一个句子同时出现否定词程度词时,由于否定词程度词相对位置不同...本算法还有很多值得改进地方,比如句子是由词语根据一定语言规则构成,应该把句子中词语依存关系纳入到句子情感计算过程中去,可根据句子依存关系,从句子根节点开始每个词进行情感倾向计算,根据句子依存关系求出句子情感倾向情感值...确定句子重要程度,可以根据句子在文档位置,根据句子中所含信息量大小,句子中所含关键词多少等等。

2.8K40

使用有限状态机原理实现英文分词

代码是如何一步一步恶化 单词与空格 对于只有单词空格,不含其他符号英语句子,可以使用空格来切分单词。于是对于句子I am kingname, 一个字符一个字符进行遍历。...[2017-12-10-13-03-28.png] 单词空格与逗号句号 现在不仅仅只有单词空格,还有逗号句号。...所以现在不仅遇到空格要进行切分,遇到逗号句号还需要进行切分。...[2017-12-10-13-12-26.png] 单词空格与各种标点符号 标点符号可不仅仅只有逗号句号。现在又出现了冒号分号双引号感叹号问号等等杂七杂八符号。...使用状态机 根据这个原理,使用状态转移关系来改写代码,就可以让代码逻辑变得非常清晰。

91210

永久免费百度语音转字幕工具

感叹号) 不支持 15363 普通话 搜索模型 无标点 支持 1537 普通话 输入法模型 有标点(逗号) 不支持 15372 普通话 输入法模型 加强标点(逗号、句号问号感叹号) 不支持...15373 普通话 输入法模型 加强标点(逗号、句号问号感叹号) 支持 1737 英语 有标点(逗号) 不支持 1637 粤语 有标点(逗号) 不支持 16372 粤语 加强标点(逗号、...句号问号感叹号) 不支持 1837 四川话 有标点(逗号) 不支持 1936 普通话 远场模型 有标点(逗号) 不支持 19362 普通话 远场模型 加强标点(逗号、句号问号感叹号) 不支持...19363 普通话 远场模型 加强标点(逗号、句号问号感叹号) 支持 BDSSDKMessage BDSSDKMessage 包可以认为是用户向SDK发送命令。...如果确认那块(报错句子所处音频位置段)音频没问题,可再检查采样率别的识别参数有误问题。

33.2K61

设计异常解决方案几点注意事项

√ 要确保异常消息语法正确无误(指自然语言,如汉语、英语等)。 √ 要确保异常消息每个句子都有句号。...这个看起来似乎过于追究细节了,那么想想这种情况:使用FCL预定义异常Message信息时,我们有没有加过句号。如果我们提供信息没有句号,其它开发人员使用时到底加不加句号呢?...× 避免在异常消息中使用问号感叹号。 或许我们习惯于使用感叹号来”警示”某些操作有问题,扪心自问,我们使用代码返回一个感叹号,自己会有什么感觉。...如果用catch语句块捕获了某个特定类型异常,并完全理解在catch块之后继续执行对应用程序意味着什么,那么我们说这种情况是异常进行了处理。...有时候让底层代码抛出异常传递到高层并没有什么意义,此时,可以考虑底层异常进行封装使之高层用户也有意义。

70890

再谈如何写好技术文档?

下面这张表格是我根据以往经验,总结出来应用于技术型写作时中文标点符号使用规则: 序号 符号 写法 使用场合 1 逗号 , 前后两句话关联性比较大,阅读时停顿时间短。 2 句号 。...3 分号 ; 前后两句话地位相对平等,句子内容格式基本保持一致。比如列表,如果每项是一个句子或者短语,那么第1至第N-1项结尾使用分号,第N项结尾使用句号。...我们最后再来看一下小括号使用场合。在技术型文档,小括号主要用于前面的名词、短语或者句子进行补充说明,比如当文档中出现缩写词汇时,我们会在它后面增加一个小括号,在括号里面注明该缩写词汇全称。...— 5 — 正确使用段落 单一职责 与面向对象编程“类单一职责原则”一样,文档句子(特指以句号结尾一句话)、段落也应该遵循“单一职责原则”。...在技术型文档中使用表格组织文本内容时,需要控制每个单元格文本长度。一般情况下建议单元格使用短语,如果必须要用段落,也应该控制段落句子数量(一般建议不超过2~3句)。

37420

这是我全部经验

下面这张表格是我根据以往经验,总结出来应用于技术型写作时中文标点符号使用规则: 序号 符号 写法 使用场合 1 逗号 , 前后两句话关联性比较大,阅读时停顿时间短。 2 句号 。...3 分号 ; 前后两句话地位相对平等,句子内容格式基本保持一致。比如列表,如果每项是一个句子或者短语,那么第1至第N-1项结尾使用分号,第N项结尾使用句号。...我们最后再来看一下小括号使用场合。在技术型文档,小括号主要用于前面的名词、短语或者句子进行补充说明,比如当文档中出现缩写词汇时,我们会在它后面增加一个小括号,在括号里面注明该缩写词汇全称。...5 正确使用段落 单一职责 与面向对象编程“类单一职责原则”一样,文档句子(特指以句号结尾一句话)、段落也应该遵循“单一职责原则”。...在技术型文档中使用表格组织文本内容时,需要控制每个单元格文本长度。一般情况下建议单元格使用短语,如果必须要用段落,也应该控制段落句子数量(一般建议不超过2~3句)。

54710

linux设置法语键盘布局,法语键盘布局图「建议收藏」

键盘上每个键通常至少对应两个符号。在小写字母,底部符号通常是通过点击该键获得,而顶部符号通常是通过按住Shift键获得(也就是说,首先按下Shift键,然后点击相应键)。...例如:=单击“数字键2”;2=移动“数字键2”大写输入法与上面的正好相反。三。常见注释输入第九数字9(“强制重音法语大写字母”必。 2、须事先在“单词选项”-“校对”标签检查。)...2.不要使用中文特有的标点符号,如暂停(,)等。不要使用中文句号。。...3、).3.标点空格a)句号、逗号、感叹号问号后面留有空格;b)句尾句号感叹号问号也应该是空,这样可以避免修改过程错误;c)在括号引号前后留出一个空格;在冒号前后留一个空格。...(如果在外语内容中使用“宋式”或“仿宋式”,这是奇怪不自然,例如:CETE大学。)4.合理使用标尺、制表位、对齐、项目符号、多级列表等工具。以达到压痕、对齐居中效果。

3.6K10

呵呵,你开心就好!——AI向杠精宣战

根据知乎 6 月最新统计数据,被知友们踩过次数最多 Top 10 评论有下面几种: 那你可真是够棒! 你还是省省吧! 你开心就好。...根据知乎内容质量团队技术负责人刘兆来说法,“瓦力已经产品化很久了,过去通过关键词不友善文本识别模型,可以处理辱骂类文本;目前,我们希望通过阴阳怪气类杠精性质评论进行处理,提升用户体验。”...刘兆来详细介绍了“瓦力”最新阴阳怪气技术方案:首先通过知乎社区里举报、反对等负向用户行为收集训练数据。然后通过各种同义词替换、规则模版方式训练数据进行扩展,以缓解训练数据不足问题。...文本特征即文本加入阴阳怪气关键词进行分词后,保留标点,表情等;数值特征即句子长度,句号数量,感叹号数据等;阴阳怪气词即提取社区内被踩过很多次表示阴阳怪气关键词;表情特征:划分正负样本表情。...除上述文本特征外,知乎也充分考虑了其它特征,比如评论长度,评论句号问号等标点个数,评论是否包含阴阳怪气关键词等;这些特征离散化后,与评论卷积提取特征进行拼接,最后与评论上文卷积输出进行 dot-attention

82920

基于Noisy Channel ModelViterbi算法词性标注问题

给定一个英文语料库,里面有很多句子,已经做好了分词,/前面的是词,后面的表示该词词性并且每句话由句号分隔,如下图所示 ? 对于一个句子S,句子每个词语$w_i$标注了对应词性$z_i$。..._{ij}=1$ 计算矩阵A很简单,首先定义一个大小为$N\times M$全0矩阵,然后遍历语料库每一行单词/词性,将矩阵对应对应"当前遍历到词性"行"当前遍历到单词"列位置数值加1...然后遍历语料库每一行单词/词性,判断当前单词是否在句首,判断依据是看前一个单词是否是句号感叹号问号等终止性标点符号。...B$表示给定前驱词性为$z_{i-1}$,当前词性为$z_i$条件概率,即计算在前去词性为$z_{i-1}$(前驱词性,当前词性)组合,当前词性为$z_i$组合占比 $$ P(z_i|z_...然后遍历语料库,统计词性序列bigram,将方阵对应"前驱词性"行"当前词性"列位置数值加1 最后进行归一化,用每个元素除以所在行元素之和,即得到所在行占比(概率) tag2id, id2tag

68610

龙泉寺贤超法师:用 AI 为古籍经书识别、断句、翻译

近期龙泉寺贤超法师,参加了国内某技术大会,分享了使用人工智能对《大藏经》进行整理校勘技术实践。...现代汉语句号、引号、书名号等常用标点近十种, 古汉语仅有的句号、顿号,经文中也很少出现,难以阅读 贤超法师介绍道,所谓自动标点,是指在没有人工干预前提下,根据算法给古籍文本自动标注现代中文标点技术...而他团队将深度学习运用到了自动标点上,可以以更高准确性,给古文添加句号、逗号、问号感叹号、冒号、分号顿号其中标点符号。...为了实现 AI 文白对句,贤超法师首先构建了一个文白对齐语料库,然后设计了一个对齐算法,取得了很好效果。根据相似度差异度这两个独立指标,可以非常容易地定位出对齐错误句子。 ?...我们也曾在《本世纪,佛祖派机器人来弘扬佛法》一文佛教与科技融合趋势做出过报道,近年来涌现贤二机器人、机器观音、智能佛珠等等,早已讲科技深刻和谐地融入进佛法。 ?

1.6K100

Markdown-认识与使用1.简介2.使用一级标题3.设置Markdown编辑

2.使用 1.语法 使用之前,需要注意在 Markdown 另起一段时,需要多敲一次回车键,来在段落之间添加一个空行。这是与其他常见文档格式不同之处。...使用数字、一个英文句号一个空格即可。...例如: Red Green Blue 实际显示效果是这样(在不同环境下显示效果可能会有差异): Red Green Blue 3.图片 Markdown 可以插入图片,只需要感叹号、方括号圆括号即可...例如: 一个英文感叹号 “!” 后紧跟方括号,里面可以写这张图片说明;再紧跟一圆括号,里面写这张图片网址。...例如: 效果: 跳跳虎 简书Markdown 编辑器也支持拖拽插入图片,更加方便快捷。 4.链接 在文档插入连接语法插入图片语法很像,只是少了最前面的英文感叹号"!"。

83110

学习笔记CB004:提问、检索、回答、NLPIR

提问,查询关键词生成、答案类型确定、句法语义分析。查询关键词生成,提问提取关键词,中心词关联扩展词。答案类型确定,确定提问类型。句法语义分析,问题深层含义剖析。...检索,搜索,根据查询关键词信息检索,返回句子段落。答案抽取,分析推理检索句子段落,抽取提问一致实体,根据概率最大候选答案排序。...基于检索技术,信息检索,简单易实现,无法从句法关系语义关系给出答案,无法推理问题。基于模式匹配技术,把问题往梳理好模式匹配,推理简单,模式涵盖不全。...s = '海洋是如何形成' # 分词 分析功能全打开 不使用英文 segments = pynlpir.segment(s, pos_names='all', pos_english...', 'period'), 'ww': ('问号', 'question mark'), 'wt': ('叹号', 'exclamation mark')

784100

一开始看不上亲密接触后又让你欲罢不能 vim

如果想近一步扩大光标单次移动范围,就要用到按句子段落来前后移动来。两圆括弧()分别将光标向后向前移动一个句子,对应两个花括弧{}分别将光标向后向前移动一个段落。...( : 向后移动一个句子,光标定位在句子开始 ) : 向前移动一个句子,光标定位在句子开始 { : 向后移动一个段落,光标定位在段落开始 } : 向前移动一个段落,光标定位在段落开始 命令模式按下)(...命令模式按下}{向前向后移动一个段落: ? 此外你还可以在屏幕所见范围内进行快速移动光标。分别使用大写H,M,L。...也许你不是这么认为,但是这样还是能帮助我们更好练习记忆(我们可以循环往复地练习删除撤销)。 移动光标一样,删除也可以按不同粒度进行。如删除单个字符,字,行,句子段落以及屏幕首尾。...d^: 删除光标前面知道行首字符,不包含行首空格 d$: 删除从光标开始知道行尾字符,不包含行尾空格 删除句子段落 熟悉了前面的删除,以下删除句子段落也可以以此类推。

70920

入门 NLP 前,你必须掌握哪些基础知识?

句子分割 预处理工作流程第一步是将文本分割成多个句子。在许多语言环境下(例如英语),标点符号(特别是句号感叹号问号)可以被用来表明句子结束。然而,句号字符也可以被用在缩写(如 Ms....,此时句号字符则并不表示句子结束了。在这种情况下,我们会使用缩写表来避免对句子边界误分类。当文本包含特定领域术语时,必须创建一个额外缩写词典,从而避免产生不自然词(token)。...分词归一化 ? 分词时极端情况 「分词」指的是将文本划分成单词标点(即「词」(token))。与在句子分割情况一样,此时标点符号处理仍是一个具有挑战性问题。例如,U.K....命名实体识别 在识别命名实体之前,必须对词(token)进行组块分析(chunk)。组块分析意味着一组词进行分割标记。...通过使用该词汇表,可以将每个句子表示为一个由 0 1 组成向量,向量元素取决于词汇表某个词是否出现在该句子

1.7K10

ERNIE-Bot 4.0提示词原则与提示词格式

需要注意是,这些原则只是一些建议,实际使用时可以根据具体情况进行调整优化。...然而,实际使用时,用户可以根据自己习惯需求来选择合适提示词格式。...**空格使用**:在提示词,确保单词之间使用空格。这有助于模型区分不同词汇。 2. **标点符号使用**:当您希望在提示词引入句子或短语时,确保使用适当标点符号,如逗号、句号等。...**根据反馈进行调整**:在使用ERNIE-Bot 4.0时,注意模型响应和反馈。在使用ERNIE-Bot 4.0时,正确使用提示词符号可以帮助提高输入自然性准确性。...以下是一些建议,以确保您正确使用提示词符号: 1. **选择合适符号**:常用提示词符号包括逗号、问号、冒号等。根据提示词类型需要,选择合适符号。例如,疑问句可以使用问号结尾。

17440
领券