学习
实践
活动
工具
TVP
写文章

文本摘要评测工具ROUGE的搭建和测试

/ROUGE-1.5.5.pl -e data -c 95 -2 -1 -U -r 1000 -n 4 -w 1.2 -a ROUGE-test.xml  其中测试文件可以从如下网址下载:ROUGE-test.xml /ROUGE-1.5.5.pl -e data -c 95 -2 -1 -U -r 1000 -n 4 -w 1.2 -b 75 -m -a ROUGE-test.xml --------------- ------------------------------ 11 ROUGE-1 Average_R: 0.22536 (95%-conf.int. 0.18124 - 0.27016) 11 ROUGE . 0.01812 - 0.05479) 11 ROUGE-2 Average_P: 0.02964 (95%-conf.int. 0.01698 - 0.04433) 11 ROUGE-2 Average_F ----------------------- 11 ROUGE-S* Average_R: 0.02919 (95%-conf.int. 0.01857 - 0.04092) 11 ROUGE-S*

32230

这里有你想要的 Rouge 主题

不过,我们现在关系的是它可以使用的语法高亮工具 —— RougeRouge 支持的语言可以前往此处查看:Rouge 生成 Rouge 语法高亮样式 当然,以上配置只是告诉 kramdown 转换引擎在转换 Markdown 为 HTML 的时候,使用 rouge 格式的样式 随后,你便可以使用命令来安装 Rouge。 虽然 Rouge 自带了很多种不同的语法高亮样式,但都没有办法直接看到语法高亮的效果。 : A pure-ruby code highlighter that is compatible with pygments http://rouge.jneen.net/ Rouge 本文会经常更新

1.1K30
  • 广告
    关闭

    2022腾讯全球数字生态大会

    11月30-12月1日,邀您一起“数实创新,产业共进”!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    github pages代码高亮highlighter

    github pages 一直想添加代码高亮 highlighter ,基于 jekyll 3.0 的 rouge 终于搞定了: ? 下载代码高亮库 在 cmd 中输入: rougify style monokai.sublime > rouge.css 可以下载 rouge.css 出来,将这个 css 文件放到 github pages 项目中存放 css 的目录下,并在 html 中引用这个库,请自行更改引用的路径: <link href="/static/css/<em>rouge</em>.css" rel="stylesheet"/> 配置文件 调试代码高亮 在 cmd 中安装 rouge 方便本地调试: gem install rouge 为了防止 ` 被转义,在 html 中添加如下 js : <script type="text/x-mathjax-config 背景色为白色,字段显示不出来,所以我把 <em>rouge</em>.css 的背景色改成了黑色,在 <em>rouge</em>.css 最后面添加如下代码: div[class="highlight"] > pre > code[class

    63410

    网络表情NLP(一)︱颜文字表情实体识别、属性检测、新颜发现

    可参考:python︱flashtext高效关键词查找与替换 rougeRouge-1、Rouge-2、Rouge-L分别是:生成的摘要的1gram-2gram在真实摘要的1gram-2gram的准确率召回率和 1.1 模块一:rouge rouge是自动文本摘要算法的评估指标: from rouge import Rouge a = ["i am a student from xx school"] # 预测摘要 (可以是列表也可以是句子) b = ["i am a student from school on china"] #真实摘要 rouge = Rouge() rouge_score = rouge.get_scores (a, b) print(rouge_score[0]["rouge-1"]) print(rouge_score[0]["rouge-2"]) print(rouge_score[0]["rouge-l ,阈值,一定要相似性大于才会给出;如果是'rouge-1'比较合适的阈值在0.75 - score_type = 'rouge-2',rouge的得分类型,n-grams - stat

    29220

    NLP笔记:生成问题常用metrics整理

    样例说明 我们给出一个例子来进行具体的计算说明如下: 生成文本:明天天天气好 参考文本:今天天气真的好 2021-03-28 (40).png 3. rouge rouge指标与bleu指标极其相似,但是 ,相较于bleu关注于生成的精度,rouge更看重生成的召回。 除此之外,rouge没有句长惩罚因子,他的公式可以直接表达为如下形式: 2021-03-28 (41).png 根据n的取值不同,rouge可以分为rouge-1, rouge-2等等。 另外还有常用的rouge指标还有rouge-l,他是rouge-n的一种变体: 它的分母还是参考文本的长度,他的分子则是生成文本与参考文本的最长公共子序列。 参考链接 语言模型评价指标Perplexity 一种机器翻译的评价准则——Bleu 机器翻译自动评估-BLEU算法详解 自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S

    59520

    GitHub | 一套完整的文本摘要任务解决方案-FastSum

    rouge 近似值。 源代码为:https://github.com/pltrdy/rouge PyRougeMetric 使用论文 ROUGE: A Package for Automatic Evaluation of Summaries 提供的官方 ROUGE 1.5.5 评测库。 为了使用ROUGE 1.5.5,需要使用 sudo 权限安装一系列依赖库。FastSum 提供了安装指南。 我们看下在 CNN/DailyMail 数据集上的 ROUGE 分数: Model ROUGE-1 ROUGE-2 ROUGE-L Paper LEAD 3 40.11 17.64 36.32 Our

    17330

    【论文笔记】基于强化学习的句子摘要排序

    作者通过强化学习并优化ROUGE(recall-oriented understanding for gisting evaluation)对句子进行排序。 什么是 ROUGE呢? ROUGE是自动文档摘要的相关国际测评中常常用到的一种内部评价方法,当然还有其他的方法比如Edmundson,我们这里会简单对 ROUGE进行介绍,其包含 ROUGE-N, ROUGE-L(最长公共子句 , Fmeasure), ROUGE-W(带权重的最长公共子句, Fmeasure), ROUGE-S(不连续二元组, Fmeasure) 四种。 由于ROUGE的计算公式是根据召回率进行改的,类比召回率可知,rouge=系统算法生成的摘要与参考摘要相同的N-gram数/参考摘要中的N-gram总数。 为什么使用ROUGE作为评价指标呢? 针对这些问题,作者采用的训练策略不是最大化ground truth的似然,而是对文档中的每个句子预测单一的rouge分数,然后选出分数最高高的m个句子组成摘要。

    44950

    干货|当深度学习遇见自动文本摘要,seq2seq+attention

    但由于ROUGE并不可导的,传统的求梯度+backpropagation并不能直接应用到ROUGE。因此,一个很自然的想法是,利用强化学习将ROUGE指标加入训练目标。 ,允许摘要拥有更多的灵活性,同时针对ROUGE的优化也直接提升了模型的ROUGE评分。 ROUGE是Lin提出的一个指标集合,包括一些衍生的指标,最常用的有ROUGE-n,ROUGE-L,ROUGE-SU: ROUGE-n:该指标旨在通过比较生成的摘要和参考摘要的n-grams(连续的n个词 常用的有ROUGE-1,ROUGE-2,ROUGE-3。 ROUGE-L:不同于ROUGE-n,该指标基于最长公共子序列(LCS)评价摘要。 但另一方面,从以上对ROUGE指标的描述可以看出,ROUGE基于字的对应而非语义的对应,生成的摘要在字词上与参考摘要越接近,那么它的ROUGE值将越高。

    2.7K90

    Geth GraphQL使用说明

    /th> eth_blockNumber 已实现 <code class="highlighter-<em>rouge</em> "0x..." }) } eth_gasPrice 已实现 <code class="highlighter-<em>rouge</em> gasPrice }</code></td> </tr> <tr> <td>eth_getBalance</td> <td>已实现</td> <td><code class="highlighter-rouge } } eth_getBlockByNumber 已实现 { logs(filter: { ... }) { ... } } or { block(...) { logs(filter

    93700

    当深度学习遇见自动文本摘要

    但由于ROUGE并不可导的,传统的求梯度+backpropagation并不能直接应用到ROUGE。因此,一个很自然的想法是,利用强化学习将ROUGE指标加入训练目标。 ,允许摘要拥有更多的灵活性,同时针对ROUGE的优化也直接提升了模型的ROUGE评分。 ROUGE是Lin提出的一个指标集合,包括一些衍生的指标,最常用的有ROUGE-n,ROUGE-L,ROUGE-SU: ROUGE-n:该指标旨在通过比较生成的摘要和参考摘要的n-grams(连续的n个词 常用的有ROUGE-1,ROUGE-2,ROUGE-3。 ROUGE-L:不同于ROUGE-n,该指标基于最长公共子序列(LCS)评价摘要。 但另一方面,从以上对ROUGE指标的描述可以看出,ROUGE基于字的对应而非语义的对应,生成的摘要在字词上与参考摘要越接近,那么它的ROUGE值将越高。

    1.1K90

    【NLP】文本生成评价指标的进化与推翻

    ROUGE大致分为四种(常用的是前两种): ROUGE-N (将BLEU的精确率优化为召回率) ROUGE-L (将BLEU的n-gram优化为公共子序列) ROUGE-W (将ROUGE-L的连续匹配给予更高的奖励 ROUGE-N “N”指的是N-gram,其计算方式与BLEU类似,只是BLEU基于精确率,而ROUGE基于召回率。 ROUGE-N 会分别计算机器译文和这些参考译文的 ROUGE-N 分数,并取其最大值,公式如下。这个方法也可以用于 ROUGE-L,ROUGE-W 和 ROUGE-S。 ? 2. ROUGE-W ROUGE-W 是 ROUGE-L 的改进版,考虑下面的例子,X表示参考译文,而Y1,Y2表示两种机器译文。 ? 但是采用 ROUGE-L 计算得到的分数确实一样的,即 ROUGE-L(X, Y1)=ROUGE-L(X, Y2)。

    2.5K40

    Transformer多轮对话改写实践

    3.1验证集上效果比较 rouge-1 rouge-2 rouge-l Baseline 0.906 0.836 0.897 本文 0.907 0.827 0.88 Baseline基于完全copy 备注: 1)Rouge-1 rouge-1 比较生成文本和参考文本之间的重叠词(字)数量 2) Rouge-2 rouge-2 比较生成文本和参考文本之间的 2-gram 重叠的数量 3) Rouge-L rouge-l 根据生成文本和参考文本之间的最长公共子序列得出 3.2 预测时间消耗(2000条) 时间 Baseline 1min 本文 2s 在小破卡上,baseline模型需要一个一个解码 rouge-1 15000 5000 1000 500 Baseline 0.906 0.865 0.375 0.09 本文 0.907 0.872 0.8 0.794 生成式改写任务对数据依赖比较高 rouge-1 rouge-2 rouge-l Baseline 0.92 0.893 0.955 本文 0.938 0.926 0.965 基于指针抽取的方法对负样本的识别效果会更好。

    1.1K40

    当深度学习遇见自动文本摘要

    但由于ROUGE并不可导的,传统的求梯度+backpropagation并不能直接应用到ROUGE。因此,一个很自然的想法是,利用强化学习将ROUGE指标加入训练目标。 ,允许摘要拥有更多的灵活性,同时针对ROUGE的优化也直接提升了模型的ROUGE评分。 ROUGE是Lin提出的一个指标集合,包括一些衍生的指标,最常用的有ROUGE-n,ROUGE-L,ROUGE-SU: ROUGE-n:该指标旨在通过比较生成的摘要和参考摘要的n-grams(连续的n个词 常用的有ROUGE-1,ROUGE-2,ROUGE-3。 ROUGE-L:不同于ROUGE-n,该指标基于最长公共子序列(LCS)评价摘要。 但另一方面,从以上对ROUGE指标的描述可以看出,ROUGE基于字的对应而非语义的对应,生成的摘要在字词上与参考摘要越接近,那么它的ROUGE值将越高。

    9.4K40

    新闻太长不想看?深度解析MetaMind文本摘要新研究

    ROUGE 通过对比摘要中将生成的摘要中的匹配子短语和实际数据的参考摘要中的子短语来运作,即使它们并不是完全一致的。 不同的 ROUGE 变体(ROUGE-1、ROUGE-2、ROUGE-L)都以相同的方式工作,但使用不同的子序列长度。 尽管 ROUGE 分数与人类判断总体上有很好的相关性,但 ROUGE 最高分的总结不一定是最可读或最自然的。当我们仅通过强化学习来训练模型使 ROUGE 得分最大化时,这就成为一个问题。 ROUGE-1 分数是 35.46。 即使我们的纯强化学习模型具有较高的 ROUGE 分数,我们监督的+ 强化学习模型具有较高的可读性,因此它与该摘要任务更加相关。

    44560

    基于 Python 的自动文本提取:抽象法和生成法的比较

    ROUGE-N指标 对于LexRank,Luhn和LSA方法,我们使用Sumy 摘要库来实现这些算法。我们使用ROUGE-1指标来比较所讨论的技术。 通常对于摘要评估,只使用ROUGE-1和ROUGE-2(有时候ROUGE-3,如果我们有很长的黄金摘要和模型)指标,理由是当我们增加N时,我们增加了需要在黄金摘要和模型中完全匹配的单词短语的N-gram 如果我们使用ROUGE-1,我们只考虑单词,这两个短语都是相同的。 如果我们使用ROUGE-1,则得分为7/8 = 0.875。 对于ROUGE-2,它是4/7 = ~0.57。 结果 获得的ROUGE-1和BLEU得分的平均值和标准差显示在下表中。 ? 每个总结的ROUGE分数是在这五个(个人重要摘要)分数中的最大ROUGE分数。

    1K20

    文本自动摘要任务的“不完全”心得总结

    ROUGE的基本原理:统计候选摘要句和标准摘要句重叠的基本语义单元(如n-gram),来评价摘要的质量。根据不同的计算重叠的方式,可以将ROUGE分为以下几类: ? 每个ROUGE系列的计算结果又可以细分为precision,recall和f-beta分数,下面为ROUGE-N的计算方法: 假设候选摘要句为 ? ,reference摘要句为 ? ROUGE-N-precision: ? ROUGE-N-recall: ? ROUGE-N-f-beta: ? ROUGE-L的计算方式与上述类似,但是针对是最长公共子序列的重合率计算。 ROGUE-W与ROUGE-L类似,不同的是考虑了连续最长公共子序列应该拥有更大的权重。 ROUGE-S,基于的是skip-gram。 for i=0;i<N;i++: 计算剔除第i个reference摘要后,剩余N-1的reference分别与候选句计算rouge值,取最大的那个 rouge_i end for 最后将所有rouge_i

    1K20

    检测播客中的无关内容(CS CL)

    我们通过评估播客总结的下游任务来证明我们的模型是有效的,并表明我们可以实质性地提高ROUGE 分数并减少摘要中生成的无关内容。 evaluating them on the downstream task of podcast summarization and show that we can substantively improve ROUGE

    19600

    论文笔记系列(一)-Seq2Seq与RL的结合综述!

    同时,选择ROUGE , BLEU, METEOR, CIDEr等方法,对模型的预测结果进行评价。 1.2 Seq2Seq模型的应用 文章总结了Seq2Seq的在各个领域的应用: ? mismatch in training and evaluating:在训练阶段选择的是交叉熵损失进行模型的训练,在预测阶段,选择ROUGE等方法来评估模型,这就导致了mismatch的问题,即交叉熵损失最小的模型并不一定在 ROUGE评估中效果最好,通过ROUGE等方法评估的最好的模型,并不一定能使交叉熵损失最小。 定义为前面已经选择的t-1个单词和当前模型的输入 Action:Action是根据某种策略选择一个单词作为时刻t的输出 Reward:奖励考虑立即的奖励和未来的奖励,这里的奖励可以理解为当生成完整个句子之后,通过ROUGE 通过ROUGE等方法得到reward并训练 为了保证训练和预测时模型的一致性,我们通过ROUGE等方法得到这批序列的reward,并使用如下的损失函数进行模型的训练: ?

    1.1K60

    扫码关注腾讯云开发者

    领取腾讯云代金券