最近实现的一个分离文章内容功能,挺有意思,分享一下

这个功能的描述是:

把一本符合markdown语法写的书里面的所有大章节里面内容的每个大标题和该标题对应下的内容做分离,一 一对应。

一般会出现这种问题的场景:

  • 笔试算法题
  • 产品需求

举个例子,有一段内容是如下:

### 糖尿病的症状 (这是 markdown 的第三级标题)
初期的症状体现在.....

分离后要求达到:

title   ===> 糖尿病的症状
content ===> 初期的症状体现在...

对我而言,这个功能的目的是:

我们把一本书分割成上述的样子,数据存入数据库。供搜索使用。搜索方式,以 title 或 content 做模糊匹配,命中即返回。

相信看到这里的读者都能清楚知道上面谈的是什么,但愿我的文字能通俗易懂,文字多了,我也记不住,累赘。

实现思路:

  • 正则匹配 ------------- ①
  • 逐行处理 ------------- ②

先谈谈正则匹配下的处理:

  • 优点
    • 写好匹配式,其它交给 API,方便
  • 缺点
    • 难度大,上述问题的内容掺杂情况有很多种

然后是逐行处理处理:

  • 优点
    • 逻辑可控,可丰富自定义处理,例如过滤和二重分割,属于完整的字符串操作
    • 代码清晰,速度快一些
  • 缺点
    • 消耗内存多一些

两种方法的对比:

  • 效率,平分
  • 可读性,② > ①
  • 整体内存占比,② > ①

举个例子对比:

标题有下面的 markdown 代码形式:
###   第一种标题
####  第二种
##### 第三种[点我](http://www.xxx.com)
### ``第四种``
### <strong>第五种,嵌套html标签</strong>
...
采用正则表达式处理的时候

对于上面的情况,第一次的正则拿出标题内容很简单,例如这个: ###? 从三个#号开始贪婪匹配。这样我们可以拿出标题,但是标题里面还掺杂着一些其他标签。你会想,有没有可能在正则匹配就把掺杂的标签去掉。那这个是肯定可以的,代价就是高超的正则匹配式子,且现在还没考虑内容的情况。

为什么非要去掉标签呢? 因为这是标题,标题将会被用作搜索的 key,且返回给前端的时候,你不能把这个解析符号也给前端对吧?去掉了有以下好处:

  • 减少搜索的 o(n)
  • 方便显示
采用逐行处理的时候

我们从文件中读出第一行 ### 第一种标题,replace 函数处理掉 ### 等符号,这里循环处理即可去掉指定的任何符号。 读出第三行的时候 ##### 第三种[点我](http://www.xxx.com),处理掉,##### [ ] ( 等,剩下就是完美:第三种点我

看到这,你是否觉得事情变简单了?

我们知道 markdown 的非标题内容部分,符号和标签更是多种多样,如果我们用正则解决,假设标题能完美处理,那么内容怎么办呢? > 如果去掉内容的其他无用标签,或者要求特定保存一些,等情况,多批次的正则过滤将会是花销巨大的操作。

解决流程:

无论是正则匹配方案 还是 逐行处理方案,这两种我都写了对应的引擎函数,通过且以后者运行谓之0 bug。实现的时间加起来不足 3.5 小时。后者尤其快,下面我仅主要介绍后者的解决流程

先明确几个细节点
  • 只有标题没对应内容,自动补充为空字符串
  • 只有内容没对应标题,不录入
例如
内容66655
####  标题一
####  标题二
456789....

输出:

title[0] ===> "标题一" , content[0] ===> ""
title[0] ===> "标题二" , content[0] ===> "456789...."

流程图

至此,已经很简答,例如 Java 语言的 String API startWith 就能用在判断是否是titleif(startWith"####") 过滤方面,replace 之类的函数,等都可以。公司代码,不便公开。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏杨建荣的学习笔记

对一道if-else相关的程序题的简单分析(r5笔记第45天)

今天同事在微信群里提出了一个问题,看似是一个面试题。 大体的意思就是补充下面if条件使得输出 Hello World if(){ System.out.prin...

3445
来自专栏青玉伏案

窥探Swift之基本数据类型

  在上一篇博客“窥探Swift编程之在Playground上尽情的玩耍”中介绍了如何使用Playground来学习Swift语言。本篇博客就使用Playgro...

1845
来自专栏我是攻城师

理解递归算法的原理

递归(Recursion)在计算机科学中是指一种通过重复将问题分解为同类的子问题而解决问题的方法,其核心思想是分治策略。 递归式方法可以被用于解决很多的计算机科...

1371
来自专栏Java技术栈

进阶 | Java生成随机数的几种高级用法!

1523
来自专栏达摩兵的技术空间

单词片段分割–0328代码练习

首先不要公式绝对的误导,其前面的数值加起来其实就是字符串的总长度,而后面的4是指不间隔的片段计数,而不间隔,突然想到之前学到的数组的reduce方法不就是可以拿...

652
来自专栏一个会写诗的程序员的博客

《Kotin 极简教程》第7章 面向对象编程(OOP)(1)第7章 面向对象编程(OOP)《Kotlin极简教程》正式上架:

在前面的章节中,我们学习了Kotlin的语言基础知识、类型系统、集合类以及泛型相关的知识。在本章节以及下一章中,我们将一起来学习Kotlin对面向对象编程以及函...

772
来自专栏C/C++基础

C++0x 通用属性

C++在不断的发展,但每一阶段的C++标准提供的功能都很难完全满足现实需求,于是为了弥补标准的不足或者扩增特性应用场景所需的特性,各大C++编译器厂商多多少少在...

762
来自专栏我的博客

算法复杂度

算法复杂度 分为时间复杂度和空间复杂度。即算法在编写成可执行程序后,运行时所需要的资源,资源包括时间资源和内存资源。 时间复杂度 在计算机科学中,算法的时间复杂...

3116
来自专栏hbbliyong

C#神奇的扩展方法

以前总听说扩展方法扩展方法,只是听说是C#3.0后出来的新玩意,也仅仅是知道Linq中用到好多的扩展方法,但是他究竟是个什么东东,怎么用它,用它的好处是什么...

2735
来自专栏lgp20151222

Java的常量接口思考,项目中的常量是放在接口里还是放在类里呢?

最近在看一本书 Java与模式,里面提了一句不建议使用常量接口,甚至举了个java源码的反例,

831

扫码关注云+社区