【Excel】用公式提取Excel单元格中的汉字

昨天一个前端的朋友找我帮忙用excel提取代码中的汉字(字符串),可算费了劲儿了,他要提取的内容均在单引号中,但问题是没有统一的规律,同一个单元格可能存在多个要提取的内容,而且汉字中间也夹杂其他字符。所以总结了一下提取汉字的几种情况。

一、用公式提取Excel单元格中的汉字

对于一个混杂各种字母、数字及其他字符和汉字的文本字符串,要提取其中的汉字,在Excel中通常可用下面的公式。

例如下图A列中的字符串,要在B列提取其中的汉字(或词语)。

如果汉字位于字符串的开头或结尾,用LEFT或RIGHT函数即可提取,例如上图中A2:A4区域中的字符串。在B2中输入下面的公式:

=LEFT(A2,LENB(A2)-LEN(A2))

就会返回字符串中开头的几个汉字。

说明:LENB函数和LEN函数都可用返回文本字符串中的字符数,不同的是,LENB函数会将每个汉字(双字节字符)的字符数按2计数,LEN函数则对所有的字符,无论是单字节还是双字节都按1计数,因而公式中的“LENB(A2)-LEN(A2)”返回文本字符串中的汉字个数。

同样对于A6:A8区域中的字符串,在B6中用RIGHT函数即可:

=RIGHT(A6,LENB(A6)-LEN(A6))

如果汉字位于字符串的中间,可使用下面的数组公式。例如图中A10:A12区域中的字符串,在B10中输入数组公式:

=MID(A10,MATCH(2,LENB(MID(A10,ROW(INDIRECT("1:"&LEN(A10))),1)),),LENB(A10)-LEN(A10))

公式输入完毕,按Ctrl+Shift+Enter结束。

说明:公式先用MID函数将字符串中的每个字符分解到到一个字符数组中,然后用LENB函数返回各字符的的字符数,对于汉字会返回“2”。用MATCH函数取得第一个“2”的位置,即第一个汉字的位置,最后再用MID函数提取汉字。

使用上述公式时要求字符串中的汉字是连续的,中间没有其它字符分隔。

如果字符串中的汉字之间有其它字符分隔,例如上图中的A14单元格,要提取其中的所有汉字,可用下面的自定义函数。方法是:

1. 按Alt+F11,打开VBA编辑器,单击菜单“插入→模块”,在代码窗口中输入粘贴下面的代码:

Function 提取汉字(sString As String) As String Dim regEx As Object Set regEx = CreateObject("VBScript.RegExp") With regEx '搜索整个字符串 .Global = True '匹配非汉字 .Pattern = "[^\u4e00-\u9fa5]" '将字符串中的非汉字替换为空 提取汉字 = .Replace(sString, "") End With Set regEx = Nothing End Function

说明:上述代码定义了一个自定义函数“提取汉字”。代码利用RegExp对象使用正则表达式匹配模式,清除字符串中的所有非汉字,得到其中的汉字。

2. 返回Excel工作表界面,在B14单元格中输入公式:

=提取汉字(A14)

即可取得A14单元格字符串中的所有汉字。

二、用公式提取引号(某2个相同字符)之间的内容

公式:=MID(A2,FIND("'",A2)+1,FIND("^",SUBSTITUTE(A2,"'","^",2))-FIND("'",A2)-1)

如果要提取第一个字符和最后一个相同字符之间的内容,则修改公式为:

=MID(A2,FIND("'",A2)+1,FIND("^",SUBSTITUTE(A2,"'","^",LEN(A2)-LEN(SUBSTITUTE(A2,"'",""))))-FIND("'",A2)-1)

在excel中,如何查询字符串的第N次出现位置,或最后一次出现位置,使用公式:

最后一次出现位置 =FIND("这个不重复就行",SUBSTITUTE(A1,"-"," 这个不重复就行",LEN(A1)-LEN(SUBSTITUTE(A1,"-","")))) 第N次出现位置 假如查第四个\的位置 =find("这个不重复就行",substitute(A1,"\","这个不重复就行",4))

三、用FIND函数查找字符串中的双引号

有这样一个字符串 AB"CDEFG 想查找到双引号的位置, 公式是这样的

=FIND("""",E11)

而不是 =FIND(""",E11)

原文发布于微信公众号 - 大数据杂谈(BigData07)

原文发表时间:2018-03-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏性能与架构

正则表达式分析工具

下面这个正则表达式是什么意思? ((d{3,4})|d{3,4}-)?d{7,8}$ 这是一个很简单的表达式,相信很多同学都不能马上明白,需要认真看一会儿 ...

3356
来自专栏web前端教室

js数组去重的思路与缓动公式

前端开发的面试中,至少有一类题是必出的,那就是去重。什么叫去重呢?就是把一组字符串中重复出现的,都删除掉。 这种题重要的是解决的思路要正确,思路正确的话其实也很...

1908
来自专栏技术墨客

React 虚拟Dom渲染算法

React提供了一系列声明性的API接口,因此在使用时不必担心每次库的更新会修改API接口。这样可以降低编写应用的复杂度,但是带来的问题是无法很好的理解Reac...

1105
来自专栏编程之旅

Python——爬虫入门XPath的使用

Xpath即为XML路径语言(XML Path Language)。它是一种用来确定XML文档中某部分位置的语言。

814
来自专栏Crossin的编程教室

【Python 第26课】 操作list

上周给list开了个头,知道了什么是list。假设我们现在有一个list: l = [365, 'everyday', 0.618, True] 除了用for...

34511
来自专栏技术墨客

React学习(9)—— 高阶应用:虚拟Dom差异比对算法

React提供了一系列声明性的API接口,因此在使用时不必担心每次库的更新会修改API接口。这样可以降低编写应用的复杂度,但是带来的问题是无法很好的理解Reac...

572
来自专栏无所事事者爱嘲笑

正则表达式零宽断言详解(?=,?<=,?!,?<!)

1575
来自专栏数据结构与算法

浅谈"n个球"和"m个盒子"之间的乱伦关系

$f[n][m] = f[n - 1][m - 1] + m \times f[n - 1][m]$

723
来自专栏FreeBuf

如何在32位系统中使用ROP+Return-to-dl来绕过ASLR+DEP

传统的利用return-to-plt+ROP来绕过ASLR + DEP的技术需要知道库中函数的偏移地址,而在没有libc库的情况下可以使用Return-to-d...

2827
来自专栏玄魂工作室

怎样学Python 第二十三课 模块化处理用户输入基础

大家好,今天让我们来了解一个非常有用的模块,我很久以前就没有意识到这一点,这个模块允许我们简单而有效地使用命令行参数,它不仅会为我们处理这些争论,而且如果事情不...

29610

扫码关注云+社区