首页
学习
活动
专区
工具
TVP
发布
您找到你想要的搜索结果了吗?
是的
没有找到

用Python分析红楼梦,见证贾的兴衰

众所周知中文是以为单位,句子中所有的连起来才能描述一个意思。例如我是一个学生。计算机不能很容易明白“学”、“生”两个字合起来才表示一个词。...把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我是 一个 学生。...薛宝钗大致有两个阶段出场率比较高,一个是前25回到65回左右,这段期间正值贾势力鼎盛,宝玉和姐妹们在大观园里快乐地生活中。...另一个阶段就是95回后,大家安排宝玉和宝钗的婚事,而这时候贾已然走下没落。 ? 探春的出场在前八十回和后四十回有显著的不同,在八十回,相较于宝玉贾母等人,探春显得相对透明。...这个笑道可谓是见证了贾兴衰荣辱的核心词汇。在前八十回贾势盛,大家有说有笑,其乐融融。而之后随着贾衰败,众人笑声迅速较少,随之而来必是哀嚎嗟叹。

1.5K10

前端HTML空格转义符总结

此空格传承空格家族一贯的特性:透明的,此空格有个相当稳健的特性,就是其占据的宽度正好是1/2个中文宽度,而且基本上不受字体影响。...它是em之六分之一。...‌ 它叫零不连,全称是Zero Width Non Joiner,简称“ZWNJ”,是一个不打印字符,放在电子文本的两个字符之间,抑制本来会发生的连,而是以这两个字符原本的字形来绘制。...Unicode中的零不连字字符映射为“”(zero width non-joiner,U+200C),HTML字符值引用为: ‌ ‍ 它叫零,全称是Zero Width Joiner...,简称“ZWJ”,是一个不打印字符,放在某些需要复杂排版语言(如阿拉伯语、印地语)的两个字符之间,使得这两个本不会发生连的字符产生了连效果。

3.6K20

cc++中宽窄字符串函数对应关系

iswgraph()  isgraph()  测试字符是否是可见字符  iswlower()  islower()  测试字符是否是小写字符  iswprint()  isprint()  测试字符是否是可打印字符...打印和扫描字符串   字符函数  描述  fprintf()/fwprintf()  使用vararg参量的格式化输出  fscanf()/fwscanf()  格式化读入  printf()  使用...wcschr()  strchr()  查找子字符串的第一个位置  wcsrchr()  strrchr()  从尾部开始查找子字符串出现的第一个位置  wcspbrk()  strpbrk()  从一符字符串中查找另一符串中任何一个字符第一次出现的位置...  wcswcs()/wcsstr()  strchr()  在一符串中查找另一符串第一次出现的位置  wcscspn()  strcspn()  返回不包含第二个字符串的的初始数目  wcsspn...12.X窗口下支持中文的函数   1.

66800

HTML中的空格字符_dw空格代码怎么打

都会在浏览器中显示出来,如下图所示: 第二种:   是半角空格(En-Space),它的字符编码 ,en是字体排印学的计量单位,en表示的宽度是em宽度的一半,名义上是小写字母n的宽度,其占据的宽度正好是1/2个中文...此空格有个相当稳健的特性,其占据的宽度正好是1个中文宽度,而且基本上不受字体影响。...第五种:‌ ‌是零不连(全称是Zero Width Non Joiner,简称“ZWNJ”),是一个不打印字符,放在电子文本的两个字符之间,抑制本来会发生的连,而是以这两个字符原本的字形来绘制。...Unicode中的零不连字字符映射为(zero width non-joiner,U+200C),HTML字符值引用为‌。...第六种:‍ ‍是零(全称是Zero Width Joiner,简称“ZWJ”),是一个不打印字符,放在某些需要复杂排版语言(如阿拉伯语、印地语)的两个字符之间,使得这两个本不会发生连的字符产生了连效果

4.9K20

HTML空格符_HTML中什么表示特殊字符空格

此空格有个相当稳健的特性,其占据的宽度正好是1个中文宽度。   半角空格(En Space)字符编码 :en是字体排印学的计量单位。...此空格有个相当稳健的特性,其占据的宽度正好是1/2个中文宽度。   窄空格(Thin Space)占据的宽度比较小,它是em之六分之一。...‌ 零不连(Zero Width Non Joiner)字符编码‌:简称“ZWNJ”,是一个不打印字符,放在电子文本的两个字符之间,抑制本来会发生的连,而是以这两个字符原本的字形来绘制...‍ 零(Zero Width Joiner)字符编码‍:简称“ZWJ”,是一个不打印字符,放在某些需要复杂排版语言(如阿拉伯语、印地语)的两个字符之间,使得这两个本不会发生连的字符产生了连效果

4K10

什么是零空格?

研究一下,原来这串字符,有个名字叫Zero-width space,简称ZWSP,翻译过来就是"零空格",它是一种不可打印的Unicode字符,就是一般情况 肉眼不可见,但是当它变成URL的一部分,就会变成...三种常见的零字符, (1)不换行空格,全称No-Break Space,它是最常见和我们使用最多的空格,大多数的人可能这个字符叫做Zero Width Space,中文可称为"零空白",这个字符在主流文本编辑器中均没有任何显示效果...拷贝也会带上零空白,HTML字符值引用为:​ (2)零不连:不换行空格,全称No-Break Space,它是最常见和我们使用最多的空格,大多数的人可能它叫零不连,全称是Zero...Width Non Joiner,简称"ZWNJ",是个不打印字符,放在电子文本的两个字符之间,抑制本来会发生的连,而是以这两个字符原本的字形来绘制。...,简称"ZWJ",是个不打印字符,放在某些需要复杂排版语言(如阿拉伯语、印地语)的两个字符之间,使得这两个本不会发生连的字符产生了连效果。

1.6K30

fstream 中文路径_gradle files have changed

目录 中文路径 编译器 统一符集 修正方法 改全局的Locale 使用wstring 字符集改为字符集 升级编译器 一劳永逸 将fstream再包装 总结 ---- 在C++的标准库中,std::fstream...查了一些资料,说在VS2008、vs2005中,fstream的open函数中,会判断当前的全局编码环境,导致含中文的路径打开失败,也提到了很多修改方法,如让修改全局的Locale改为字符、使用字符集...我想linux环境中会怎么样,还需要测试下Gcc的现象、版本支持情况。在C++标准库中,不约定std::fstream的字符集支持与否的,这个问题肯定和编译器有关。...避免字符集的问题,最简单就是统一符集,各个涉及字符集的地方都统一,我们写的程序就适应环境的字符集,此时问题就出现了,对于跨平台的开发,linux和windows差别太大了,会引入很多问题。...2.调用C库函数转换为字符串mbstowcs. 该方法不可,不能转换中文,VC的实现中只是在每个字节前插入一个x0。

1.1K10

浅谈C中的wprintf和字符显示

作者的文章写得很明白易懂,虽然有一些概念上的细节问题我觉得有商榷之处;作者还给出一个简单的在windows下使用wprintf正确输出字符串“中文”的小例子,我linux下模仿作者给出的示例代码写了如下的示例代码...为 什么我在Linux下的程序就不对呢?我很不服气,于是开始以各种关键进行搜索,想看看别人是否遇到过类似的问题。...out     中文   使用了%ls,printf会将对应的参数视为字符串(wcs),而printf又对应byte stream,因此这里要对字符(wcs)进行转换,变成普通的字符串(mbs)。...out     中文    使用了%ls,wprintf会将对应参数视为字符串wcs,这次终于没有搞错。...貌似在linux下输出“中文"的正确方法是 wprintf( "%ls/n",L"中文") ,而引文中作者在Windows成功操作的wprintf("%s/n", L"中文")在linux无法正确工作,

97520

一朝入梦,终生不醒:再看红楼梦,也谈石头记

但是盛极必衰,贾年轻一代子弟毫无作为,没有出几个翰林和进士,树大招风且贾势力日渐淡薄。最终靠山失势,其他家族衰落,最后的屏障不再,一损俱损。...其中,又有刘姥姥三进贾这条辅助线,她见证了贾由盛转衰的过程,我们也看到一个知恩图报的姥姥,她很感恩多年来贾府上下对自己的恩惠(虽然对于贾而言是九牛一毛),当贾落败后,她第一个挺身而出搭救巧姐于水火之中...在今天的中国,只要稍微有一点规模的公司(特别是像BAT这样的剧透,嫣然一个大贾),都很像贾。...一个概念的内涵越来越,外延也就越来越窄,林黛玉就是这样,她越是精进,到后来贾府里就一个贾宝玉能够懂她。...我相信很多.NET程序员仍然在.NET Framework上持续耕耘,而不去了解.NET Core,只在Windows平台的一亩三分地上舒适地走着,却对Linux平台拒绝了解,这也是导致国内众多.NET

93890

CTF之misc杂项解题技巧总结(1)——隐写术

字符是一种在浏览器中不打印的字符,大致相当于 display: none ,在许多文本应用中也不显示,比如邮箱、QQ、微信、文本编辑器等 html中有三种零字符 – 零空格、零、零不连...零字符在浏览器中对应的转义字符 零空格    ---   零不连  --- 零    --- 零字符在Unicode中的编码为 \u200B \u200C \u200D (五)word...默认情况下隐藏文字是不会被打印出来的。...破解:如果想知道是否有隐藏文本,可在文件选项中单击文件→选项→显示文件→选项→显示,在始终在屏幕上显示这些格式标记标签下选择隐藏文字复选框,即可查看,打印选项标签勾选打印隐藏文字即可打印。...安装: 推荐在linux环境下,下载stegdetect 源码包之后进入其目录,执行下面指令 linux32 .

59510

java graphics2d 乱码_Graphics2D 中文乱码

今天遇到了一个乱码问题,合成的小票图片上的中文全部变成了口口口,后来在网上查了资料,发现是Graphics2D用了宋体,而linux服务器上没有对应的字体库。 把本地的字体库上传上去就解决了。...本地字体库位置:(winXP 宋体)C:\WINDOWS\Fonts\simsun.ttc simsun.ttc 改名为 simsun.ttf rz命令(需提前装,其它方式也行)复制到linux:/usr...结果测试下来,英文没有问题,中文打印为方块。 环境描述: 开发平台为WinXP,测试环境为Solaris10。 数据来源: 用以打印到图片的信息通过Web serice从另一系统获取。...我的动作是: 1) 指定打印到图片的字体为中文 Java代码 g2d.setFont(new Font(“宋体”, Font.PLAIN, 12)); 2) 上传WinXp 中的宋体字体文件到服务器...打印图片中文乱码问题到这里就解决了。

2.1K20

用Python分析《红楼梦》:见证了贾的兴衰,你是否还能“笑道”世事无常

DT君注:自由度的思想是,如果一个组合是一个不完整的单词,那么它总是作为完整单词的一部分出现,所以相邻的就会比较固定。...我们可以从第一个开始,计算前两个字,前三个,前四个……的最佳切分方案,并且把这些方案保存起来。 因为我们是依次计算的,所以每当增加一个的时候,我们只要尝试切分最后一个单词的位置就可以了。...我们知道,一般中文单词的长度不会超过四个,因此在程序枚举切分方法的时候,只需要尝试最后四个切分位置就可以了。这样就把最长的切分片段限制在了四个以内,而且对于长句子来说也减少了很多不必要的尝试。...莫非“笑道”的词频和贾的发展状况有关? 有趣的是,“笑道”的词频顶峰出现在第50回左右,而有些人从剧情的角度分析认为贾的鼎盛时期开始于第48、49回,恰好重合。...也许“笑道”这一看似平常的词汇确实侧面反应了贾的兴衰史呢。虽然因果关系有待考证,不过想想也有一点道理,毕竟只有日子过的好的时候人们才会爱笑。

88170

#5 Python变量与输入输出

(答对不得分,答错扣41分) 高中题目:现有一个长方体,长a=10cm,b=5cm,计算其面积s。 (答对不得分,答错扣41分) 大学题目:现有 一个长方体,长为a,为b,请计算其面积s。 ...,Python关键有:and, as, assert, break, class, continue, def, del, elif, else, except, exec, finally, for...,这该死的无处安放的魅力啊~ 7.Python3变量的特殊之处 如果让我说,PYthon3变量最特殊的地点在哪,那一定是Python3中可以用中文命名变量了: In [71]: 长=10 In [72...,变量不要用中文去命名,符合国际范好吗?...还有就是长就是长,就是,高就是高,不要用a啊,b啊,c啊,要用length,要用width,高要用high,其他的变量也一样,如果实在不清楚英文单词的,用汉语拼音去命名,而且关键变量要有注释!!!

1K30

爬虫(104)教你词云分析拉勾网数百个职位招聘详

拉勾网数百个职位招聘详数据,这里小编已经为大家准备好了 https://pan.baidu.com/s/1HG7rcgeLTpcemo-oT_KebA 密码 bvb8 我们需要读取这个文件 读取并打印出前面...生成词云对象 首先,默认情况wordcloud是不支持中文显示的,所以要先添加一个中文字体文件,一般是.ttf或.otf格式,你可以从网上搜索‘字体下载’找到想要的字体。...注意这里width=1600,height=1200,margin=100图像高只是原始图像的大小,至于后面显示出来的时候可能还会被放缩。...区分中英文 如果我们只关注英文技术点,比如python,tensorflow等,那就忽略中文内容。 使用正则表达式来匹配提取哪些由az小写字母和AZ大写字母加上0~9数字组成的单词。...,间距,需要配合下面的plt.figure(dpi=xx)放缩才有效 ) wc.generate(cuted) ?

49130

用Python分析《红楼梦》:见证了贾的兴衰,你是否还能“笑道”世事无常

DT君注:自由度的思想是,如果一个组合是一个不完整的单词,那么它总是作为完整单词的一部分出现,所以相邻的就会比较固定。...我们可以从第一个开始,计算前两个字,前三个,前四个……的最佳切分方案,并且把这些方案保存起来。 因为我们是依次计算的,所以每当增加一个的时候,我们只要尝试切分最后一个单词的位置就可以了。...我们知道,一般中文单词的长度不会超过四个,因此在程序枚举切分方法的时候,只需要尝试最后四个切分位置就可以了。这样就把最长的切分片段限制在了四个以内,而且对于长句子来说也减少了很多不必要的尝试。...(图片说明:图中横坐标是章回编号,纵坐标是“笑道”的词频) 可以发现,“笑道”的词频是先增加再减少的,这不禁让我联想到了贾兴衰的过程。莫非“笑道”的词频和贾的发展状况有关?...有趣的是,“笑道”的词频顶峰出现在第50回左右,而有些人从剧情的角度分析认为贾的鼎盛时期开始于第48、49回,恰好重合。 也许“笑道”这一看似平常的词汇确实侧面反应了贾的兴衰史呢。

69300

Excel 常用的九十九个技巧 Office 自学教程快速掌握办公技巧

30、快速互换行或者列选中表格内的行列,按住【Shift】键不放,当鼠标指针变成十形时,拖动到想换到的位置即可。...40、打印工作表中不连续区域在打印时不需要整页打印可以按【Ctrl】键的同时选取表格内需要打印的区域,再点击【文件】-【打印区域】-【设置打印区域】即可。...61、多页强制打印到一页上页面布局 - 打印标题 - 页面 - 调整为 1 页 1 页高。62、插入分页符选取要插入的位置 - 页面布局 - 分页符 - 插入分页符。...73、阿拉伯数字转换大写数字选中需要转换的数字区域,按 Ctrl+1 键调出设置单元格格式窗口,在【数字】页面,分类选择【特殊】,类型列表中选择【中文小写数字】,就转换成中文小写,选择【中文大写数字】,...就转换成中文大写。

6.9K21
领券