科技艺术
01-08代码灵魂
+
关注
自信息高速以来,人们的生活都离不开网络,而互联网,渗透到我们生活的方方面面。购物,旅游,出行,天气,社交,游戏,支付,等丰富着我们的生活。
互联网中的信息,能够提供特定内容的目的,比如,网页游戏,公司网站,搜索引擎,技术资料,电视电影等,这些行业在网络中的发展,使商业界越来越多的人,以寻找用户特点,生活习性,来实现符合各类用户特点的信息的积累,这种积累,慢慢演变为大数据。
互联网
通过程序,所得到的数据的统计结果,使得含有程序的机器越来越聪明,仿佛知道用户寻求,而特意为各类用户安排各类符合用户特点的功能信息。从腾讯的海量用户小调查到,搜索引擎的,搜索记录,用户cookie 使得程序对用户的方向有了更加准确的定位。
今天小编跟大家一起探讨,关于小数据,到大数据,基础技术雏形,文字统计,
如果有人问,文字统计有什么用,那么小编,告诉你,对于,文字识别,语音识别,机器自动分析识别,人工智能判断都有用,是这些技术发展最基础的东西。
例:本小编写了一个小数据分析小工具,目前完成文字分析的第一步。
小编,将上面文字复制过去,进行分解,如上图所示,分解为373个字,其中,自动过滤标点符号。
对其进行统计,我们将得到,如上字数出现的次数。其中,每一个字出现的次数与不同之之间的比率就是概率。
假设 SUM 总= 文章中所有 字数, SUM 不同= 文章中不相同的字,CT_ NUM =每个字出现的次数,则满足如下关系式。
文字总数:∑ (SUM总)= S不同*CT_ NUM S不同=1,2,3,4,……∈SUM 不同)
概率:P= CT_ NUM/SUM 不同
如图:
小编辛苦码字,所得到的373个字中,其实只用了83个字,,也就是说,小编的上面那段文字中,只表达了,这83个字的信息量。
那么,该程序的具体过程呢?
创建一个名为WORD 的类,这个类有四个属性,其中,varText,varStartNum,varSumNum,varIsMaxNum
创建一个WORD 的类
创建读取每个字符的模块过程,
创建每个字符的模块,将输入的字符信息,转换为表示一个字对象的信息,这些信息,包括它的四个参数。
创建字符过滤条件源代码
创建字符统计过程,
此时
小编将前天发布的信息,认为原创度和质量不高的文章复制过来,
粘贴进去分析了一下如下图所示( 下面链接的文章)的信息量,缩短到二百个字了。难怪质量不怎么高。
为什么说现有的人工智能, 根本上讲还是计算器? (点开后复制粘贴的这篇文章)
也就是说,原文1506个字,不包含标点符号,而真正有用的不重复的字只有217个,说到这里,大家是不是觉得,汉字才是世界上最简洁的语言呢?
我们去看,字的频率差不多高的字,其中不难发现。程序,电,人工,算法,数学,等这些字出现的频率很高,
高频率字
于是,是不是可以说明,这篇 文章所表达的信息是围绕上面高频率字的文章呢,而这些高频字,属于科技这一块呢,这不是小编写的文章 ,为什么垂直度很高的原因。
如果我们对其排序,并再次将字与词的组合,进行一起分析,那么,我们用数学算法,将得到较为正确的关键词,
假设,每个字的出现,只与前后两个字有关系,那么它出现的概率的高低,所得到的信息就是比较有用的信息。
具体 我们在下一章讲。下一章:小数据到大数据, 机器分析, 人工智能的技术雏形之关键词提取技术
文章 中字的频次统计。
好了,今天写这里,喜欢机器人,及人工智能领域探索的小盆友们,别忘了点赞,收藏哦。
领取专属 10元无门槛券
私享最新 技术干货