首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

小数据到大数据,机器分析,人工智能的技术雏形之文字统计

科技艺术

01-08代码灵魂

+

关注

自信息高速以来,人们的生活都离不开网络,而互联网,渗透到我们生活的方方面面。购物,旅游,出行,天气,社交,游戏,支付,等丰富着我们的生活。

互联网中的信息,能够提供特定内容的目的,比如,网页游戏,公司网站,搜索引擎,技术资料,电视电影等,这些行业在网络中的发展,使商业界越来越多的人,以寻找用户特点,生活习性,来实现符合各类用户特点的信息的积累,这种积累,慢慢演变为大数据。

互联网

通过程序,所得到的数据的统计结果,使得含有程序的机器越来越聪明,仿佛知道用户寻求,而特意为各类用户安排各类符合用户特点的功能信息。从腾讯的海量用户小调查到,搜索引擎的,搜索记录,用户cookie 使得程序对用户的方向有了更加准确的定位。

今天小编跟大家一起探讨,关于小数据,到大数据,基础技术雏形,文字统计,

如果有人问,文字统计有什么用,那么小编,告诉你,对于,文字识别,语音识别,机器自动分析识别,人工智能判断都有用,是这些技术发展最基础的东西。

例:本小编写了一个小数据分析小工具,目前完成文字分析的第一步。

小编,将上面文字复制过去,进行分解,如上图所示,分解为373个字,其中,自动过滤标点符号。

对其进行统计,我们将得到,如上字数出现的次数。其中,每一个字出现的次数与不同之之间的比率就是概率。

假设 SUM 总= 文章中所有 字数, SUM 不同= 文章中不相同的字,CT_ NUM =每个字出现的次数,则满足如下关系式。

文字总数:∑ (SUM总)= S不同*CT_ NUM S不同=1,2,3,4,……∈SUM 不同)

概率:P= CT_ NUM/SUM 不同

如图:

小编辛苦码字,所得到的373个字中,其实只用了83个字,,也就是说,小编的上面那段文字中,只表达了,这83个字的信息量。

那么,该程序的具体过程呢?

创建一个名为WORD 的类,这个类有四个属性,其中,varText,varStartNum,varSumNum,varIsMaxNum

创建一个WORD 的类

创建读取每个字符的模块过程,

创建每个字符的模块,将输入的字符信息,转换为表示一个字对象的信息,这些信息,包括它的四个参数。

创建字符过滤条件源代码

创建字符统计过程,

此时

小编将前天发布的信息,认为原创度和质量不高的文章复制过来,

粘贴进去分析了一下如下图所示( 下面链接的文章)的信息量,缩短到二百个字了。难怪质量不怎么高。

为什么说现有的人工智能, 根本上讲还是计算器? (点开后复制粘贴的这篇文章)

也就是说,原文1506个字,不包含标点符号,而真正有用的不重复的字只有217个,说到这里,大家是不是觉得,汉字才是世界上最简洁的语言呢?

我们去看,字的频率差不多高的字,其中不难发现。程序,电,人工,算法,数学,等这些字出现的频率很高,

高频率字

于是,是不是可以说明,这篇 文章所表达的信息是围绕上面高频率字的文章呢,而这些高频字,属于科技这一块呢,这不是小编写的文章 ,为什么垂直度很高的原因。

如果我们对其排序,并再次将字与词的组合,进行一起分析,那么,我们用数学算法,将得到较为正确的关键词,

假设,每个字的出现,只与前后两个字有关系,那么它出现的概率的高低,所得到的信息就是比较有用的信息。

具体 我们在下一章讲。下一章:小数据到大数据, 机器分析, 人工智能的技术雏形之关键词提取技术

文章 中字的频次统计。

好了,今天写这里,喜欢机器人,及人工智能领域探索的小盆友们,别忘了点赞,收藏哦。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180108G0PCAV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券