学习
实践
活动
专区
工具
TVP
写文章

数据揭秘:中国姓氏排行榜

就做 “东半球第二有趣的中国姓氏排行榜”吧! 既然是“数据团”出品的姓氏排行榜,必然不能数数人头就敷衍了事。 (具体排名见文章末尾) ---- 1.普遍指数 普遍指数=姓氏人口数量 毫无悬念,“王”姓以占据中国人口8.1%的比例、接近1亿的人口总数,夺得了中国第一大姓、地球第一大姓、宇宙第一大姓的桂冠。 这三大姓加起来,占据中国总人口的22%(由于我们掌握的数据不是完全的随机抽样,各个姓氏的排名与比例可能与其它统计结果略有不同)。 ? 总的来说,“王张李刘陈杨赵周吴徐”10大姓占据了中国总人口的43%;20大姓占据56%,而前100的大姓占据了88%! ? 但是,别看这些大姓多么牛逼,其实都发源于极少数的几个姓:姬、嬴、姜、妫等。 而还保留着这个古老姓氏的人口,也仍然栖息在古老中华文明的发源地——河南。 ? 从姬姓的例子中我们看到,一些较小的姓氏在空间上的分布是高度集中的。这可能是因为较小姓氏的发源地相对单一吧。

715100

Pytorch | RNN分类姓氏

Author:By Runsen 原文:https://maoli.blog.csdn.net/article/details/104436267 11.2 Pytorch 11.2.5 RNN分类姓氏 ── Spanish.txt └── Vietnamese.txt 在 data/names 目录中包含18个名的 "[Language].txt" 文本文件,每个文件都包含不同国家的一堆姓氏 (name),我们将建立和训练一个基本的字符级RNN进行分类单词,最后的预测作为输出,即判断出哪里姓氏属于哪个国家。 ,我们需要从Unicode转换为ASCII码,构造category_lines字典,key储存国家名字,value储存姓氏,all_categories列表储存数据集中的所有国家名字。 每种语言的名称列表 category_lines = {} all_categories = [] # 读取一个文件并分成几行 def readLines(filename): # 换行符分割姓氏

42811
  • 广告
    关闭

    新年·上云精选

    热卖云产品新年特惠,2核2G轻量应用服务器9元/月起,更多上云必备产品助力您轻松上云

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    中国姓氏大数据,看看你本家的牛逼指数和抱团指数

    就做 “东半球第二有趣的中国姓氏排行榜”吧! 事实上,我为这个排行榜设计了丰富的内容:普遍指数、抱团指数、奔波指数、装逼指数、风雅指数等。 下面就开始对这个排行榜进行阐释吧! (具体排名见文章末尾) 1、普遍指数 普遍指数=姓氏人口数量 毫无悬念,“王”姓以占据中国人口8.1%的比例、接近1亿的人口总数,夺得了中国第一大姓、地球第一大姓、宇宙第一大姓的桂冠。 这三大姓加起来,占据中国总人口的22%(由于我们掌握的数据不是完全的随机抽样,各个姓氏的排名与比例可能与其它统计结果略有不同)。 ? 总的来说,“王张李刘陈杨赵周吴徐”10大姓占据了中国总人口的43%;20大姓占据56%,而前100的大姓占据了88%! 但是,别看这些大姓多么牛逼,其实都发源于极少数的几个姓:姬、嬴、姜、妫等。 而还保留着这个古老姓氏的人口,也仍然栖息在古老中华文明的发源地——河南。 从姬姓的例子中我们看到,一些较小的姓氏在空间上的分布是高度集中的。这可能是因为较小姓氏的发源地相对单一吧。

    84530

    map对象建立家族姓氏查询

    题目:定义一个map对象,其元素的键是家族姓氏,而值是存储该家族孩子名字的vector对象。为这个map容器输入至少六个条目。通过基于家族姓氏的查询检测你的程序,查询应输出该家族所有孩子的名字。 1 //定义一个map对象,其元素的键是家族姓氏 2 //而值则是存储该家族孩子名字的vector对象 3 //进行基于家族姓氏的查询,输出该家族所有孩子的名字 4 #include<iostream map<string , vector<string> > children; 13 string surname , childName; 14 15 //读入条目(家族姓氏及其所有孩子的名字 ret.second){//该家族姓氏已在map容器中存在 26 cout<<"repeated surname: "<<surname<<endl; 27 iterator iter = children.find(surname); 44 45 //输出查询结果 46 if(iter == children.end()) //找不到该家族姓氏

    34680

    数据库简史(二),戏说中国数据库诸侯史

    中国数据库历史要从 1982年的“数据库系统概论” 出自萨师煊老师之手开始说起,同时还有王珊老师,这二位都是来自人民大学。 而实际上中国的纯商业数据库公司是在中国互联网企业发展中开始应运而生得,这点和国外不一样,中国人口众多,当时的国外的数据库例如ORACLE 已经基本上满足不了互联网企业的对高并发,高扩展,以及容量等方面的原因 ,所以就有中国的后近代数据库历史的二次发展。 从那时起,MYSQL 开始走入中国的互联网,并到如今一发不可收拾。 2011 年巨杉数据库成立走的和之前的那些数据公司不同的是,专注分布式数据库。 未来中国数据库市场,恐怕是要过过 “春秋战国” 这个历史时期

    61040

    中国如何翻过数据库这座大山?

    随着互联网发展,以及棱镜门事件的出现,中国终于迎来了数据库发展的转机,涌现出百花齐放的数据库服务形态。 在8月28日的腾讯云数据库战略升级发布会上,来自中国计算机行业协会常务理事、DBAplus社群联合创始人韩锋,中国计算机行业协会、开源数据库专委会会长、极数云舟创始人兼CEO周彦伟,腾讯云数据库产品总监王义成 腾讯云数据库将以云+数据库的战略升级,助推数据库行业的发展和行业的变革,整体助力中国产业互联网的升级。 Q:随着国产数据库的不断崛起,中国将如何翻过数据库这座大山? 张文亮:国产数据库从零到现在有20年了,我们目前为止也没有爬过去,但至少爬到了一半或者更多的路程。 在20年的过程中,让中国人意识到了,数据库的基本技术,中国是可以掌握的。 目前,我们看到两个大的趋势,一是“云+数据库”,二是“人工智能+数据库”,如果看研究论文的话,基本上都是华人或者中国人发表的一些研究成果,所以中国有希望在这个潮流里中占得一些先机。

    9730

    从Gartner报告,看中国数据库崛起

    特别是阿里云,在Gartner公布2020年度全球数据库魔力象限评估结果,作为中国科技公司代表,首次挺进全球数据库第一阵营——领导者(LEADERS)象限,这也是中国数据库40年来首次进入全球顶级数据库行列 本文将从Gartner报告入手,谈谈中国数据库力量的崛起。 1. 解读数据库魔力象限 人生基本上就是两件事,选题和解题。最好的人生是在每个关键点上,既选对题,又解好题。 从上面Gartner的报告到国内企业数据库市场变化可见,中国力量正逐步崛起。下面从若干现象,看这一趋势。 1).参与国际评估与测试 从上面谈到的Gartner全球数据库魔力象限,到近些年来Gartner收录的其他分类产品分析。有越来越多的中国厂商,被提及。 从阿里、腾讯、华为等云厂商,到南大通用、巨杉、星环等数据库厂商。更多的中国产品被国外所了解。与Gartner类似的Forrester报告,也呈现出这一特点。

    38610

    【观点】用数据分析的方法来研究历史

    从这个角度把握中国历史,不仅帮助我们理解今天是怎么来的,也更能帮助我们判断中国将往哪里去。▌是姓氏固化了社会阶层吗?姓氏是一个人的血缘背景关系的标志和符号。 秦汉以后,姓与氏合一,遂称“姓氏”。唐宋后中国姓氏学逐步定型。英国原来也只有名,到13、14世纪才出现姓氏,一开始也是只有贵族才有,后来逐步扩散至一般平民。 德国、法国、丹麦等西方社会,印度、日本等亚洲社会的姓氏规则也大致如此,姓氏的目的很明确,就是记录下血缘和出身背景信息。中国人命名的规则是姓氏不区分个体而以名区分彼此,西方社会则反之。 在中国,超过100人的姓氏只有4000多个,而美国超过100人的姓氏则多达20余万。因此,相对而言,姓氏在美国等西方社会所包含的血缘与出身背景信息比在中国更多,更能阻碍社会阶层的流动。 Clark教授把姓氏研究方法应用到了中国

    49461

    PostgreSQL 是中国第一的开源数据库

    根据中国信通院发布的2021年的数据库发展报告中提到的2020年的全球数据库市场的规模 35亿,以及中国数据库市场的规模241亿 (单位RMB),来说,数据库的这块大肥肉谁不想咬一口。 ? 当然之前国内的情况大家都知道, ORACLE ,ORACLE ORACLE,在中国数据库业,那是老大的地位,基本上每个单位都在,合法和非法的使用了大量的ORACLE,地位那是无法撼动的。 (实际上付费和免费到没有那么重要) POSTGRESQL 数据库实际上是唯一一个可以,让ORACLE滚蛋的传统的数据库, 也是一个可以让国内各家数据库企业可以放心大胆的模仿和使用以及拆解的数据库。 4 国际形势的帮助, 目前中国急需一个摆脱 ORACLE 的替换性“选手”,如果单纯靠自己开发,那就如同中国的汽车产业,所以目前中国要搞电动汽车的含义如同目前大家都在用 POSTGRESQL 搞二次开发是一个意思 所以POSTGRESQL 是不是中国第一的开源数据库,这没有什么好说的,实力如此,剩下的就是看POSTGRESQL 各方面的产业继续飞速发展了, 如培训, 二次开发,以及相关周边的各种辅助软件与项目的发展了

    3.2K50

    零零信安-D&D数据泄露报警日报【第21期】

    文件大小:20 GB数据:用户名、名字、姓氏、电子邮件、电话、国家、关注者、关注者、注册日期。示例:1k行价格:1000$ 5份2.4.  大量信用卡信息泄露涉及国家/组织: BidenCash售卖人:haxdiver样例数据:有数据量:超120万条详情:存档包含PAN、CVV2、到期日期、姓名、姓氏、送货地址和电子邮件! 该数据库还包括美国持卡人的社会安全号码。根据威胁情报Cybele,属于全球持卡人的支付卡数据,包括美国、加拿大、印度、孟加拉国、沙特阿拉伯、阿联酋、印度尼西亚、马来西亚和新加坡。 受影响消费者排名前十的国家是美国、印度、巴西、英国、墨西哥、土耳其、西班牙、意大利、澳大利亚和中国。价格:免费2.5.  美国某订票网站数据泄露涉及国家/组织:美国售卖人:302513样例数据:有数据量:465万条详情:美国订票网站数据465万数据字段:名字、姓氏、地址、城市、州、邮编、电话号码、邮箱。

    12230

    hanlp自然语言处理包的人名识别代码解析

    HanLP发射矩阵词典nr.txt中收录单字姓氏393个。 袁义达在《中国的三大姓氏是如何统计出来的》文献中指出:当代中国100个常见姓氏中,集中了全国人口的87%,根据这一数据我们只保留nr.txt中的100个常见词语的姓氏角色,其他词语去掉其姓氏角色状态。 过滤后,nr.txt中具有姓氏角色的单字共计97个。 错误识别的人名,100个常用姓氏的不多,很多恐怕是HanLP里其他词表干预进来的。 隐马一般用于分词和词性标注是比较好的,为什么通常的序列标注方法也就是BIEO方法直接用到实体识别不合适呢。 在精度要求比较高且时间紧的情况下,最好的提高准确率的方法为,只保留常用姓氏,只保留最可能的2gram角色标记模式。

    39730

    Gartner数据库魔力象限:中国队在哪里?

    没有人愿意为了使用一个新数据库去改变应用程序,即便这个数据库是谷歌出品的也一样。在兼容性方面,亚马逊的确是要做的好很多。 3 这个魔力象限图让我觉得最大的遗憾是中国厂商到底在哪里。 我是由衷的希望看到中国数据库厂商能够在Gartner的魔力象限里面占到一个合理的位置。因为道理也很简单啊,是骡子是马,拉出来溜溜呗。 按理说,我们国产数据库现在已经如火如荼了,很牛了。 但是不管怎么样,我还是很希望Gartner的魔力象限里面能够出现中国企业的名字。 不然的话,作为一个做数据库的,别人问我国内数据库到底做得怎么样,我在说做得很牛很好,连Oracle都全面被替换掉的同时,总免不了有些心虚。

    1.1K90

    中国自主的数据库评测,是如何开展的?

    在评测不断开展和完善的过程中,InfoQ 受邀参加了 2021 第十三批第二场数据库评审,也和中国信通院云计算与大数据研究所高级业务主管马鹏玮聊了聊,希望能了解到更多关于信通院数据库评测设计和评审的信息 据 InfoQ 了解,目前信通院数据库评测整体涵盖几个方向,从应用类型上可分为事务数据库和分析型数据库;从数据模型上可分为图数据库、文档数据库、键值型数据库和时序数据库;从产品部署形态上,也有关系型云数据库参与评测 针对同一款产品,信通院按照产品基础能力、产品性能和产品稳定性来划分评测维度,总体形成“中国信通院可信数据库评测评估体系”。 所以,信通院数据库评测在整体设计上,首要解决的是“全面评测”的问题。 反映在具体的测试方法上,就像前文提到的,一是涵盖的数据库类型全面;二是针对某一数据库产品,测试的维度全面。 3 从测试结果看国产数据库发展情况 “全面”、“公平公正”的理念,无疑也得到了相当多企业的认可,在最近的一次数据库评测(第十三批评测)中,来自不同公司的八十余款数据库产品通过了基础能力评测,几乎覆盖了国产数据库

    16720

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 云数据库 MySQL

      云数据库 MySQL

      腾讯云数据库MySQL是一种高性能、高可靠、高安全、可灵活伸缩的数据库托管服务,其不仅经济实惠,而且提供备份回档、监控、快速扩容、数据传输等数据库运维全套解决方案,为您简化 IT 运维工作,让您能更加专注于业务发展。

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券