首页
学习
活动
专区
工具
TVP
发布

大数据智能实战

大数据与人工智能方向的论文复现、技术探索、工程实践的点滴记录和积累。
专栏作者
256
文章
390573
阅读量
56
订阅数
NasNet实践:图像识别领域最佳模型
  谷歌最近推出的NasNet,是当前图像识别领域的最佳模型,近日对此模型进行复现了下,也大致了解了其原理。这个模型并非是人为设计出来的,而是通过谷歌很早之前推出的AutoML自动训练出来的。该项目目的是实现“自动化的机器学习”,即训练机器学习的软件来打造机器学习的软件,自行开发新系统的代码层,它也是一种神经架构搜索技术(Neural Architecture Search technology)。然而尽管AutoML 能够设计出性能可与人类专家设计的神经网络相媲美的小型神经网络,但仍被限制在 CIFAR-10 等小型学术数据集方面。
sparkexpert
2022-05-07
1.4K0
适用于大规模文档关键词抽取的利器(flashtext)
从文档中抽取关键词并对关键词相关的变体进行替换,是信息抽取中常用的做法之一,特别是基于规则词典的方法。常见的实现方式是基于正则表达式的方式,2017年的这篇文档介绍则实现了一种全新的算法及其实现原理:flashtext (Replace or Retrieve Keywords In Documents at Scale)。该方法的效率如下图所示:(时间效率上可以看出是一条平衡的直线,不随文档词的数量变化而变化。)
sparkexpert
2022-05-07
3980
Redis键时间老化的测试
在使用Redis数据库的时候,临时有一些数据更新的问题,于是进行查找,发现Redis本身自带有键值随时间更新老化的功能。还是非常强大的。
sparkexpert
2022-05-07
4240
C#进行Redis操作
由于一些程序是用.net来写的,刚好要访问以前的redis库,于是就找一些redis的.net客户端。
sparkexpert
2022-05-07
3170
基于WEKA实现时间序列的预测
然而时序预测也是一项比较难的地方,主要是短期预测可能还比较准,而对一段时间的预测则会比较难。
sparkexpert
2022-05-07
9270
scala对时间(date)字符串转化为时间戳timestamp的实现
在scala编程中,想实现从字符串转化为timestamp的过程中,查找相关资料,才发现资料还是不多。因此在这里将实现过程记录一下。
sparkexpert
2022-05-07
5250
基于Newtonsoft.Json进行JSON文档的解析
最近在处理一个JSON文档,想提取中国行政区划数据的时候,需要乃至JSON解析的工具,比较了下,.net系列的Newtonsoft.Json是一个性能比较优越的工具。
sparkexpert
2022-05-07
1.3K0
Spark NMF(非负矩阵分解)算法实现与测试
非负矩阵分解定义为:找到非负矩阵 与 使得 。在计算中等式两者很难完全相等。在计算中往往是根据某更新法则迭代更新出两个乘子,当上式左右两端的距离(如欧式距离)满足我们设定的大小,停止迭代。
sparkexpert
2022-05-07
4400
Spark实现HIVE统计结果导入到HBase操作
由于HIVE更新的机制极其不适应SPARK环境,于是利用HBase来执行HIVE中某些统计结果的更新。首先要做的是实现Spark + Hive访问,得到RDD,再将这个RDD导入到HBase中操作。 然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。 步骤主要是两步: (1)开启hive连接器,实现spark + hive的访问,得到dataframe对象。
sparkexpert
2022-05-07
5420
基于spark的网络爬虫实现
爬虫是获取网络大数据的重要手段,爬虫是一种非常成熟的技术了,然而想着在spark环境下测试一下效果.
sparkexpert
2022-05-07
4500
利用spark进行层次社团发现(louvain算法测试)
社团是复杂网络科学中一种重要的拓扑结构,也是物以类聚,人以群分自然现象在网络中的一种反映。因此对复杂网络进行社团发现是SNA(社会网络分析)中重要的内容之一。
sparkexpert
2022-05-07
1960
C# 随机生成手机号码(中国地区)
做大数据挖掘,其中通话记录是很重要的一种实时大数据。为了做实验,往往需要生成随机手机号。
sparkexpert
2022-05-07
1.2K0
spark mlib中机器学习算法的测试(SVM,KMeans, PIC, ALS等)
在学习spark mlib机器学习方面,为了进行算法的学习,所以对原有的算法进行了试验。从其官网(http://spark.apache.org/docs/latest/mllib-guide.html)上进行了相关文档的介绍学习,并通过其给定的例子包中相关进行测试。
sparkexpert
2022-05-07
4330
Apache mahout中HMM(隐马尔可夫)算法的测试
  隐马尔可夫模型(Hidden Markov Model,HMM)是概率学上的一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。
sparkexpert
2022-05-07
2460
Apache Mahout的KMeans算法测试
Mahout是Hadoop中实现数据挖掘的包,虽然现在一般用spark mlib,但是为了做比较,想着将mahout的算法进行验证测试一下。。
sparkexpert
2022-05-07
5720
使用Stanford NLP工具实现中文命名实体识别
使用斯坦福大学的分词器,下载地址http://nlp.stanford.edu/software/segmenter.shtml,从上面链接中下载stanford-segmenter-2014-10-26,解压之后,如下图所示
sparkexpert
2022-05-07
1.3K0
搜狗引擎查询日志的数据入库(Mysql…
为了进行hive与spark的开发,所以想以某个大规模数据集进行测试,找到了搜狗引擎的日志数据,网上公开的应该有一个月的数据,差不多为5000多万条,做测试应该是满足要求的。
sparkexpert
2022-05-07
9240
基于C3Framework开源人群计数框架的测试
C3Framework是一个开源的人群计数框架,在进行代码复现的时候,进行单张图片的测试。
sparkexpert
2019-08-01
7860
基于MSRCR的图像低光照增强实验
在计算机视觉处理中,常常需要对低光照图像进行数据增强,如夜晚灯光昏暗条件下的图像识别检测等。
sparkexpert
2019-07-10
1K0
AllenNLP系列文章之三:机器阅读
Machine Comprehension (MC) models answer natural language questions by selecting an answer span within an evidence text. The AllenNLP MC model is a reimplementation of BiDAF (Seo et al, 2017), or Bi-Directional Attention Flow, a widely used MC baseline that achieved state-of-the-art accuracies on the SQuAD dataset in 2017. The AllenNLP BIDAF model achieves an EM score of 68.3 on the SQuAD dev set, just slightly ahead of the original BIDAF system's score of 67.7, while also training at a 10x speedup (4 hours on a p2.xlarge).
sparkexpert
2019-05-27
6990
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档