腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据智能实战

大数据与人工智能方向的论文复现、技术探索、工程实践的点滴记录和积累。

专栏作者

256

文章

390573

阅读量

56

订阅数

NasNet实践：图像识别领域最佳模型

机器学习深度学习人工智能编程算法神经网络

　　谷歌最近推出的NasNet，是当前图像识别领域的最佳模型，近日对此模型进行复现了下，也大致了解了其原理。这个模型并非是人为设计出来的，而是通过谷歌很早之前推出的AutoML自动训练出来的。该项目目的是实现“自动化的机器学习”，即训练机器学习的软件来打造机器学习的软件，自行开发新系统的代码层，它也是一种神经架构搜索技术(Neural Architecture Search technology)。然而尽管AutoML 能够设计出性能可与人类专家设计的神经网络相媲美的小型神经网络，但仍被限制在 CIFAR-10 等小型学术数据集方面。

2022-05-07

1.4K0

适用于大规模文档关键词抽取的利器(flashtext)

从文档中抽取关键词并对关键词相关的变体进行替换，是信息抽取中常用的做法之一，特别是基于规则词典的方法。常见的实现方式是基于正则表达式的方式，2017年的这篇文档介绍则实现了一种全新的算法及其实现原理：flashtext (Replace or Retrieve Keywords In Documents at Scale)。该方法的效率如下图所示：(时间效率上可以看出是一条平衡的直线，不随文档词的数量变化而变化。)

2022-05-07

3980

Redis键时间老化的测试

编程算法云数据库 Redis http 数据库 sql

在使用Redis数据库的时候，临时有一些数据更新的问题，于是进行查找，发现Redis本身自带有键值随时间更新老化的功能。还是非常强大的。

2022-05-07

4240

C#进行Redis操作

云数据库 Redis .net c#编程算法网络安全

由于一些程序是用.net来写的，刚好要访问以前的redis库，于是就找一些redis的.net客户端。

2022-05-07

3170

基于WEKA实现时间序列的预测

然而时序预测也是一项比较难的地方，主要是短期预测可能还比较准，而对一段时间的预测则会比较难。

2022-05-07

9270

scala对时间(date)字符串转化为时间戳timestamp的实现

java 编程算法 unix python http

在scala编程中，想实现从字符串转化为timestamp的过程中，查找相关资料，才发现资料还是不多。因此在这里将实现过程记录一下。

2022-05-07

5250

基于Newtonsoft.Json进行JSON文档的解析

http json 编程算法

最近在处理一个JSON文档，想提取中国行政区划数据的时候，需要乃至JSON解析的工具，比较了下，.net系列的Newtonsoft.Json是一个性能比较优越的工具。

2022-05-07

1.3K0

Spark NMF（非负矩阵分解）算法实现与测试

非负矩阵分解定义为：找到非负矩阵与使得。在计算中等式两者很难完全相等。在计算中往往是根据某更新法则迭代更新出两个乘子，当上式左右两端的距离（如欧式距离）满足我们设定的大小，停止迭代。

2022-05-07

4400

Spark实现HIVE统计结果导入到HBase操作

hive 编程算法 python hbase spark

由于HIVE更新的机制极其不适应SPARK环境，于是利用HBase来执行HIVE中某些统计结果的更新。首先要做的是实现Spark + Hive访问，得到RDD，再将这个RDD导入到HBase中操作。然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。步骤主要是两步： (1)开启hive连接器，实现spark + hive的访问，得到dataframe对象。

2022-05-07

5420

基于spark的网络爬虫实现

编程算法 html http php 爬虫

爬虫是获取网络大数据的重要手段，爬虫是一种非常成熟的技术了，然而想着在spark环境下测试一下效果．

2022-05-07

4500

利用spark进行层次社团发现(louvain算法测试)

社团是复杂网络科学中一种重要的拓扑结构，也是物以类聚，人以群分自然现象在网络中的一种反映。因此对复杂网络进行社团发现是SNA(社会网络分析)中重要的内容之一。

2022-05-07

1960

C# 随机生成手机号码(中国地区)

大数据 java javascript 编程算法腾讯云测试服务

做大数据挖掘，其中通话记录是很重要的一种实时大数据。为了做实验，往往需要生成随机手机号。

2022-05-07

1.2K0

spark mlib中机器学习算法的测试（SVM，KMeans, PIC, ALS等）

编程算法 spark 机器学习神经网络深度学习

在学习spark mlib机器学习方面，为了进行算法的学习，所以对原有的算法进行了试验。从其官网（http://spark.apache.org/docs/latest/mllib-guide.html）上进行了相关文档的介绍学习，并通过其给定的例子包中相关进行测试。

2022-05-07

4330

Apache mahout中HMM（隐马尔可夫）算法的测试

　　隐马尔可夫模型（Hidden Markov Model，HMM）是概率学上的一种统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。

2022-05-07

2460

Apache Mahout的KMeans算法测试

编程算法数据挖掘腾讯云测试服务 hadoop 机器学习

Mahout是Hadoop中实现数据挖掘的包，虽然现在一般用spark mlib，但是为了做比较，想着将mahout的算法进行验证测试一下。。

2022-05-07

5720

使用Stanford NLP工具实现中文命名实体识别

编程算法 c++java http html

使用斯坦福大学的分词器，下载地址http://nlp.stanford.edu/software/segmenter.shtml，从上面链接中下载stanford-segmenter-2014-10-26，解压之后，如下图所示

2022-05-07

1.3K0

搜狗引擎查询日志的数据入库(Mysql…

编程算法 linux javascript node.js jquery

为了进行hive与spark的开发，所以想以某个大规模数据集进行测试，找到了搜狗引擎的日志数据，网上公开的应该有一个月的数据，差不多为5000多万条，做测试应该是满足要求的。

2022-05-07

9240

基于C3Framework开源人群计数框架的测试

编程算法腾讯云测试服务

C3Framework是一个开源的人群计数框架，在进行代码复现的时候，进行单张图片的测试。

2019-08-01

7860

基于MSRCR的图像低光照增强实验

在计算机视觉处理中，常常需要对低光照图像进行数据增强，如夜晚灯光昏暗条件下的图像识别检测等。

2019-07-10

1K0

AllenNLP系列文章之三：机器阅读

NLP 服务编程算法腾讯云测试服务

Machine Comprehension (MC) models answer natural language questions by selecting an answer span within an evidence text. The AllenNLP MC model is a reimplementation of BiDAF (Seo et al, 2017), or Bi-Directional Attention Flow, a widely used MC baseline that achieved state-of-the-art accuracies on the SQuAD dataset in 2017. The AllenNLP BIDAF model achieves an EM score of 68.3 on the SQuAD dev set, just slightly ahead of the original BIDAF system's score of 67.7, while also training at a 10x speedup (4 hours on a p2.xlarge).

2019-05-27

6990

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态