首页
学习
活动
专区
工具
TVP
发布

机器学习AI算法工程

机器学习,深度学习,大数据 ,公众号:datayx
专栏作者
1334
文章
2456686
阅读量
326
订阅数
2022-2023年最新最全计算机相关专业毕设选题推荐
1.前端: 如html/css/js等前端语言构建web页面,也可以通过如vue等相关技术进行前端工程化来编写页面
机器学习AI算法工程
2023-02-28
1.4K0
基于知识图谱的智能问答方案
2012年谷歌首次提出“知识图谱”这个词,由此知识图谱在工业界也出现得越来越多,对于知识图谱以及相关概念的理解确实也是比较绕。自己在研究大数据独角兽Palantir之后开始接触知识图谱,也算对其有了一定了解,这里从三个角度总结一下怎么去理解知识图谱。
机器学习AI算法工程
2020-07-14
4.1K0
网易如何做新闻推荐:深度学习排序系统及模型
深度学习的概念源于人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的有效表示,而这种使用相对较短、稠密的向量表示叫做分布式特征表示(也可以称为嵌入式表示)。本部分主要对于目前使用较广的一些学习算法进行一个简单的回顾。
机器学习AI算法工程
2019-10-28
1.2K0
非主流自然语言处理:大规模语料词库自动生成
一、前言   写这篇文时,突然想到一个问题,大家的词库都是从哪来的?   之所以会这么有些意外的问,是因为从没把词库当成个事儿:平时处理微博,就用程序跑一下微博语料获得微博词库;处理新闻,程序跑一下新闻语料获得新闻词库。甚至没有把跑出来的词库存下来的习惯,谁知道过两天是不是又出什么新词,与其用可能过时的,不如随手生成个新鲜出炉的。   好吧,我承认我这是在显摆。如果你也想和我一样,想要随用随丢,任性它一把,那随我来。   如果你只想要这样一个程序,可以直奔这里下载。 回复公众号"词库"获取。   如果你
机器学习AI算法工程
2018-03-15
2.3K0
R语言数据处理:飞机航行距离与到达延误时间有什么关系??
数据分析有一半以上的时间会花在对原始数据的整理及变换上,包括选取特定的分析变量、汇总并筛选满足条件的数据、排序、加工处理原始变量并生成新的变量、以及分组汇总数据等等。这一点,我想大部分使用EXCEL的童鞋都深有体会,写论文时,这么多的数据进行处理,手动汇总、筛选、变换,工作量实在是太大。而本文介绍的dplyr包简直就是Hadley Wickham (ggplot2包的作者,被称作“一个改变R的人”)大神为我们提供的“数据再加工”神器啊。 本文试图通过一个案例,对神奇的dplyr包的一些常用功能做简要介绍
机器学习AI算法工程
2018-03-14
3K0
数据处理的统计学习(scikit-learn教程)
Scikit-learn 是一个紧密结合Python科学计算库(Numpy、Scipy、matplotlib),集成经典机器学习算法的Python模块。 一、统计学习:scikit-learn中的设置与评估函数对象 (1)数据集 scikit-learn 从二维数组描述的数据中学习信息。他们可以被理解成多维观测数据的列表。如(n,m),n表示样例轴,y表示特征轴。 使用scikit-learn装载一个简单的样例:iris数据集 >>from sklearn import datasets >>iris =
机器学习AI算法工程
2018-03-14
1.5K0
整站40万条房价数据并行抓取,可更换抓取城市
这次的爬虫是关于房价信息的抓取,目的在于练习10万以上的数据处理及整站式抓取。 数据量的提升最直观的感觉便是对函数逻辑要求的提高,针对Python的特性,谨慎的选择数据结构。以往小数据量的抓取,即使函数逻辑部分重复,I/O请求频率密集,循环套嵌过深,也不过是1~2s的差别,而随着数据规模的提高,这1~2s的差别就有可能扩展成为1~2h。 因此对于要抓取数据量较多的网站,可以从两方面着手降低抓取信息的时间成本。 1)优化函数逻辑,选择适当的数据结构,符合Pythonic的编程习惯。例如,字符串的合并,使用
机器学习AI算法工程
2018-03-13
9860
在业务分析中实现商业洞察 – Excel商业智能分析报表的玩法
一套完整的BI报表应该至少具备以下四个条件: 条件一:能够批量处理有一定规模的数据; 条件二:能够保证数据的时效性及准确性; 条件三:能够将实际业务中所涉及的所有相关数据整合到一起,搭建统一的多维数据
机器学习AI算法工程
2018-03-13
5.3K0
文本挖掘分析《欢乐颂》到底谁和谁堪称好闺蜜、谁和谁又最为般配?
听说最近大家都在看《欢乐颂》,这部热剧里,女性可谓是绝对的主角,22楼5个女房客的互动好像把男性角色们的风头都抢光了;但是热门剧中又总是不能缺了言情戏的点缀。所以,《欢乐颂》到底谁和谁堪称好闺蜜、谁和谁又最为般配呢?还是让文本挖掘为你揭晓吧…… 方法 要判断两个人的关系的密切程度,可以从他们接触的频率、交流的次数入手;反映到小说上,就是两个人出现在同一场景或同一事件里的次数很多。因此在实际分析时,我们假设一个段落是一个场景,出现在这个段落里的人物,彼此之间都是有关系的。基于这个假设,我们先对原著小说进行文
机器学习AI算法工程
2018-03-13
9520
通俗易懂的机器学习入门指导
机器学习,也叫数据挖掘、模式识别;其定义很多。但大白话的说,机器学习要做的就是,现在有一些数据(比如你人人网好友和他们的发言),我们要对数据进行处理,希望从数据中得到我们想要的信息(比如这些好友哪些和你投缘)。从上面的例子,我们可以看出机器学习其实是对人类智能的模仿,也是实现人类和更高智能的必经之路。 那他他大体上有哪些内容呢? 第一部分,机器学习的底层理论:机器学习的底层理论有一些,比如推理与规划、近似可计算理论、正则化、提升理论、核方法、当然还有大名鼎鼎的统计机器学习理论等等。这部
机器学习AI算法工程
2018-03-13
6930
从执行到专家,不同阶层数据分析师都在做什么呢
1数据跟踪员:机械拷贝看到的数据,很少处理数据 虽然这个工作的人还不能称作数据分析师,但是往往作这样工作的人还都自称是数据分析师,这样的人,只能通过×××系统看到有限的数据,并且很少去处理数据,甚至不理解数据的由来和含义,只是机械的把自己看到的数据拷贝出来,转发给相应的人。这类人发出来的数据,是否有意义,怎么解读,他自己是不知道的,只能期望收到数据的人了。 2数据查询员/处理员:数据处理没问题,缺乏数据解读能力 这些人可以称为分析师了,他们已经对数据有一定的理解了,对于大部分数据,他们也知道数据的定义,并
机器学习AI算法工程
2018-03-13
8110
R语言多元统计包简介:各种假设检验 统计方法 聚类分析 数据处理
基本的R包已经实现了传统多元统计的很多功能,然而CRNA的许多其它包提供了更深入的多元统计方法,下面做个简要的综述。多元统计的特殊应用在CRNA的其它任务列表(task view)里也会提及,如:排序(ordination)会在Environmetrics(http://cran.r-project.org/web/views/Environmetrics.html)里说到;有监督的分类方法能在MachineLearning(http://cran.r-project.org/web/views/Machi
机器学习AI算法工程
2018-03-12
3.1K0
通俗易懂的机器学习入门指导
机器学习,也叫数据挖掘、模式识别;其定义很多。但大白话的说,机器学习要做的就是,现在有一些数据(比如你人人网好友和他们的发言),我们要对数据进行处理,希望从数据中得到我们想要的信息(比如这些好友哪些和你投缘)。从上面的例子,我们可以看出机器学习其实是对人类智能的模仿,也是实现人类和更高智能的必经之路。 那他他大体上有哪些内容呢? 第一部分,机器学习的底层理论:机器学习的底层理论有一些,比如推理与规划、近似可计算理论、正则化、提升理论、核方法、当然还有大名鼎鼎的统计机器学习理论等等。这部分
机器学习AI算法工程
2018-03-12
7710
关于海量数据处理分析的经验总结
笔者在实际工作中,有幸接触到海量的数据处理问题,对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面: 一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。 二、软硬件要求高,系统资源占用率高。对海量的数据
机器学习AI算法工程
2018-03-12
1.4K0
从执行到专家,不同阶层数据分析师都在做什么呢
1数据跟踪员:机械拷贝看到的数据,很少处理数据 虽然这个工作的人还不能称作数据分析师,但是往往作这样工作的人还都自称是数据分析师,这样的人,只能通过×××系统看到有限的数据,并且很少去处理数据,甚至不理解数据的由来和含义,只是机械的把自己看到的数据拷贝出来,转发给相应的人。这类人发出来的数据,是否有意义,怎么解读,他自己是不知道的,只能期望收到数据的人了。 2数据查询员/处理员:数据处理没问题,缺乏数据解读能力 这些人可以称为分析师了,他们已经对数据有一定的理解了,对于大部分数据,他们也知道数据的定义,并且
机器学习AI算法工程
2018-03-09
7160
迷失在数据堆里的中国企业
随着信息技术的发展,大数据出镜率越来越高,几乎遍地开花,而且现在的数据不特指传统的阿拉伯数字,而是囊括了人类生活的各个方面,文字、视频、图片、私密日记、就医记录、交通罚款、购物习惯、天气预报、情绪波动等等,总之,一切能够留下的痕迹都将成为大数据研究的对象。 按照《大数据时代》一书中的描述,大数据风暴正变革着人类生活、工作和思维,且明确定义最大的转变就是:放弃对因果关系的苛求,转而向相关关系进行探索。这种转变颠覆了人类千百年的思维习惯,而且把个别伟人“追求真理”的高尚情操毁灭地不堪入目。不过
机器学习AI算法工程
2018-03-09
6930
基于大数据的信息系统关键技术研究
信息技术、计算机技术和互联网技术的高速发展促进了人类社会各类数据的爆炸性增长如何对这些结构复杂的大数据[注]进行有效管理己经成为当前社会的热点问题之一。自2011年EMC公司首次在年度大会中提出大数据的概念,己有多家公司和机构对大数据问题进行了研究。由于信息技术己经渗透到人类社会的多个领域,大数据问题会给整个社会带来深刻的影响可以预见,大数据问题必然会给信息技术产业带来一场深刻的技术变革。基于大数据的信息系统的技术创新是未来发展信息技术的关键,也是有关国家发展战略的重要课题。面对着大数据问题带来的机遇和挑战
机器学习AI算法工程
2018-03-09
1.1K0
【推荐】分析的前提—数据质量
数据质量(Data Quality)是数据分析结论有效性和准确性的基础也是最重要的前提和保障。数据质量保证(Data Quality Assurance)是数据仓库架构中的重要环节,也是ETL的重要组成部分。   我们通常通过数据清洗(Data cleansing)来过滤脏数据,保证底层数据的有效性和准确性,数据清洗一般是数据进入数据仓库的前置环节,一般来说数据一旦进入数据仓库,那么必须保证这些数据都是有效的,上层的统计聚合都会以这批数据作为基础数据集,上层不会再去做任何的校验和过滤,同时使用稳定的
机器学习AI算法工程
2018-03-09
1.6K0
【干货】数据分析=盖房子
常有学员问,如何才能成为一名分析师?为此我写了一些日志,比如如何用EXCEL做数据处理、如何用SPSS做对应分析等等,但总感觉这些是管中窥豹,只见一斑。如何才能全面回答这个问题呢?今天玩盖房子游戏时,
机器学习AI算法工程
2018-03-09
6670
【热点】大数据能让博彩公司破产
谈到数据分析,有些行业一直遥遥领先。博彩业就是其中之一。不过,大数据技术也正在使博彩业的“预测”能力大众化,这对于博彩公司而言是一个坏消息。利用大数据帮助投注者“击败庄家”的分析公司正不断涌现。 多年以来,数据处理和智能预测手段为网络及街边的投注站提供了便利的条件,从足总杯决赛到皇室宝宝(关于威廉王子和凯特王妃之子的投注),博彩项目可谓花样繁多。数据能让他们按各种模糊变量开出赔率,这些变量可能是足球比赛中的首个角球,也可能是某场板球比赛结束时攻方的得分数。 此类数据的规模持续快速地发展壮大。现今,对于每支球
机器学习AI算法工程
2018-03-09
1.7K2
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档