首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

机器学习项目实践:30+ 必备数据库(预测模型、图像分类、文本分类)

【新智元导读】有了好的数据,机器学习项目也就成功了一半。希望这份资源清单有助于那些寻找机器学习项目实践的人。对于初学者来说,这绝对是一个金矿。确保你在业余时间选择一些项目,并在上面投入时间和精力,将对你的技术成长大有益处。 大规模通用数据库:从这里入手 data.gov - 这是美国政府开放数据集总部。这些数据集的主题包括气候、教育、能源、金融和更多领域的数据。 data.gov.in - 这是印度政府公开数据库,你可以在这里查找关于印度各行业、气候、医疗保健等数据。同样,稍微改变后缀,就能查看不同地区国家

06

一位SAP培训顾问的建议:SAP HANA应该如何学习?

SAP HANA应该如何学习? 从HANA本质来讲大家都知道,就是一个数据库,和Oracle,SQL Server 没啥本质的区别,内存计算、列式存储也不是啥新玩意,所以学习HANA和学习一个新的数据库从这个角度看也非常类似,当然HANA有其非常独特的特性(其实哪个数据库没有),其中最重要最本质而且未来会一直延续的特性就是HANA和SAP其他产品之间千丝万缕的联系,这一点对学习HANA的人而言会存在一定的挑战,当然挑战就意味着机会。 HANA的学习路线(roadmap)也可以从其共性和特性出发来设计,下面只是个人的一些设想,仅供参考。 1. 数据库DBA 大家都知道,行业里无论哪种数据库一般都存在两个角色,DBA和Developer,DBA负责数据库的部署、设计、调试、监控和调优等等各项工作,类似SAP领域的Basis,Developer掌握数据库的开发语言和逻辑,开发各种数据库层面的内容。 我们先从DBA说起,我本人原来就是做SAP BASIS的,DBA不敢说精通勉强也算了解,HANA的DBA和其他数据库的DBA本质没啥区别,但DBA向来是一个需求少但是要求高的角色,一般的DBA大多会和其他角色合并,例如SAP系统的DBA和BASIS就是不分家的,非SAP产品DBA可能和网管或者类似角色合并,只有在很大规模的企业里会有专职DBA存在。HANA的DBA入门不难,但DBA最值钱的部分-性能调优,这个需要靠时间积累和环境的培养,恐怕一时半会除了SAP不太会出现优秀的HANA DBA。从这个角度出发,建议大家把HANA DBA作为自己必须掌握的技能,除了调优以外的知识都需要储备。以后出去做HANA,装个HANA调个参数还需要别人,竞争力就明显弱了。 建议学习资料:HANA Academy ,SAP Help 上的PDF 适用对象: 所有HANA从业者 2. 数据库开发 只会开发数据库的Developer恐怕很难生存,因为目前绝大多数大型应用都不太会绑定某个数据库,除了一些特殊产品以外,在数据库层面做的开发都不会太多,绝大多数developer都是兼做数据库的开发,但HANA不太一样,由于其内存计算的特性,使用HANA必定要将应用逻辑下沉,这点造成了大量的HANA数据库开发需求,举个例子:未来随着ECC on HANA的普及,ECC本身的很多应用逻辑都不一定下沉到HANA重写,别说客户自己的定制开发了,而客户自己的定制开发恰恰又以查询类为主,光把ABAP报表改写到HANA的事就够多的了,加上基于HANA的新的开发,这些预计未来会有较大的需求。 建议学习资料:HANA Academy ,SQL Reference等 适用对象: ABAP开发人员,HANA开发人员 3. 数据挖掘和分析 这是HANA的强项,也是HANA最早版本发布时的目标,想想HANA本身这个名字就明白了。这个角色牵涉的方面很多我只谈一下SAP领域的内容。数据分析也好挖掘也好,一般都会有几个环节,一是获取源数据,二是模型建立和开发 三是展现。对于想从事这方面工作的同学以下产品是需要了解和掌握的: 获取数据:SAP一系列做数据复制的工具产品:SLT,BODS,DXC Sybase (目测估计以后不大会用了),甚至第三方的ETL工具模型建立和开发:BW,BOE(包括IDT,Universe)以及关键的HANA Studio(其实是指HANA里模型建立和开发的技术),展现:BO的水晶报表,Explorer ,dashboard 等,或者第三方的展现工具,国外看到过有人用PowerBuilder开发HANA应用的。 延伸部分:HANA内置了业务逻辑库和预测算法库,还可以和R Language集成,这是数据挖掘领域非常有用的功能。 建议学习资料:HANA Academy ,SAP Help等 适用对象:原SAP BW/BI/BO从业人员 数据挖掘和分析人员 4 HANA原生开发 HANA最有吸引力也是最有生命力的部分其实在于其原生的开发,HANA内置了一个轻量化的JAVA App server,可以开发server端的js,MVC模式的交互界面,甚至移动端的UI。同时和HANA数据库内嵌集成,性能比外部系统访问HANA还好。我们看到的SAP HANA的很多有意思的案例都是基于HANA的原生开发,例如NBA,环球帆船大赛,国内的农夫山泉等,这些案例几乎都和SAP传统的业务系统没有任何关系,可以说已经超出了SAP的范畴,真正把HANA当一个平台类的软件来使用,这里的想象空间是巨大的,同样涉及到的技术也非常广泛,例如HANA和开源平台的集成(hadoop)等等。这里个人能力有限,只能大致谈一下HANA里面的开发技术。主要有基于HTML5

03

一线数据库工程师带你深入理解 MySQL

MySQL 是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySQL 的 SQL “结构化查询语言”,是用于访问数据库的最常用标准化语言。MySQL 软件采用了 GPL(GNU 通用公共许可证),由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本,而选择 MySQL 作为其网站数据库。 综上所述,MySQL 的优势如下: ・MySQL 是开源的,无需支付额外费用; ・MySQL 使用标准的 SQL 数据语言形式; ・MySQL 可以运行于多个系统上,并且支持多种语言,包括 C、C++、Python、Java、Perl、PHP、Eiffel、Ruby 和 Tcl 等; ・MySQL 对 PHP 有很好的支持,PHP 是目前最流行的 Web 开发语言; ・MySQL 可以定制, 采用 GPL 协议,可修改源码来开发自己的 MySQL 系统。 从 MySQL 作为最流行的关系型数据库管理系统,以及在众多数据库中的明显优势来讲,可想而知,企业对 MySQL 的相关人才需求量是非常大的。那要怎么去学习 MySQL 呢?有很多人觉得学习 MySQL 只要学会怎么写 SQL 语句就行,这种观点其实是片面的。很多时候,等正式业务的数据量和 QPS 上来后,可能会由于部分低效率的 SQL 而拖慢整个数据库,也有可能由于事务设计不合理导致死锁,甚至可能有被 SQL 注入的风险等,所以表设计、SQL 优化、事务、锁等也必须要引起我们的重视。 本专栏的目的不仅是一起讨论如何高效、安全地使用 MySQL,更希望大家通过专栏内容的学习,成为能够对数据库或者 SQL 语句进行优化的综合型数据库使用者,进阶自己在数据库领域的相关技能。 本专栏分为 5 个模块,共 32 小节,课程结构与知识脉络如下:

01

教你如何预测参与调节差异基因的转录因子

KnockTF(http://www.licpathway.net/KnockTF/search.php)数据库就是基于这个目的构建的数据库。关于这个数据库,我在很久前的文章【这个网站提供了多种数据分析工具——增强子,非编码RNA转录信息等】中有提到,这个数据库收录了目前公共数据库当中敲减该转录因子后做的表达谱(芯片、二代测序)的数据,进而来反映这个转录因子变化后对于基因表达的影响。KnockTF不仅提供了感兴趣的TFs靶基因的全面基因表达信息,还收集了TFs上游通路信息以及下游靶基因的各种功能注释和分析结果,包括GSEA、GO富集、KEGG通路富集、层次聚类分析和差异表达分析。KnockTF进一步提供了有关TFs与启动子、超级增强子和靶基因典型增强子结合的详细信息。构建TF差异表达基因网络,对感兴趣的基因集进行网络分析,如子网络定位、拓扑分析和超几何富集。KnockTF将有助于阐明TF相关功能并挖掘潜在的生物学效应。

02

对差异表达基因执行转录因子富集分析

我们获得的差异基因【学习:一文就会TCGA数据库基因表达差异分析,GEO数据库表达数据的提取以及limma包进行差异分析,TCGA数据库:GDCRNATools包下载数据、处理数据以及差异分析】,下游除了富集分析【学习:clusterProfiler包进行KEGG,GO,GSEA富集分析;FunRich数据库:一个主要用于基因和蛋白质的功能富集以及相互作用网络分析的独立的软件工具】等以外,如果我们想找到参与调控这些差异基因的转录因子,作为研究的上游机制,是一个思路。而很多转录因子预测的数据库是基于转录因子的Chip-seq的数据来进行构建的,这样的结果能说明某一个转录因子结合某一段序列,但是结合并不一定说明可能影响这个基因的表达,所以最好做一个这个转录因子导入/导出的表达数据来说明对于基因表达的影响。

01
领券