展开

关键词

Python实现MaxCompute UDFUDAFUDTF

MaxCompute的UDF包括:UDF,UDAF和UDTF三种函数,本文将重点介绍如何通过Python实现这三种函数。

1.7K90

MaxCompute SQL调优

1.JOIN连接,MapJoin优化(SELECT /* + MAPJOIN(b) */)

19920
  • 广告
    关闭

    【玩转 Cloud Studio】有奖调研征文,千元豪礼等你拿!

    想听听你玩转的独门秘籍,更有机械键盘、鹅厂公仔、CODING 定制公仔等你来拿!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    DataWorks中MaxCompute的常用操作命令

    MaxCompute中,每当表的数据被修改后,表的LastDataModifiedTime将会被更新,因此,MaxCompute会根据每张表的LastDataModifiedTime以及lifecycle 当遇到并发写入时,MaxCompute会根据ACID进行并发写的保障。关于ACID的具体语义,请参见.MaxCompute的ACID。 3、 select_expr正则表达式 MaxCompute sql支持使用select_expr正则表达式选列。 但是当需要在插入的数据中进行一些简单的运算时,可使用MaxCompute的values table功能。 目前在一个MaxCompute SQL语句中,最多可以使用5个窗口函数。

    1.1K20

    maxcompute 2.0复杂数据类型之struct

    什么样的数据,适合使用struct类型来存储呢?这里列举了几个我在开发中实际用到的场景。

    7420

    阿里大数据工程师讲如何用使用MaxCompute Studio 开发大数据应用

    MaxCompute(原ODPS)是阿里云自主研发的分布式大数据处理平台,为用户提供了开放的编程接口和 SDK,允许用户在其强大灵活的存储和计算能力之上开发自己的数据应用和系统,创造更大的价值。 为了能让这一过程更加顺畅高效,随着 MaxCompute 2.0 的发布,我们提供了 MaxCompute Studio,一套基于流行的集成开发平台 IntelliJ IDEA 的开发插件,让用户在集成开发环境 在写代码 MaxCompute Studio 为开发者提供了良好的开发体验,支持 MaxCompute 项目浏览、SQL 脚本、用户自定义函数(UDF)、 MapReduce 程序的开发和智能提示、作业执行状态展示等功能 一·MaxCompute 项目浏览器 (Project Explorer) 二·增强的 SQL 代码编辑器 三·脚本管理功能 四·代码补全功能 关键字提示及补全2.基于元数据的 Table name Table schema 提示10.UDF 签名检查 五.MaxCompute 作业浏览器 (Job Explorer) 代码 MaxCompute Studio 致力于为用户提供更好的海量数据应用开发体验

    82300

    数据湖VS数据仓库?湖仓一体了解一下

    MaxCompute官网地址)。 2)统一数据/元数据管理 MaxCompute实现湖仓一体化的元数据管理,通过DB元数据一键映射技术,实现数据湖和MaxCompute数仓的元数据无缝打通。 3)统一开发体验 数据湖里的Hive DataBase映射为MaxCompute external project,和普通project别无二致,同样享受MaxCompute数仓里的数据开发、追踪和管理功能 MaxCompute产品全面升级网络基础设施,打通用户VPC私域,且依托Hive数据库一键映射和强大完善的SQL/PAI引擎能力,将MaxCompute云数仓和EMR Hadoop数据湖技术体系无缝对接 无须进行数据搬迁和作业迁移,即可将一套作业无缝灵活调度在MaxCompute集群和EMR集群中。 SQL数据处理任务被广泛运行到MaxCompute集群,性能有明显提升。

    1.2K10

    大数据平台中如何实现IP地址归属地转换

    那么利用MaxCompute如何实现IP地址向归属地的转换呢? 想要在MaxCompute中实现用户自定义逻辑的代码处理,最常用的就是MR和SQL UDF。考虑到大部分用户使用偏好以及工作成果的可重用性,此处我们给大家介绍通过UDF的实现方式。 如果客官还对MaxCompute如何实现UDF不熟悉,请自行脑补:https://help.aliyun.com/document_detail/27866.html,文档中都有代码示例。 此处需要注意的是,MaxCompute中是采用UTF-8编码的,为了避免出现中文乱码,我们在输出是可以指定编码方式为UTF-8。 Coding完成后编译打包,命名为getaddr.jar。 而后我们需要把ip.dat以及getaddr.jar作为资源上传到MaxCompute项目空间。上传资源可以通过数加DataIDE中向导的方式,也可以通过Console中执行命令的方式。

    1.3K40

    一湖数据,几度春秋

    去阿里巴巴的那群人,接管了原来叫做ODPS后来改名MaxCompute的平台--一个类似Cosmos的阿里巴巴的自研内部平台。 经过一系列的一朝天子一朝臣的清理之后,掌握权力的新的组织做出了MaxCompute V2。在阿里内部可谓是成功。 但是MaxCompute对外销售,似乎遇到了这个Azure Data Lake一样的问题,叫好不叫好不知道,叫坐大家多少都是知道的。

    40240

    自建轮子与抱团取暖

    阿里巴巴建的轮子叫做MaxCompute。 至于其他的,大体上都在Hadoop这个框架下抱团取暖。当然抱团取暖也并非意味着和谐,也有竞争。 当然自研的原先叫做ODPS的后来改名叫MaxCompute的产品一度要被砍掉,但是最后的结果却是Hadoop这个体系在内部越来越没有人用。 这三家的自研产品,我没有办法货比三家,给出精准的结论来。 至于阿里巴巴的MaxCompute,早年抄了HIVE的前端自己写了后端,试图保持和HIVE的兼容性,却终究是竹篮打水。这个系统好与不好,我不好判断。也许曾经的系统是一般的。 2015年整个组织进行了一次大换血,原来微软做Cosmos的人接管了这个团队并推出了MaxCompute V2。 阿里巴巴推行MaxCompute不遗余力。至于谷歌,倒是没有那么大张旗鼓的推销,但是类似的API在不同产品上都出现过。

    19030

    如何快速使用工具连接MC

    spm=a2c4g.11186623.6.1096.72bd399cXWqUk9 JDBC jdbc:odps:http://service.cn-shenzhen.maxcompute.aliyun.com

    10540

    一网打尽 | 浅谈数仓如何分层

    主要完成基础数据引入到MaxCompute的职责,同时记录基础数据的历史变化。 其中,ODS层到DIM层的ETL(萃取(Extract)、转置(Transform)及加载(Load))处理是在MaxCompute中进行的,处理完成后会同步到所有存储系统。

    37520

    大数据计算加速论坛

    演讲主题:大数据平台 MaxCompute 公有云多租户设计 演讲提纲:公有云大数据平台在多租户支持的程度和实现方式上有所差异。 该主题主要介绍在公有云大数据平台多租实现方案中需要考虑的问题和面临的挑战并介绍了 MaxCompute 在计算和存储多租实现上的特点和优势。 听众受益: 了解大数据平台中多租方案设计中需要关注的问题和挑战 了解强多租方案的可能技术路线 了解 MaxCompute 的产品特色 3.

    14620

    2019年6月 阿里技术面试题集锦(28道含答案)

    阿里巴巴出题专家:映泉 阿里巴巴高级技术专家,在阿里云智能事业群-计算平台事业部-通用计算平台-生产力与对外输出负责人,负责阿里EB级大规模分布式数据处理平台-MaxCompute整个研发团队的生产力建设 将阿里大数据平台旗舰产品MaxCompute以产品和技术方案输出的方式应用于数据分析、挖掘、商业智能等领域,已经形成对所有主要行业的输出覆盖并以重点产品支撑一些关键国计民生项目。 招聘职位: MaxCompute技术岗位 17.请分析MaxCompute产品与分布式技术的关系、当前大数据计算平台类产品的市场现状和发展趋势。 阿里巴巴出题专家:云郎 阿里巴巴大数据计算服务MaxCompute高级产品专家,做为MaxCompute产品和运营团队带头人,和团队共同致力于提供基于阿里云的大数据计算平台,帮助企业构建云数据仓库和数据湖 招聘职位: MaxCompute高级产品专家 16.一颗现代处理器,每秒大概可以执行多少条简单的MOV指令,有哪些主要的影响因素? 阿里巴巴出题专家:子团 阿里云创新产品虚拟化&稳定性资深技术专家。

    1K21

    ​大数据和云计算技术周报(第41期)

    ref=myread 6 推荐系统 “基于 MaxCompute 搭建社交好友推荐系统”,主要对大数据在好友推荐系统中的应用、好友推荐系统的分析模型、好友推荐系统在阿里云上的实现方式和 MaxCompute

    20130

    湖仓一体会成为企业的必选项吗?| Q推荐

    反观数据仓库,如传统数据仓库 Teradata、新兴的云数据仓库系统 Redshift、OushuDB、MaxCompute 等等,它们均没有对外暴露文件系统,而是提供了数据进出的服务接口。 现阶段,各大云厂商也陆续推出了自己的“湖仓一体”技术方案,如亚马逊云科技 Redshift Spectrum、微软 Azure Databricks、阿里云 MaxCompute+DataWorks、华为云 在大方向趋同的背景下,各大厂商也会基于自身情况调整落地路径,如 Redshift 、MaxCompute 是以数仓为核心,支持访问数据湖;Databricks 则是在数据湖架构上建立数据仓库。

    8030

    扫码关注腾讯云开发者

    领取腾讯云代金券