词法分析(lexical analysis)1 和语法分析(syntactic analysis,又称为 parsing)2,同属于编译器的前端部分。词法分析器(lexer)将输入拆分为一个个的 token,然后语法分析器根据特定的语法规则将输入的 token 解析为一个结构化的表示,一般为抽象语法树(abstract syntax tree),供之后的语义分析器使用。
因为前端并不需要对JSON 进行encode/decode , 只需要对JSON string 进行parse.
语法,在语言学中是指任意自然语言中句子、短语以及词汇等语法单位的语法结构与语法意义的规律,本质上即音义结合体之间的结合规律。在程序语言的范畴上,描述的则是基于文本的源码以特定规则放置,来表达其特有的语义内涵。
本文是函数式编程思想与领域建模的第二部分,重点讲解无副作用的纯函数与领域模型之间的关系。
本教程是关于 Nom 的,它是我最喜欢的Rust解析库。它使用解析器组合子方法:开始编写匹配单个数字或字符的小型解析器。这些将成为更大的解析器的构建块,用于匹配,比如日期或电话号码。通过将许多小型解析器组合在一起,您可以构建一个大型解析器,将文件或流解码为漂亮的Rust结构和枚举。在本教程中,我们将使用Nom解析输入文件到一个Advent of Code的谜题。
GOF提出的设计模式,其本质思想是封装变化。故而,创建型模式封装的是对象创建的变化,结构型模式封装的是对象之间的协作与组合结构,行为型模式则封装了对象行为的变化。所谓“行为”,不正是函数所能要表达的吗? 函数的抽象能力 从函数的抽象角度看,任何行为都可以理解为是一个对类型进行转换的函数,这是FP思想对OO设计模式的最大冲击。例如Strategy模式与Command模式,前者封装了算法策略的变化,后者则封装了命令请求的变化。无论算法策略,还是命令请求,都可以表现为一个函数。 譬如说将各种四则运算看做是一种算法
在数仓ETL、实时计算的场景下,我们基于Flink SQL批流一体的框架进行了一定规模的作业迁移。在研发作业管理系统中,我们引入Apache Zeppelin组件作为Flink SQL作业提交客户端,Flink 批流作业可视化预览的核心组件。在一年多时间的产线实践中,我们对作业提交的方式策略进行了几次演进,目前在跑作业规模Flink Batch 任务日均运行超5000次,流作业500+,均稳定运行。
在编程的时候,常常会遇到需要并行处理一些代码,最原始的做法就是创建不同的线程进行处理,但是线程之间的同步处理非常麻烦而且容易出错,如果要同时得到几个线程的结果并且通过这些结果进行进一步的计算,则需要共享变量或者进行线程间通信,无论如何都非常难以处理。另外,直接使用线程也使得代码灵活性不高,比如在双核机器上可能只希望使用两个线程执行代码,到了四核机器上就希望最多能有四个线程了。Future 能够提供一个高层的抽象,将计算任务的并发化和计算最终的执行方式分离,使得这类处理更为方便。Future 作为一个代理对象代表一个可能完成也可能未完成的值 1,通过对 future 进行操作,能够获取内部的计算是否已经完成,是否出现异常,计算结果是什么等信息。
这篇文章总结一下我在学习spark sql源码时,曾经纠结过的一些scala语法。
Option 是一个表示有可能包含值的容器。 Option 本身是泛型的,并且有两个子类: Some[T] 或 None
本文将会从上下文无关文法开始介绍,从使用 BNF 描述语法到理解递归下降分析思想,最后实现一个简单的 html 解析器收尾。本文的亮点是使用 typescript 编写组合子编译器,对于前端开发某些特定领域会有重要意义和价值。同时本文注重实用价值,配合简短 js 代码示例来帮助理解。
这篇搭一下flink1.15的源码环境,看一下flink-table代码的结构,后面每周看一些代码,把flinksql玩好。
"函数式编程", 又称泛函编程, 是一种"编程范式"(programming paradigm),也就是如何编写程序的方法论。它的基础是 λ 演算(lambda calculus)。λ演算可以接受函数当作输入(参数)和输出(返回值)。
去年年底,在公司大佬的带领下,我们结合架构守护的需要,对代码进行了简单的建模。在过去的几个月里,我一直工作在相关的事项上,不断地优化、改进相关的模型:
遵循函数范式建立领域模型时,代数数据类型与纯函数是主要的建模元素。代数数据类型中的和类型与积类型可以表达领域概念,纯函数则用于表达领域行为。它们都被定义为不变的原子类型,然后再将这些原子的类型与操作组合起来,满足复杂业务逻辑的需要。这是函数式编程中面向组合子(combinator)的建模方法,它与面向对象的建模方法存在思想上的不同。
作者简介 祝威廉目前在乐视云数据部门里从事实时计算,数据平台、搜索和推荐等多个方向。曾从事基础框架,搜索研发四年,大数据平台架构、推荐三年多,个人时间现专注于集群自动化部署,服务管理,资源自动化调度等方向。 前言 这篇内容基于我去年的一些感悟写的,但是今年才在Stuq 的微信群做的分享。从技术角度而言,对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说,受这篇内容影响,他接受了Spark-Shell作为数据分析的工具,简单几个命令,轻松处理几千万行数据。于是我就重新整理了下这篇文章
Hi,大家好!我是祝威廉,本来微博也想叫祝威廉的,可惜被人占了,于是改名叫·祝威廉二世。然后总感觉哪里不对。目前在乐视云数据部门里从事实时计算,数据平台、搜索和推荐等多个方向。曾从事基础框架,搜索研发四年,大数据平台架构、推荐三年多,个人时间现专注于集群自动化部署,服务管理,资源自动化调度等方向。
在Scala里存在样例类。它的意义是为了减少重复代码,预先给类定义一些常用的方法。在Scala里使用case关键字来描述样例类。
最近有点无聊,突然想试试在各种语言里面实现Y组合子。不过写完之后,没想到结果完全出乎我的意料。嘛,让我们来看看不同语言里的Y组合子。
主要资源来自TensorFlow中文社区,翻译借助谷歌翻译,仅用于资源分享。 以下是根据不同语言类型和应用领域收集的各类工具库,持续更新中。 C 通用机器学习 推荐人 -一个产品推荐的Ç语言库,利用了协同过滤。 计算机视觉 CCV – C / Cached /核心计算机视觉库,是一个现代化的计算机视觉库。 VLFeat – VLFeat是开源的计算机视觉算法库,有Matlab工具箱。 ---- C ++ 计算机视觉 OpenCV – 最常用的视觉库。有C ++,C,Python以及Java接口),支持Win
艺术地说,Scala中的Partial Function就是一个“残缺”的函数,就像一个严重偏科的学生,只对某些科目感兴趣,而对没有兴趣的内容弃若蔽履。Partial Function做不到以“偏”概全,因而需要将多个偏函数组合,最终才能达到全面覆盖的目的。所以这个Partial Function确实是一个“部分”的函数。 对比Function和Partial Function,更学术味的解释如下: 对给定的输入参数类型,函数可接受该类型的任何值。换句话说,一个(Int) => String 的函数可以接收
数据处理,是计算的支柱。要运行一个算法,首先,必须在内存中建立一些数据结构。然后,对数据结构进行填充,一般方法是获取一些原始数据,并将其加载到内存中。数据科学家处理原始数据时,要清理数据,并创建格式良好的数据集。然后由编程语言设计人员标记源代码文件,将它们解析为抽象语法树。最后, web 采集人员正确采集 HTML,并提取感兴趣的值。
嗯?说 > 那个地方缺个 > ? 什么鬼。。好吧,我大概猜到原因了,泛型参数后半个 > 估计与后面赋值用的 = 连起来被识别成了 >=,于是乎。。。
Ⅱ、默认情况下Scala不需要语句终结符,会默认将每一行作为一个语句,如果一行要写多条语句则必须要使用语句终结符 – " ;",也可以用块表达式包含多条语句,最后一条语句的值就是这个块表达式的运算结果。
一,概述 为了实现Spark SQL,基于Scala中的函数编程结构设计了一个新的可扩展优化器Catalyst。Catalyst可扩展的设计有两个目的。 首先,希望能够轻松地向Spark SQL添加新的优化技术和功能,特别是为了解决大数据(例如,半结构化数据和高级分析)所遇到的各种问题。第二,我们希望使外部开发人员能够扩展优化器 - 例如,通过添加可将过滤或聚合推送到外部存储系统的数据源特定规则,或支持新的数据类型。Catalyst支持基于规则(rule-based)和基于成本(cost-based)的优化
Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。
spark 2.0的预览版在前几个月已经吵得沸沸扬扬,趁着今天一起编译了下这个版本,还是非常方便的。 这回采用MVN来进行编译,具体见官网的编译帮助。 Building with build/mvn Spark now comes packaged with a self-contained Maven installation to ease building and deployment of Spark from source located under thebuild/ directory.
选自OpenReview 作者:Da Xiao、Jo-Yu Liao、Xingyuan Yuan 机器之心编译 参与:李舒阳、刘晓坤 近日,ICLR 2018 接收论文公布,国内人工智能公司彩云科技的一篇论文被此大会接收。在此论文中,作者们通过引入组合子抽象的方法,可以建立一种新的架构 CNPI,使得核心控制器需要解释的程序显著减少且程序复杂度显著降低,从而克服神经编程器-解释器(NPI)在通用性和可学习性存在局限性的问题。 论文:IMPROVING THE UNIVERSALITY AND LEARNAB
Java 资源列表,内容包括:构建工具、数据库、框架、模板、安全、代码分析、日志、第三方库、书籍、Java 站点等等。 古董级工具 这些工具伴随着Java一起出现,在各自辉煌之后还在一直使用。 Apache Ant:基于XML的构建管理工具。官网 cglib:字节码生成库。官网 GlassFish:应用服务器,由Oracle赞助支持的Java EE参考实现。官网 Hudson:持续集成服务器,目前仍在活跃开发。官网 JavaServer Faces:Mojarra是JSF标准的一个开源实现,由Oracle开
我无可救药地成为了Scala的超级粉丝。在我使用Scala开发项目以及编写框架后,它就仿佛凝聚成为一个巨大的黑洞,吸引力使我不得不飞向它,以至于开始背离Java。固然Java 8为Java阵营增添了一丝亮色,却是望眼欲穿,千呼万唤始出来。而Scala程序员,却早就在享受lambda、高阶函数、trait、隐式转换等带来的福利了。 Java像是一头史前巨兽,它在OO的方向上几乎走到了极致,硬将它拉入FP阵营,确乎有些强人所难了。而Scala则不,因为它的诞生就是OO与FP的混血儿——完美的基因融合。 “Obj
我走过了毕业季,创业征途,踏进开源之路,转型进入大数据,到最后有缘接触机器学习。每个章节,我都会提及对应那个阶段对技术的感悟,自己做的一些具体事情。
面向造轮子编程 这大概是还在读书的同学最大的困惑了。自己明明看了很多书,感觉不到自己的进步,很有挫败感。计算机科学是一门实践的科学,你发现你看了《现代操作系统》,《CSAPP》,《算法》,《计算机网络
各位小伙伴大家好,我是A哥。上篇文章 【Fastjson到了说再见的时候了】 A哥跟Fastjson说了拜拜,从本系列开始,我们将一起进入Jackson库的学习。当然喽说它是世界上最好的JSON库并非一家之言,是官网上它自己说的,我免责申明哈。
ThoughtWorks的「TW洞见」在4月发布了对Scala之父Martin Odersky的访谈。Odersky的回答显得言简意赅,仔细分析,仍然能从中收获不少隐含的信息(虽然可能是负面的信息)。 提问的中心主要是语言之争。Scala是一门极具吸引力的语言,似乎天生具备一种气质,轻易能够吸粉,但招黑的能力也不遑多让。它似乎是从象牙塔里钻研出来的,但又在许多大型项目和产品中得到了实践。有人转向了她,又有人之后背弃了它。如果说Ruby的助力是Rails,那么推动着Scala在社区中成长的,其实到处可见Spa
我们将会在本篇文章中看到从零开始实现的编译器,将简单的类 LISP 计算语言编译成 JavaScript。完整的源代码在 这里。
Spark 1.0版本开始,推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了Spark SQL。Shark的性能比Hive就要高出一个数量级,而Spark SQL的性能又比Shark高出一个数量级。
有了前面spark-shell的经验,看这两个脚本就容易多啦。前面总结的Spark-shell的分析可以参考: Spark源码分析之Spark Shell(上) Spark源码分析之Spark Shell(下) Spark-submit if [ -z "${SPARK_HOME}" ]; then export SPARK_HOME="$(cd "`dirname "$0"`"/..; pwd)" fi # disable randomized hash for string in Python
想象一下,你将获得一个巨大的数字列表,你必须将其输入到电子表格中。一开始,这个巨大的列表只是一个空格分隔的原始数据流。你的大脑会自动在空格处拆分数字流并创建数字。你的大脑像扫描器一样。然后,你将获取每个数字,并将其输入到具有含义的行和列中。你的大脑像一个解析器,通过获取扁平的数字(记号),并将它们变成一个更有意义的行和列的二维网格。你遵循的规则,什么数字进入什么行什么列,是你的“语法”,解析器的工作就是像你对于电子表格那样使用语法。
记录一下个人对sparkSql的catalyst这个函数式的可扩展的查询优化器的理解,目录如下:
若是不引入该依赖,项目启动直接报错:Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/flink/connector/base/source/reader/RecordEmitter
Scala解析器的使用 REPL:Read(取值)-> Evaluation(求值)-> Print(打印)->Loop(循环)。scala解析器也被称为REPL,会快速编译scala代码为字节码,然后交给JVM执行 val result = 1 设置变量不可变 var result = 2 可变的变量 val name: String = null 声明变量类型 val name: Any = "leo" val name1,name2:String = null 声明多个变量 val num1,num2
每当InterSystems IRIS读取XML文档时,它都会使用InterSystems IRIS SAX(Simple API For XML)解析器。本章介绍用于控制系统间IRIS SAX解析器的选项。
最近,出版社邀请我作为分享导师为Bruce Eckel的大作OnJava录制部分视频,视频内容主要面向Java初学者。录制到14.4章节,书中详细介绍了Java 8引入的Optional类型,我忽然想起很早以前写的一篇文章《并非Null Object这么简单》。
•一、邻接表数据样例•二、使用FOREACH •2.1 创建数据 •2.2 输出统计值•三、使用CALL{}【并补充第四节对邻接表进行路径分析】
129、Java 中,Serializable 与 Externalizable 的区别?
Spring Boot 已经自动配置好了Spring MVC,可以使用Web Starter快速创建启动并运行。
老规矩,这篇文章记录书中的重点部分,外加自己的见解,不会对全书进行复述,但记录的绝对是最重要的部分,想要了解跟多内容请看原版图书。
领取专属 10元无门槛券
手把手带您无忧上云