Archive for 四月 2013

简明Lemon核心代码分析二–向前看符号集的生成

所谓的向前看符号,就是当某一个项目的点号已经在最右边时,当下一个符号是什么符号时,可以使用该产生式进行归约操作。

比如,有一个项目是T→T*F·,它的向前看符号为=号,那么就意味着,如果当前栈的栈顶的符号为T*F,而下一个输入符号为=号时,可以使用产生式T→T*F进行归约操作,也就是将栈顶的T*F符号弹出,压入符号T=。

如果说,前面的buildshifts函数确定了不同的状态之间,经过哪些符号可以到达,那么向前看符号就决定了何时可以进行归约。要计算向前看符号,过程还是比较复杂,需要好几个辅助变量的计算。

首先要计算的是所有符号的first集合。它的算法,简单描述如下:

简明Lemon核心代码分析之一–LR(0)项目的生成

上一篇提到了Lemon这个项目,对于一个只有4000多行代码量的项目,用了一本400页的书来分析它的实现。我觉得应该把书读薄一点,所以我尝试着把这里我认为最核心的部分做一个我自己的诠释。

Lemon是一个LALR的语法分析器,有它自己自定义的语法规则,分析语法文件之后再根据模板文件输出C代码。这里涉及到几个步骤:词法分析,LALR语法分析,生成C代码文件。词法分析没有太多可说,就是根据语法规则定义状态机,提取词法的token,逐个进行分析。这个过程完毕之后,将产生相应的产生式,符号,产生式的左边符号,右边符号,开始符号等等这些都是在这一步完毕之后可以知道的。这一步不做太多的分析,因为相对而言还是比较简单的。而最后一步,也不做分析。重点在第二步,如何根据LALR算法得到动作表。

在我看来,核心包括两步:LR(0)项目的生成,以及每个LR(0)项目的向前看符号的计算。

首先看如何生成LR(0)项目。简单的说,是从开始符号出发,逐个遍历以它为产生式左边符号的产生式,逐个生成LR(0)项目。

LEMON语法分析生成器 书评

前年底开始阅读Lua源码,中间发现编译基础不行,于是折回去看龙书之类的编译书记.前面看的还能明白点儿,到了LALR部分开始卡壳,于是找来这本书看,以Lemon这个仅有几千行代码量的LALR分析器来讲解一个LALR分析器的完整实现,需要补充一下背景知识的是,这并不是一个实验性质的项目,著名的开源项目Sqlite就以它作为sql解析生成器,当然Lemon的作者也是sqlite之父本人.

有了之前生吞编译的一些理论基础,大概花了两周的时间,把该书的绝大部分看完,除了最后一部分根据模板生成相应的代码部分没有细看,因为对于要了解LALR算法的实现,到生成Action和GO表部分,已然足够了.

写代码分析类的书籍,不是一个容易的事情,因为在分析的同时,也需要将相应的背景知识逐个交代.本书这点做的不够好,当然这不是他的责任,读者需要先把编译前端的理论知识补一补,同时随手背一本做参考.

书中的讲解,基本做到了逐行解释,甚至于有些罗嗦,比如插入符号的hash算法也要解释一下.实际上,做为读者而言,应该也要学会看书时抓住重点,对于类似这样的内容,完全可以一目十行–毕竟你真正的目的是要快速了解这个算法,而不是局限在一些代码上的细节.

本书几年前我就在书店看过,时隔多年之后终于买了一本,打开一看发现还是2006年的第一次印刷版本,可见销量之惨淡.这种讲解看似用不上的理论书籍,在中国卖的不好也是可以预料的,不过难免让人唏嘘.

其实我的本职工作,并不是语言编译等相关的,要看懂Lua源码,也着实不必深入到LALR这一层才足够,Lua本身用的是最简单的递归下降分析法,只不过,理解编译这样可以用语言生成语言的技术,对我而言一直以来都很神秘而且觉得能做到了是件很酷的事情.如果有类似体验的同学,强烈建议从Lua和Lemon这种短小精悍又五脏俱全非玩具项目的小项目入手.

给本书打4星半,内容无问题作者也确实扎实的深入探索了一遍Lemon的实现,奈何不是什么人都是侯捷能把知识描述阐述的清晰易懂.