PHP语法分析器：RE2C && BISON 总结-php-IT落伍者

在这之前我曾经尝试过一个项目就是将我们的PHP代码自动生成so扩展

编译到PHP中我叫它 phptoc

但是由于各种原因暂停了此项目

写这篇文章一是因为这方面资料太少二是把自己的收获总结下来以便以后参考如果能明白PHP语法分析

那对PHP源码的研究会更上一层楼地 ^^…

我尽可能写的通俗易懂些

这个项目思路源于facebook的开源项目 HipHop

其实我对这个项目的性能提高%%持怀疑态度从根本来讲如果PHP用到APC缓存它的性能是否低

于HipHop我还没有做测试不敢断言

PHPtoc我只是想把C程序员解放出来希望能达到让PHPer用PHP代码就可以写出接近于PHP扩展性能的一个扩展

它的流程如下读取PHP文件解析PHP代码对其进行语法分析器生成对应的ZendAPI编译成扩展

进入正题

这里最难的就是语法分析器了大家应该都知道PHP也有自己的语法分析器现在版本用到的是rec 和 Bison

所以我自然也用到了这个组合

如果要用PHP的语法分析器就不太现实了因为需要修改zend_language_parsery和 zend_language_scannerl 并重新编译这难度大不说还可能影响PHP自身

所以决定重新写一套自己的语法分析规则这个功能就等于是重写了PHP的语法分析器当然会捨弃一些不常用的

rec && yacc/bison通过引用自己的对应文件然后将他们统一编译成一个*c文件最后再gcc编译就会生

成我们自己的程序所以说他们从根本来讲不是语法分析程序他们只是将我们的规则生成一个独立的c文

件这个c文件才是真正的我们需要的语法分析程序我更愿意叫它语法生成器如下图

注图中ac是扫描器生成的最终代码

rec扫描器假如我们写的扫描规则文件叫scannerl它会将我们写的PHP文件内容进行扫描然后根据

我们写的规则生成不同的token传递给parse

我们写的(f)lex语法规则比如我们叫他Parsey

会通过 yacc/bison编译成一个parsetabhparsetabc的文件parse根据不同的token进行不同的操作

比如我们PHP代码是 echo ″;

扫描其中有一个规则

echo {

return T_ECHO;

}

扫描器函数scan会拿到echo ″字符串它对这一段代码进行循环如果发现有echo字符串那么它就作为关键字返回tokenT_ECHO

parsey和scannerl会分别生成两个c文件scannerc和parsetabc用gcc编译到一起就成了

下面会具体的说一说

感兴趣的可以去看看我也翻译了一个中文版本

还么有结束稍后我会放上来

rec提供了一些宏接口方面我们使用我简单做了翻译英语水平不好可能有误需要原文的可以去上面那个地址查看

接口代码

不像其他的扫描器程序rec 不会生成完整的扫描器用户必须提供一些接口代码用户必须定义下面的宏或者是其他相应的配置

YYCONDTYPE

用c 模式你可以使用to参数用来生成一个文件使用包含枚举类型的作为条件每个值都会在规则集合里面作为条件来使用

YYCTYPE

用来维持一个输入符号通常是 char 或者unsigned char

YYCTXMARKER

*YYCTYPE类型的表达式生成的代码回溯信息的上下文会保存在 YYCTXMARKER如果扫描器规则需要使用上下文中的一个或多个正则表达式则用户需要定义这个宏

YYCURSOR

*YYCTYPE类型的表达式指针指向当前输入的符号生成的代码作为符号相匹配在开始的地方YYCURSOR假定指向当前token的第一个字符结束时YYCURSOR将会指向下一个token的第一个字符

YYDEBUG(statecurrent)

这个只有指定d标示符的时候才会需要调用用户定义的函数时可以非常容易的调试生成的代码

这个函数应该有以下签名void YYDEBUG(int statechar current)第一个参数接受 state 默认值为第二个参数接受输入的当前位置

YYFILL(n)

当缓沖器需要填充的时候生成的代码将会调用YYFILL(n)至少提供n个字符YYFILL(n)将会根据需要调整YYCURSORYYLIMITYYMARKER 和 YYCTXMARKER注意在典型的程序语言当中n等于最长的关键词的长度加一用户可以在/*!max:rec*/一次定义YYMAXFILL来指定最长长度如果使用了YYMAXFILL将会在/*!rec*/之后调用一次阻塞

YYGETCONDITION()

如果使用了c模式这个定义将会在扫描器代码之前获取条件集这个值必须初始化为枚举YYCONDTYPE的类型

YYGETSTATE()

如果f模式指定了用户就需要定义这个宏如果这样扫描器在开始时为了获取保存的状态生成的代码将会调用YYGETSTATE()YYGETSTATE()必须返回一个带符号的整数这个值如果是告诉扫描器这是第一次执行否则这个值等于以前YYSETSTATE(s) 保存的状态否则扫描器将会恢复操作之后立即调用YYFILL(n)

YYLIMIT

表达式的类型 *YYCTYPE 标记缓沖器的结尾（YYLIMIT()是缓沖区的最后一个字符）生成的代码将会不断的比较YYCORSUR 和 YYLIMIT 以决定什么时候填充缓沖区

YYSETCONDITION(c)

这个宏用来在转换规则中设置条件它只会在指定c模式和使用转换规则时有用

YYSETSTATE(s)

用户只需要在指定f模式时定义这个宏如果是这样生成的代码将会在YYFILL(n)之前调用YYSETSTATE(s)YYSETSTATE的参数是一个有符号整型被称为唯一的标示特定的YYFILL(n)实例

YYMARKER

类型为*YYCTYPE的表达式生成的代码保存回溯信息到YYMARKER一些简单的扫描器可能用不到

扫描器顾名思义就是对文件扫描找出关键代码来

扫描器文件结构

/* #include 文件*/

/*宏定义*/

//扫描函数

int scan(char *p){

/*扫描器规则区*/

}

//执行scan扫描函数返回token到yacc/bison中

int yylex(){

int token;

char *p=YYCURSOR;//YYCURSOR是一个指针指向我们的PHP文本内容

while(token=scan(p)){//这里会移动指针p一个一个判断是不是我们上面定义好的scanner

return token;

}

int main(int argcchar**argv){

BEGIN(INITIAL);//

YYCURSOR=argv[];//YYCURSOR是一个指针指向我们的PHP文本内容

yyparse();

}

BEGIN 是定义的宏

#define YYCTYPE char //输入符号的类型

#define STATE(name) yyc##name

#define BEGIN(n) YYSETCONDITION(STATE(n))

#define LANG_SCNG(v) (sc_globalsv)

#define SCNG LANG_SCNG

#define YYGETCONDITION() SCNG(yy_state)

#define YYSETCONDITION(s) SCNG(yy_state)=s

yyparse函数是在yacc 中定义的

里面有一个关键宏 YYLEX

#define YYLEX yylex()

它会执行scaner扫描器的yylex

可能会有点绕重新缕一缕

在scannerl中通过调用parsey解析器函数yyparse该函数调用scannerl的yylex生成关键代码tokenyylex

将扫描器返回的

token返回给parseyparse根据不同的token执行不同的代码

举例

scannerl

#include scannerh

#include parsetabh

int scan(char *p){

/*!rec

<INITIAL><?php([ /t]|{NEWLINE})? {

BEGIN(ST_IN_SCRIPTING);

return T_OPEN_TAG;

}

echo {

return T_ECHO;

}

[]+ {

return T_LNUMBER;

}

int yylex(){

int c;

// return T_STRING;

int token;

char *p=YYCURSOR;

while(token=scan(p)){

return token;

}

int main (int argcchar ** argv){

BEGIN(INITIAL);//初始化

YYCURSOR=argv[];//将用户输入的字符串放到YYCURSOR

yyparse();//yyparse() 》yylex()》yyparse()

return ;

}

这样一个简单的扫描器就做成了那解析器呢？

解析器我用的是flex和bison

关于flex的文件结构

C代码段将逐字拷贝到lex编译后产生的C源文件中

可以定义一些全局变量数组函数例程等

#include

#include scannerh

extern int yylex();//它在scannerl中定义的

void yyerror(char *);

# define YYPARSE_PARAM tsrm_ls

# define YYLEX_PARAM tsrm_ls

{定义段也就是token定义的地方}

//这就是关键 token程序是根据这是做switch的

%token T_OPEN_TAG

%token T_ECHO

%token T_LNUMBER

{规则段}

start:

T_OPEN_TAG{printf(start/n); }

|start statement

;

statement:

T_ECHO expr {printf(echo :%s/n$)}

;

expr:

T_LNUMBER {$$=$;}

{用户代码段}

void yyerror(char *msg){

printf(error:%s/nmsg);

}

在规则段中start是开始的地方如果 scan识别到PHP开始标签就会返回T_OPEN_TAG然后执行括号的代码输出start

在scannerl中调用scan的是个while循环所以它会检查到php代码的末尾

yyparse会根据scan返回的标记做switch然后goto到相应的代码比如 yyparsey发现当前的token是T_OPEN_TAG

它会通过宏 #line 映射到 parsey所对应行T_OPEN_TAG的位置然后执行

那TOKEN返回给yyparse之后做了什么呢？

为了能直观一些我用gdb跟蹤

这个时候yychar是是什么？

是bison自动生成的枚举类型数据

继续

YYTRANSLATE宏接受yychar然后返回所对应的值

#define YYTRANSLATE(YYX) /

((unsigned int) (YYX) <= YYMAXUTOK ? yytranslate[YYX] : YYUNDEFTOK)

/* YYTRANSLATE[YYLEX] Bison symbol number corresponding to YYLEX */

static const yytype_uint yytranslate[] =

{

};

yyparse拿到这个值不断地translate

bison会生成很多用来映射的数组将最终的translate保存到yyn

这样bison就能找到token所对应的代码

switch (yyn)

{

case :

/* Line of yaccc */

#line parsey

{printf(start/n); ;}

break;

这样不断循环生成token逐条执行然后解析成所对应的zend 函数等生成对应的op保存在哈希表中这些不是本文的重点

PHP语法分析器：RE2C &amp;&amp; BISON 总结

PHP语法分析器：RE2C && BISON 总结