编译原理试题·

编译原理试题·,第1张

Lex和Yacc应用方法(一).初识Lex

草木瓜 20070301

Lex(Lexical Analyzar 词法分析生成器),Yacc(Yet Another Compiler Compiler

编译器代码生成器)是Unix下十分重要的词法分析,语法分析的工具。经常用于语言分

析,公式编译等广泛领域。遗憾的是网上中文资料介绍不是过于简单,就是跳跃太大,

入门参考意义并不大。本文通过循序渐进的例子,从0开始了解掌握Lex和Yacc的用法。

一.Lex(Lexical Analyzar) 初步示例

先看简单的例子(注:本文所有实例皆在RetHat Linux下完成):

一个简单的Lex文件 exfirst.l 内容:

%{

#include "stdio.h"

%}

%%

[\n]

[0-9]+printf("Int : %s\n",yytext)

[0-9]*\.[0-9]+printf("Float : %s\n",yytext)

[a-zA-Z][a-zA-Z0-9]* printf("Var : %s\n",yytext)

[\+\-\*\/\%] printf("Op : %s\n",yytext)

. printf("Unknown : %c\n",yytext[0])

%%

在命令行下执行命令flex解析,会自动生成lex.yy.c文件:

[root@localhost liweitest]flex exfirst.l

进行编译生成parser可执行程序:

[root@localhost liweitest]cc -o parser lex.yy.c -ll

[注意:如果不加-ll链结选项,cc编译时会出现以下错误,后面会进一步说明。]

/usr/lib/gcc-lib/i386-redhat-linux/3.2.2/../../../crt1.o(.text+0x18): In function `_start':

../sysdeps/i386/elf/start.S:77: undefined reference to `main'

/tmp/cciACkbX.o(.text+0x37b): In function `yylex':

: undefined reference to `yywrap'

/tmp/cciACkbX.o(.text+0xabd): In function `input':

: undefined reference to `yywrap'

collect2: ld returned 1 exit status

创建待解析的文件 file.txt:

title

i=1+3.9

a3=909/6

bcd=4%9-333

通过已生成的可执行程序,进行文件解析。

[root@localhost liweitest]# ./parser <file.txt

Var : title

Var : i

Unknown : =

Int : 1

Op : +

Float : 3.9

Unknown :

Var : a3

Unknown : =

Int : 909

Op : /

Int : 6

Var : bcd

Unknown : =

Int : 4

Op : %

Int : 9

Op : -

Int : 333

到此Lex用法会有个直观的了解:

1.定义Lex描述文件

2.通过lex,flex工具解析成lex.yy.c文件

3.使用cc编译lex.yy.c生成可执行程序

再来看一个比较完整的Lex描述文件 exsec.l :

%{

#include "stdio.h"

int linenum

%}

%%

title showtitle()

[\n] linenum++

[0-9]+printf("Int : %s\n",yytext)

[0-9]*\.[0-9]+printf("Float : %s\n",yytext)

[a-zA-Z][a-zA-Z0-9]* printf("Var : %s\n",yytext)

[\+\-\*\/\%] printf("Op : %s\n",yytext)

. printf("Unknown : %c\n",yytext[0])

%%

showtitle()

{

printf("----- Lex Example -----\n")

}

int main()

{

linenum=0

yylex()/* 进行分析 */

printf("\nLine Count: %d\n",linenum)

return 0

}

int yywrap()

{

return 1

}

进行解析编译:

[root@localhost liweitest]flex exsec.l

[root@localhost liweitest]cc -o parser lex.yy.c

[root@localhost liweitest]./parser <file.txt

----- Lex Example -----

Var : i

Unknown : =

Int : 1

Op : +

Float : 3.9

Unknown :

Var : a3

Unknown : =

Int : 909

Op : /

Int : 6

Var : bcd

Unknown : =

Int : 4

Op : %

Int : 9

Op : -

Int : 333

Line Count: 4

这里就没有加-ll选项,但是可以编译通过。下面开始着重整理下Lex描述文件.l。

二.Lex(Lexical Analyzar) 描述文件的结构介绍

Lex工具是一种词法分析程序生成器,它可以根据词法规则说明书的要求来生成单词识

别程序,由该程序识别出输入文本中的各个单词。一般可以分为<定义部分><规则部

分><用户子程序部分>。其中规则部分是必须的,定义和用户子程序部分是任选的。

(1)定义部分

定义部分起始于 %{ 符号,终止于 %} 符号,其间可以是包括include语句、声明语句

在内的C语句。这部分跟普通C程序开头没什么区别。

%{

#include "stdio.h"

int linenum

%}

(2) 规则部分

规则部分起始于"%%"符号,终止于"%%"符号,其间则是词法规则。词法规则由模式和

动作两部分组成。模式部分可以由任意的正则表达式组成,动作部分是由C语言语句组

成,这些语句用来对所匹配的模式进行相应处理。需要注意的是,lex将识别出来的单

词存放在yytext[]字符数据中,因此该数组的内容就代表了所识别出来的单词的内容。

类似yytext这些预定义的变量函数会随着后面内容展开一一介绍。动作部分如果有多

行执行语句,也可以用{}括起来。

%%

title showtitle()

[\n] linenum++

[0-9]+printf("Int : %s\n",yytext)

[0-9]*\.[0-9]+printf("Float : %s\n",yytext)

[a-zA-Z][a-zA-Z0-9]* printf("Var : %s\n",yytext)

[\+\-\*\/\%] printf("Op : %s\n",yytext)

. printf("Unknown : %c\n",yytext[0])

%%

A.规则部分的正则表达式

规则部分是Lex描述文件中最为复杂的一部分,下面列出一些模式部分的正则表达式字

符含义:

A-Z, 0-9, a-z 构成模式部分的字符和数字。

- 指定范围。例如:a-z 指从 a 到 z 之间的所有字符。

\ 转义元字符。用来覆盖字符在此表达式中定义的特殊意义,

只取字符的本身。

[]表示一个字符集合。匹配括号内的任意字符。如果第一个字

符是^那么它表示否定模式。例如: [abC] 匹配 a, b, 和C

的任何一个。

^ 表示否定。

* 匹配0个或者多个上述模式。

+ 匹配1个或者多个上述模式。

? 匹配0个或1个上述模式。

$ 作为模式的最后一个字符时匹配一行的结尾。

{ } 表示一个模式可能出现的次数。 例如: A{1,3} 表示 A 可

能出现1次或3次。[a-z]{5} 表示长度为5的,由a-z组成的

字符。此外,还可以表示预定义的变量。

. 匹配任意字符,除了 \n。

( ) 将一系列常规表达式分组。如:{Letter}({Letter}|{Digit})*

| 表达式间的逻辑或。

"一些符号"字符的字面含义。元字符具有。如:"*" 相当于 [\*]。

/ 向前匹配。如果在匹配的模式中的"/"后跟有后续表达式,

只匹配模版中"/"前面的部分。如:模式为 ABC/D 输入 ABCD,

时ABC会匹配ABC/D,而D会匹配相应的模式。输入ABCE的话,

ABCE就不会去匹配ABC/D。

B.规则部分的优先级

规则部分具有优先级的概念,先举个简单的例子:

%{

#include "stdio.h"

%}

%%

[\n]

A {printf("ONE\n")}

AA{printf("TWO\n")}

AAAA {printf("THREE\n")}

%%

此时,如果输入内容:

[root@localhost liweitest]# cat file1.txt

AAAAAAA

[root@localhost liweitest]# ./parser <file1.txt

THREE

TWO

ONE

Lex分析词法时,是逐个字符进行读取,自上而下进行规则匹配的,读取到第一个A字符

时,遍历后发现三个规则皆匹配成功,Lex会继续分析下去,读至第五个字符时,发现

"AAAA"只有一个规则可用,即按行为进行处理,以此类推。可见Lex会选择最长的字符

匹配规则。

如果将规则

AAAA {printf("THREE\n")}

改为

AAAAA {printf("THREE\n")}

./parser <file1.txt 输出结果为:

THREE

TWO

再来一个特殊的例子:

%%

title showtitle()

[a-zA-Z][a-zA-Z0-9]* printf("Var : %s\n",yytext)

%%

并输入title,Lex解析完后发现,仍然存在两个规则,这时Lex只会选择第一个规则,下面

的则被忽略的。这里就体现了Lex的顺序优先级。把这个例子稍微改一下:

%%

[a-zA-Z][a-zA-Z0-9]* printf("Var : %s\n",yytext)

title showtitle()

%%

Lex编译时会提示:warning, rule cannot be matched.这时处理title字符时,匹配

到第一个规则后,第二个规则就无效了。

再把刚才第一个例子修改下,加深下印象!

%{

#include "stdio.h"

%}

%%

[\n]

A {printf("ONE\n")}

AA{printf("TWO\n")}

AAAA {printf("THREE\n")}

AAAA {printf("Cannot be executed!")}

./parser <file1.txt 显示效果是一样的,最后一项规则肯定是会忽略掉的。

C.规则部分的使用变量

且看下面示例:

%{

#include "stdio.h"

int linenum

%}

int [0-9]+

float [0-9]*\.[0-9]+

%%

{int} printf("Int : %s\n",yytext)

{float} printf("Float : %s\n",yytext)

. printf("Unknown : %c\n",yytext[0])

%%

在%}和%%之间,加入了一些类似变量的东西,注意是没有的,这表示int,float分

别代指特定的含义,在两个%%之间,可以通过{int}{float}进行直接引用,简化模

式定义。

(3) 用户子程序部分

最后一个%%后面的内容是用户子程序部分,可以包含用C语言编写的子程序,而这些子

程序可以用在前面的动作中,这样就可以达到简化编程的目的。这里需要注意的是,

当编译时不带-ll选项时,是必须加入main函数和yywrap(yywrap将下后面说明)。如:

...

%%

showtitle()

{

printf("----- Lex Example -----\n")

}

int main()

{

linenum=0

yylex()/* 进行Lex分析 */

printf("\nLine Count: %d\n",linenum)

return 0

}

int yywrap()

{

return 1

}

三.Lex(Lexical Analyzar) 一些的内部变量和函数

内部预定义变量:

yytext char * 当前匹配的字符串

yyleng int 当前匹配的字符串长度

yyin FILE * lex当前的解析文件,默认为标准输出

yyoutFILE * lex解析后的输出文件,默认为标准输入

yylineno int 当前的行数信息

内部预定义宏:

ECHO #define ECHO fwrite(yytext, yyleng, 1, yyout) 也是未匹配字符的

默认动作

内部预定义的函数:

int yylex(void)调用Lex进行词法分析

int yywrap(void) 在文件(或输入)的末尾调用。如果函数的返回值是1,就停止解

析。 因此它可以用来解析多个文件。代码可以写在第三段,这

样可以解析多个文件。 方法是使用 yyin 文件指针指向不同的

文件,直到所有的文件都被解析。最后,yywrap() 可以返回1

来表示解析的结束。

lex和flex都是解析Lex文件的工具,用法相近,flex意为fast lexical analyzer generator。

可以看成lex的升级版本。

相关更多内容就需要参考flex的man手册了,十分详尽。

四.关于Lex的一些综述

Lex其实就是词法分析器,通过配置文件*.l,依据正则表达式逐字符去顺序解析文件,

并动态更新内存的数据解析状态。不过Lex只有状态和状态转换能力。因为它没有堆栈,

它不适合用于剖析外壳结构。而yacc增加了一个堆栈,并且能够轻易处理像括号这样的

结构。Lex善长于模式匹配,如果有更多的运算要求就需要yacc了。

flex (fast lexical analyser generator) 是 Lex 的另一个替代品。它经常和自由软件 Bison语法分析器生成器 一起使用。Flex 最初由 Vern Paxson 于 1987 年用 C语言 写成。 Flex 手册里对 Flex 描述如下: “flex是一个生成扫描器的工具,能够识别文本中的词法模式。flex读入给定的输入文件,如果没有给定文件名的话,则从标准输入读取,从而获得一个关于需要生成的扫描器的描述。此描述叫做 规则,由正则表达式和 C代码对组成。flex 的输出是一个 C 代码文件——lex.yy.c——其中定义了 yylex() 函数。编译输出文件并且和 -lfl库链接生成一个可执行文件。当运行可执行文件的时候,它分析输入文件,为每一个正则表达式寻找匹配。当发现一个匹配时,它执行与此正则表达式相关的 C代码。” 一个相似的,用 C++语言 的词法分析器生成器是 flex++,包含在 flex 软件包里。 Flex 不是 GNU 工程,但是 GNU 为 Flex 写了手册。

很长一段时间, 我知道有 flex 这个布局方式, 但是始终没有去学它. 3点原因:

最近由于开发需要, 学习了下WeUI的实现 , 发现里面大量使用了 flex 布局, 于是决定学习一下.

Flexbox Layout , 官方名为 CSS Flexible Box Layout Module , 意为"d性布局", 是CSS3中引入的一种更加灵活高效的布局/对齐/排序方式(还有一种更适合大型布局的 网格布局 CSS Grid Layout Module ). flex 是 flexible 的缩写.

任何一个容器都可以指定为flex布局。

行内元素也可以使用flex布局。

采用flex布局的元素被称为 flex容器 (flex container) , 它的子元素即为 flex元素 (flex item) .

flex容器中包含两个相互垂直的轴, 即 主轴 (main axis) 副轴 (cross axis) .

flex元素沿主轴从 主轴起点 (main start) 主轴终点 (main end) 依次排布.

如果flex容器包含多行flex元素, 则 flex行 (flex lines) 沿副轴从 副轴起点 (cross start) 副轴终点 (cross end) 依次排布.

单个flex元素占据的主轴空间叫做 主轴长度 (main size) , 占据的副轴空间叫做 副轴长度 (cross size) .

Getting Dicey With Flexbox 中提到:

前一段时间同事做过 video 相关的开发, 踩到各种坑, 因此我知道 video 的支持不那么好, 特别是在Android上. 让我惊奇的是 flex 竟然比 video 的支持更好?

从 CanIUse 的数据来看, flex 的支持度是: 82.65% (支持) + 14.17% (部分支持) = 96.81% , 而 video 的支持度是: 92.48% . 浏览器对 flex 的支持好像并没有特别好...

但是有微信的WeUI使用了 flex 布局, 我觉得在移动端 flex 应该还是支持度比较高的.

所以, 如果你是做移动端开发的, 可以优先考虑 flex .

下面就开始介绍与 flex 布局相关的属性. 以作用对象分为两组, 第一组作用于flex容器, 第二组作用于flex元素.

注意: 以下属性值都可以有 initial (该属性的默认值)和 inherit (继承自父元素), 本处省略.

这类属性有6种, 分别为:

注意:

注意: row 和 row-reverse 受到了 direction 属性(默认值为 ltr , 可改为 rtl )的影响.

注意: 此属性只在flex容器中有 多行 flex元素时才有作用.

这类属性有6种, 分别为:

注意: flex元素的 float , clear 和 vertical-align 会失效.

当flex元素有父元素时, 它的 align-self: auto 即为父元素的 align-items 属性否则(无父元素时), 相当于 stretch .

当有剩余空间时, flex元素会根据 flex-grow 按比例分配剩余空间.

默认值 0 代表, 即使有剩余空间, 该flex元素也不放大.

当flex容器空间不足时, flex元素会根据 flex-shrink 按比例缩小.

flex-shrink 为 0 则表示, 即使flex容器空间不足, 该flex元素也不缩小.

flex-basis 定义了分配剩余空间之前flex元素的初始大小, 可为长度值(如 20% , 5rem 等)或 auto 等关键词.

flex-basis: auto 表示, 以 flex元素的主轴长度 为 flex-basis . 若flex元素的主轴长度也是 auto , 则以flex元素内容(即所有子元素)的大小为 flex-basis .

除了 auto 还有 content , max-content , min-content 和 fit-content 关键词, 但是现在浏览器对它们的支持太少, 可以忽略.

(敲黑板) 同学们注意, 这里是重点!

这里的 可选值 我参照了 W3C flexbox 的写法. 其中:

举例来说, a | [ b || c ] 包含的可能情况有 a , b , c , b c , c b .

现在回过头来再看 none | [ <‘flex-grow’><‘flex-shrink’>? || <‘flex-basis’>] 就清晰多了.

注意, none 是一个特殊值, 相当于 0 0 auto .

另外, 如果 flex 中不指定:

注意: flex 的初始值是 0 1 auto , 即由每个 flex 因子本身的默认值组成(比方说 flex-grow 的默认值就是 0 ).

但是 , 如果利用 flex 设置了至少一个 flex 因子, 那么没被设置的那些 flex 因子的默认值(按grow, shrink, basis的顺序)分别是 1 1 0 .

我来举几个栗子.

W3C建议使用简写形式 flex , 因为它可以方便地应对下面4种 常见情况 .

自此, 我们已经知道了 flex-grow , flex-shrink 和 flex-basis 的作用. 根据这三个值, 计算flex元素的大小只需三步:

第一步: 计算元素的 flex-basis , 有两种情况: 1. 具体的长度值, 或, 2. auto (即flex元素的大小). (这里忽略了 content 等目前支持还不完善的关键词).

第二步: 计算剩余空间, 即 剩余空间 = flex容器的内部空间 - flex元素flex-basis值的总和 .

第三步: 按照 flex 因子(放大时为 flex-grow 缩小时为 flex-shrink )分配剩余空间到每个元素. flex元素的最终大小 = flex-basis - flex-factor * 剩余空间 .

举个栗子.

假设flex容器的内部空间为 200px , flex元素的大小的总和是 160px . 看起来, 还有 200 - 160 = 40px 的剩余空间, 应该放大flex元素, 是不是? 不一定! 要看它们的 flex-basis 总和.

假设它们的 flex-basis 总和是 300px , 那么剩余空间应该是 300 - 200 = -100px . 此时剩余空间是 负数 , 应该以 flex-shrink 对每个flex元素在 flex-basis 的基础上进行 缩小 .

下例中, 所有flex元素本身的大小为 80px , 元素中为 flex 值.

200px

0 1 auto

0 3 auto

0 1 150px

0 3 150px

125px

75px

你可以看到, 第一行的flex元素因为设置了 flex-basis:auto , 所以它们的 flex-basis 就相当于元素大小, 即 80px , 即 flex-basis 总和为 160px , 不足容器的 200px 空间, 此时应该放大元素. 但又由于元素的 flex-grow 为 0 , 所以每个元素分配到 0 * 40 = 0px 的剩余空间, 即不放大.

第二行的flex元素设置了 flex-basis:150px , 所以它们的 flex-basis 总和为 300px , 超过了容器的 200px 空间, 故按照 flex-shrink (比例为 1:3 )进行缩小. 由于剩余空间为 -100px , 所以第一个元素应缩小 25px 变成 125px , 第二个元素应缩小 75px 变成 75px .

绝对flex: 从0开始分配空间.

第一行中 flex-basis 为 0 , 表示每个flex元素的初始大小都视为 0 . 此时, 剩余空间就是"flex容器的大小".

相对flex: 从flex元素大小开始分配空间.

第二行中 flex-basis 为 auto , 表示每个flex元素的初始大小都是它本身的大小. 此时, 剩余空间就是"flex容器的大小 - flex元素大小的总和".

呃... flex的东西还是挺多的, 特别是 flex 因子相关的部分, 得花点儿时间理解.

但是, 我相信学flex是值得的, 谁用谁知道!


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12063639.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存