c语言的词法分析器_软件运维

任务1：识别小型语言所有单词的词法分析程序设计

源程序设计语言

G[<程序>]

<程序>→<变量说明><BEGIN>

<语句表>

<END>.

<变量说明>→VAR<变量表>:<类型>；|<空>

<变量表>→<变量表>,<变量>|<变量>

<类型>→INTEGER

<语句表>→<语句>

<语句><语句表>

<语句>→<赋值语句>|<条件语句>|<WHILE语句>|<复合语句>

<赋值语句>→<变量>:=<算术表达式>

<条件语句>→IF<关系表达式>THEN<语句>ELSE<语句>

<WHILE语句>→WHILE<关系表达式>DO<语句>

<复合语句>→BEGIN<语句表>END

<算术表达式>→<项>|<算术表达式>+<项>|<算术表达式>-<项>

<项>→<因式>|<项>*<因式>|<项>/<因式>

<因式>→<变量>|<整数>|(<算术表达式>)

<关系表达式>→<算术表达式><关系符><算术表达式>

<变量>→<标识符>

<标识符>→<标识符><字母>|<标识符><数字>|<字母>

<整数>→0|<非零数字><泛整数>

<泛整数>→<数字>|<数字><泛整数>|ε

<关系符>→<|<=|==|>|>=|<>

<字母>

→A|B|C|D|E|F|G|H|I|J|K|L|M|N|O|P|Q|R|S|T|U|V|W|X|Y|Z

<非零数字>→1|2|3|4|5|6|7|8|9

<数字>→<非零数字>|0

<空>→

要求和提示：

词法分析阶段，可以打开任意位置和名称的源文件进行词法分析，可以进行非法字符和数字后边跟字母的错误判断，如果没有错误则提示“词法分析正确完成！”，并且可以选择输出token.txt（token文件）string.txt（符号表）两个文件；

1．词法分析程序的主要任务如下：

①

组织源程序的输入，识别出源程序中的各个基本语法单位（也称为单词或语法符号），按规则转换成二元式的形式；

②

删除无用的空白字符、回车符、及其它非实质性符号；

③

删除注解行；

④

为后面的语法和语义分析提供二元式链表；

单词

编码

单词

编码

标识符

正整数

BEGIN

END

THEN

ELSE

；

WHILE

．

INTEGER

，

(

）

对标识符的长度控制在8个字符（包括8个）以内，超过的做截断处理；

数字不大于65535，否则报错；

能跳过源程序中的空白格：两个单词之间的任何空格，制表符，回车，换行都是白空格，除了用来分隔单词以外，没有意义；

能跳过注释：

接连出现的/*到下一次接连出现的*/之间的任何文字都是注释（多行）；

从某行接连出现的//到该行的结尾的任何文字都是注释（单行）。

3.怎样编写词法分析程序：

1）

预处理：把源文件一个字符一个字符的读入词法分析程序设置的输入字符结构体数组中（输入缓冲区），读入过程要删除注释，删除多余的白空格；

2）

从源程序字符数组中获得单词,

编码为二元式.：

二元式采用结构体数组存储,

把单词类型和词元记录下来。

分解单词的方法：

1）

Case多路转换语句根据单词的特点直接编写；

2）

通过描述单词的正规文法得到相应的有穷自动机，通过case多路转换语句完成有穷自动机的处理流程。

3．编写词法分析程序要注意的问题：

1）

检查词法是否有错误

检查是否有非法字符：如

检查标志符和数字是否满足限制条件

检查注释符号是否配对

2）

符分隔单词

能够区分两个单词的符号为界符

有些界符不是单词：如白空格

有些界符仅仅用来分隔：如；

有些界符本身还是源程序不可缺少的单词，如(,

等等

有些界符包含两个字符：如<>,

>=等等

3）

输出词法错误

如果有错误，需要报告词法错误的原因。并且要能够越过错误，分解下一个单词，直到源程序结束。

4）

输出的二元式流保存在二元式结构体数组中。

简而言之就是先画一个状态图，然后根据图来编码就行

一个简单的xml的词法分析器供参考

#include

<stdio.h>

#include

<stdlib.h>

#include

<string.h>

typedef

struct

{

char

int

len

}

xml_Text

typedef

enum

{

xml_tt_U,

Unknow

xml_tt_H,

Head

<?xxx?>*/

xml_tt_E,

End

</xxx>

xml_tt_B,

Begin

<xxx>

xml_tt_BE,

Begin

End

<xxx/>

xml_tt_T

Text

xxx

}

xml_TokenType

typedef

struct

{

xml_Text

text

xml_TokenType

type

}

xml_Token

int

xml_initText(xml_Text

*pText,

char

*s)

{

pText->p

pText->len

strlen(s)

return

}

int

xml_initToken(xml_Token

*pToken,

xml_Text

*pText)

{

pToken->text.p

pText->p

pToken->text.len

pToken->type

xml_tt_U

return

}

int

xml_print(xml_Text

*pText)

{

int

for

pText->len

i++)

{

putchar(pText->p[i])

}

return

}

int

xml_println(xml_Text

*pText)

{

xml_print(pText)

putchar('\n')

return

}

int

xml_getToken(xml_Text

*pText,

xml_Token

*pToken)

{

char

*start

pToken->text.p

pToken->text.len

char

start

char

*end

pText->p

pText->len

int

state

pToken->text.p

pToken->type

xml_tt_U

for

(

end

p++)

{

switch(state)

{

case

switch(*p)

{

case

'<':

state

break

default:

state

break

}

break

case

switch(*p)

{

case

'?':

state

break

case

'/':

state

break

default:

state

break

}

break

case

switch(*p)

{

case

'?':

state

break

default:

state

break

}

break

case

switch(*p)

{

case

'>':

pToken->text.len

start

pToken->type

xml_tt_H

return

default:

state

-1

break

}

break

case

switch(*p)

{

case

'>':

pToken->text.len

start

pToken->type

xml_tt_E

return

default:

state

break

}

break

case

switch(*p)

{

case

'>':

pToken->text.len

start

pToken->type

xml_tt_B

return

case

'/':

state

break

default:

state

break

}

break

case

switch(*p)

{

case

'>':

pToken->text.len

start

pToken->type

xml_tt_BE

return

default:

state

-1

break

}

break

case

switch(*p)

{

case

'<':

p--

pToken->text.len

start

pToken->type

xml_tt_T

return

default:

state

break

}

break

default:

pToken->text.len

start

pToken->type

xml_tt_T

return

}

return

}

int

main()

{

int

ret

xml_Text

xml

xml_initText(&xml,

"<?xml?><root>

<haha>hoho</haha></root>")

xml_Token

token

xml_initToken(&token,

&xml)

ret

xml_getToken(&xml,

&token)

printf("ret=%dtext=",ret)

xml_print(&token.text)

printf("type=%d\n\n",

token.type)

ret

xml_getToken(&xml,

&token)

printf("ret=%dtext=",ret)

xml_print(&token.text)

printf("type=%d\n\n",

token.type)

ret

xml_getToken(&xml,

&token)

printf("ret=%dtext=",ret)

xml_print(&token.text)

printf("type=%d\n\n",

token.type)

ret

xml_getToken(&xml,

&token)

printf("ret=%dtext=",ret)

xml_print(&token.text)

printf("type=%d\n\n",

token.type)

ret

xml_getToken(&xml,

&token)

printf("ret=%dtext=",ret)

xml_print(&token.text)

printf("type=%d\n\n",

token.type)

ret

xml_getToken(&xml,

&token)

printf("ret=%dtext=",ret)

xml_print(&token.text)

printf("type=%d\n\n",

token.type)

ret

xml_getToken(&xml,

&token)

printf("ret=%dtext=",ret)

xml_print(&token.text)

printf("type=%d\n\n",

token.type)

return

}

#include<stdio.h>

#include<ctype.h>

#include<string.h>

#include<stdbool.h> //C99支持bool类型

int main(void)

{

char str[] = "wordptr_239"

int t

int i

t = strlen(str)

bool ok = true //添加标识符，默认合法

for(i = 0 i < t i++)

{

if(!isdigit(str[0]))

{

if(str[i]>='a'&&str[i]<='z'||str[i]>='A'&&str[i]<='Z'||str[i]>='0'&&str[i]<='9'||str[i]=='_')

{

printf("%c", str[i])

while(str[i] == '#')

{

break

}

else

{

printf("非法")

ok = false

}

else

{

printf("非法")

ok = false

}

if(ok) printf("正确")

return 0

}

给你优化了以下，

错误原因如下：

printf("%c", str[i]) //字符打印用%c 不是%s

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/11181698.html

c语言的词法分析器

发表评论

评论列表（0条）