【编译原理实验】 -- 词法分析程序设计原理与实现（C语言实现）

这篇具有很好参考价值的文章主要介绍了【编译原理实验】 -- 词法分析程序设计原理与实现（C语言实现）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目标任务

设计要求

一、程序功能描述

二、正则文法

三、程序结构描述

四、代码

五、程序测试

测试用例1

测试结果1

测试用例2

测试结果2

目标任务

以下为正则文法所描述的 C 语言子集单词符号的示例，请补充单词符号：++，--， >>, <<, += , -= ,*=, /= ，&&（逻辑与），||（逻辑或），！（逻辑非）等等，给出补充后描述 C 语言子集单词符号的正则文法，设计并实现其词法分析程序。

<标识符>→字母︱ <标识符>字母︱ <标识符>数字

<无符号整数>→数字︱ <无符号整数>数字

<单字符分界符> →+ ︱－︱* ︱；︱, ︱(︱) ︱{︱} <双字符分界符>→<大于>=︱<小于>=︱<小于>>︱<感叹号>=︱<等于>=︱<斜竖>*

<小于>→<

<等于>→=

<大于>→>

<斜竖> →/

<感叹号>→!

该语言的保留字：void、int、float、double、if、else、for、do、while 等等（也可补充）。

设计要求

1）可将该语言设计成大小写不敏感，也可设计成大小写敏感，用户定义的标识符最长不超过 32 个字符；

（2）字母为 a-z A-Z，数字为 0-9；

（3）可以对上述文法进行扩充和改造；

（4）“/*……*/”和“//”(一行内)为程序的注释部分。

（5）给出各单词符号的类别编码；

（6）词法分析程序应能发现输入串中的错误；

（7）词法分析作为单独一遍编写，词法分析结果为二元式序列组成的中间文件；

（8）设计两个测试用例（尽可能完备），并给出测试结果。

一、程序功能描述

输入源程序，词法分析后，能发现其中的错误；

能够识别注释的开始结束、单字符分界符、双字符分界符；

分析结果为二元式序列组成的中间文件。

二、正则文法

G[<单词符号>]：

<单词符号>→<标识符>|<无符号整数>|<单字符分界符>|<双字符分界符>

<标识符>→字母|<标识符>字母|<标识符>数字

<无符号整数>→数字|<无符号整数>数字

<单字符分界符>→% | ; | , | ( | ) | { | } | [ | ]

<双字符分界符>→<大于>=|<小于>=|<感叹号>=|<等于>=|<斜号>*|<加号>+|<加号>=|<减号>-|<减号>=|<星号>=|<斜竖>=|<大于>>|<小于><|<与符号>&|<或符号>| |<斜号>/|<星号>/

<小于>→< <等于>→= <大于>→> <感叹号>→!

<斜号>→/ <加号>→+ <减号>→- <星号>→*

<与符号>→& <或符号>→|

三、程序结构描述

设计方法

单词符号类别编码

单词符号	类别编码	单词符号	类别编码
标识符	1	%	20
无符号整数	2	;	21
void	3	,	22
int	4	(	23
float	5	)	24
double	6	{	25
If	7	}	26
else	8	[	27
for	9	]	28
do	10	>	29
while	11	<	30
return	12	=	31
break	13	!	32
continue	14	>=	33
char	15	<=	34
+	16	!=	35
-	17	==	36
*	18	++	37
/	19	--	38
+=	39	<<	44
-=	40	&&	45
*=	41	\|\|	46
/=	42	&	47
>>	43	\|	48

状态转换图

【编译原理实验】 -- 词法分析程序设计原理与实现（C语言实现）

函数定义及函数之间的调用关系

isLetter：判断是否是字母a-z,A-Z

isDigit：判断是否是数字0-9

getIdentifier_ID：返回保留字或标识符编号

getSinglechar_ID：返回单字符分界符编号

四、代码

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
int isLetter(char c){ 
	if((c>='a'&&c<='z')||(c>='A'&&c<='Z')) return 1;
	return 0;
}
int isDigit(char c){
	if(c>='0'&&c<='9') return 1;
	return 0;
}
int getIdentifier_ID(char s[]){
	if(strcmp(s,"void")==0) return 3;
	else if(strcmp(s,"int")==0) return 4;
	else if(strcmp(s,"float")==0) return 5;
	else if(strcmp(s,"double")==0) return 6;
	else if(strcmp(s,"if")==0) return 7;
	else if(strcmp(s,"else")==0) return 8;
	else if(strcmp(s,"for")==0) return 9;
	else if(strcmp(s,"do")==0) return 10;
	else if(strcmp(s,"while")==0) return 11;
	else if(strcmp(s,"return")==0) return 12;
	else if(strcmp(s,"break")==0) return 13;
	else if(strcmp(s,"continue")==0) return 14;
	else if(strcmp(s,"char")==0) return 15;
	else return 1;//是标识符 
}
int getSinglechar_ID(char c){
	if(c==';') return 21;
	else if(c=='%') return 20;
	else if(c==',') return 22;
	else if(c=='(') return 23;
	else if(c==')') return 24;
	else if(c=='{') return 25;
	else if(c=='}') return 26;
	else if(c=='[') return 27;
	else if(c==']') return 28;
	else return 0;//非单字符 
}
int main(){
	FILE *fp=NULL;//输入文件 
	fp=fopen("demo_in.txt","r");
	FILE *fw=NULL;//输出文件 
	fw=fopen("demo_out.txt","w");
	char ch;//接收字符 
	char s1[32];//标识符 
	char s2[32];//无符号整数 
	int i=0;
	int id;
	int flag=0;
	ch=fgetc(fp);
	while(!feof(fp)){
		if(ch==' '||ch=='\t'){//为空格或制表符则不处理，获取下一个字符 
			ch=fgetc(fp);
			continue;
		}else if(ch=='\n'){
			fprintf(fw,"\n");
			ch=fgetc(fp);
			continue;
		}else if(isLetter(ch)==1){//标识符 
			i=0;
			s1[i++]=ch;
			while(isLetter(ch)==1||isDigit(ch)==1){
				ch=fgetc(fp);
				s1[i++]=ch;
			}
			s1[i-1]='\0';
			id=getIdentifier_ID(s1);
			fprintf(fw,"(%d,%s)",id,s1);
		}else if(isDigit(ch)==1){//无符号整数 
			i=0;
			s2[i++]=ch;
			while(isDigit(ch)==1){
				ch=fgetc(fp);
				s2[i++]=ch;
			}
			s2[i-1]='\0';
			fprintf(fw,"(2,%s)",s2);
		}else if(getSinglechar_ID(ch)!=0){//单字符分界符 
			fprintf(fw,"(%d,%c)",getSinglechar_ID(ch),ch);
			ch=fgetc(fp);
		}else if(ch=='>'){//大于 
			ch=fgetc(fp);
			if(ch=='='){
				fprintf(fw,"(33,>=)");
				ch=fgetc(fp);
			}else if(ch=='>'){
				fprintf(fw,"(43,>>)");
				ch=fgetc(fp);
			}else{
				fprintf(fw,"(29,>)");
			}
		}else if(ch=='<'){//小于 
			ch=fgetc(fp);
			if(ch=='='){
				fprintf(fw,"(34,<=)");
				ch=fgetc(fp);
			}else if(ch=='<'){
				fprintf(fw,"(44,<<)");
				ch=fgetc(fp);
			}else{
				fprintf(fw,"(30,<)");
			}
		}else if(ch=='!'){//感叹号 
			ch=fgetc(fp);
			if(ch=='='){
				fprintf(fw,"(35,!=)");
				ch=fgetc(fp);
			}else{
				fprintf(fw,"(32,!)");
			}
		}else if(ch=='='){//等于 
			ch=fgetc(fp);
			if(ch=='='){
				fprintf(fw,"(36,==)");
				ch=fgetc(fp);
			}else{
				fprintf(fw,"(31,=)");
			}
		}else if(ch=='/'){//斜号 
			ch=fgetc(fp);
			if(ch=='*'){
				fprintf(fw,"(处理注释,/*)");
				while(1){
					flag=0;
					ch=fgetc(fp);
					while(ch=='*'){//不用if，while可以处理/*后多个*的问题 
						ch=fgetc(fp);
						if(ch=='/'){
							fprintf(fw,"(注释结束,*/)");
							ch=fgetc(fp);
							flag=1;
						}
					}
					if(flag==1) break;
				}
			}else if(ch=='/'){
				fprintf(fw,"(处理注释,//)");
				while(ch!='\n'){
					ch=fgetc(fp);
				}
				fprintf(fw,"\n");
				ch=fgetc(fp);
			}else if(ch=='='){
				fprintf(fw,"(42,/=)");
				ch=fgetc(fp);
			}else{
				fprintf(fw,"(19,/)");
			}
		}else if(ch=='&'){//与符号 
			ch=fgetc(fp);
			if(ch=='&'){
				fprintf(fw,"(45,&&)");
				ch=fgetc(fp);
			}else{
				fprintf(fw,"(47,&)");
			}
		}else if(ch=='|'){//或符号 
			ch=fgetc(fp);
			if(ch=='|'){
				fprintf(fw,"(46,||)");
				ch=fgetc(fp);
			}else{
				fprintf(fw,"(48,|)");
			}
		}else if(ch=='+'){//加号 
			ch=fgetc(fp);
			if(ch=='='){
				fprintf(fw,"(39,+=)");
				ch=fgetc(fp);
			}else if(ch=='+'){
				fprintf(fw,"(37,++)");
				ch=fgetc(fp);
			}else{
				fprintf(fw,"16,+");
			}
		}else if(ch=='-'){//减号 
			ch=fgetc(fp);
			if(ch=='='){
				fprintf(fw,"(40,-=)");
				ch=fgetc(fp);
			}else if(ch=='-'){
				fprintf(fw,"(38,--)");
				ch=fgetc(fp);
			}else{
				fprintf(fw,"(17,-)");
			}
		}else if(ch=='*'){//星号 
			ch=fgetc(fp);
			if(ch=='='){
				fprintf(fw,"(41,*=)");
				ch=fgetc(fp);
			}else{
				fprintf(fw,"(18,*)");
			}
		}else{//其他，出错 
			fprintf(fw,"\n错误：未定义->%c",ch);
			printf("错误：未定义->%c\n",ch);
			break;
		}
	}
	fclose(fp);
	fclose(fw);
	printf("二元式序列组成的中间文件已经生成！\n");
	return 0;
}