热度 12
2013-6-5 11:04
911 次阅读|
0 个评论
作者:武汉华嵌 讲师 张老师 shell 编程中常用到的文本过滤的方法有grep 、awk 、sed,以下分别对这三种文本过滤的方式进行大致的总结下: grep 的使用: 一、grep一般格式: grep 基本正则表达式 这里的正则表达式可以为字符串。在grep命令中输入字符串参数时,最好将其用双引号括起来。调用变量时也可以使用双引号。在调用模式匹配事,应使用单引号。 二、grep常用选项: -c 只输出匹配行的计数。 -i 不区分大小写(只用于单字符)。 -h 查询多文件时不显示文件名。 -l 查询多文件时只输出包含匹配字符的文件名。 -n 显示匹配行及行号。 -s 不显示不存在或无匹配文本的错误信息。 -v 显示不包含匹配文本的所有行。 三、常用选项的使用: 1、 查询多个文件: $grep “hello” *.doc num.doc:hello sum.doc:hello world 说明在num.doc 和sum.doc中有字符串“hello“。 2、 行匹配: $grep -c “123” *.doc num.doc:2 sum.doc:2 说明在num.doc 和sum.doc中有字符串“123“各为两行。 3、 显示满足匹配模式的所有行数: $grep –n “123” *.doc num.doc:1:hao 123 num.doc:2:hao 123 sum.doc:2:hao 123 sum.doc:4:hao 1234 4、 显示所有不包含“123“的行: $grep -v “123” *.doc num.doc:hello num.doc:world sum.doc:hello world sum.doc:sui yue 5、 精确匹配: 如第三点,匹配“123”时,结果返回了“1234”的其它字符串。 $grep -n “123\” *.doc num.doc:1:hao 123 num.doc:2:hao 123 sum.doc:2:hao 123 6、 大小写敏感: 缺省情况下,grep是大小写敏感的,如果要查询大小写不敏感的字符串,必须 使用-i选项。 $grep -i “just” *.doc num.doc:Just num.doc:just 四、grep和正则表达式 1、模式范围: $ grep ‘48 ’ mydata.doc 此命令在mydata.doc中匹配字符串“483”和“484”。 2、 不匹配行首: $ grep ‘^ ’ mydata.doc 此命令在mydata.doc中匹配除4或者8开头的行。 3、 设置大小写: $ grep ‘ ept’ mydata.doc 此命令在mydata.doc中匹配字符串“Sept”和“sept”。 4、匹配任意字符: $ grep ‘a…z’ mydata.doc 此命令在mydata.doc中匹配字符串以字符a开头和字符z结尾,中间为任意三个字符。 5、 模式出现的机率 $ grep ‘1\{2,\}’ mydata.doc 此命令说明数字1至少出现两次 awk 的使用: 一、awk的调用格式: awk的调用格式有三种: 第一种是命令行的方式,如下: awk ‘commands’ input-file 域分隔符,是可选的,awk使用空格作为缺省的域分隔符。 第二种方法是将awk命令插入到一个文件,并使awk程序可以执行,然后用awk命令解释器作为脚本的首行,以便通过键入脚本名称来调用它。 第三种方法是将所有的awk命令插入一个单独文件,然后调用: awk –f awk-script-file input-file 二、动作和模式 任何awk语句都有模式和动作组成。模式部分决定动作语句何时触发及触发事件。 模式包括两个特殊字段BEGIN和END.,BEGIN语句使用在任何文本浏览动作之前,之后文本浏览动作依据输入文件开始执行,END语句用来在awk完成文本浏览动作后打印输出文本中输出和结尾状态标志。实际动作在大括号内指明。 三、域和记录 awk执行时,其浏览域标记为$1,$2 ….$n.。这种方法称为域标识。 1、保存awk输出 第一种方法: $awk ‘{print $0}’ mydata.txt newfile.txt 显示屏上不会输出结果。 第二种方法: $awk ‘{print $0}’ mydata.txt | tee newfile.txt 输出到文件中,同时显示在显示器上。 2、使用标准输入 第一种方法:使用awk脚本输入文件格式 $myawk.awk inputfile.txt 第二种方法:使用重定向 $myawk.awk inputfile.txt 第三种方法:使用管道 $inputfile.txt | myawk.awk 3、打印所有记录 $awk ‘{print $0}’ myfile.txt 由于没有模式部分,只有动作部分,动作必须用花括号括起来。 Lisi 25 wuhan Wangjian 33 shanghai Caiming 55 shenzhen 4、打印单独记录 要用逗号分隔域 $awk ‘{print $1,$2}’ myfile.txt Lisi 25 Wangjian 33 Caiming 55 5、打印报告头 $awk ‘BEGIN {print “Name Age\n******************“} {print $1”\t”$2}’ mfile.txt Name Age *************** Lisi 25 Wangjian 33 Caiming 55 6、打印信息尾 $awk ‘BEGIN {print “Name \n****** “} {print $1 } END {“end of report\n”}’ mfile.txt sed 的使用: 一、sed调用格式 sed调用格式有三种: 第一种命令行方式: sed ‘command’ inputfile command要加单引号,也允许加双引号。 第二种使用sed脚本文件: sed –f sed-script-file inputfile 第三种使用第一行具有sed命令解释器的sed脚本文件: sed-script-file inputfile 二、sed选项: n 不打印:sed不写编辑行到标准输出,缺省为打印所有行。P命令可以用来打印编辑行。 c 下一命令是编辑命令。使用多项编辑时加入选项。 f 如果正在调用sed脚本文件,使用此选项。此选项通知sed脚本文件支持所有的sed命令。 三、sed常规用法: 1、 保存sed 输出 $ sed ‘command’ inputfile outfile 2、 sed在文件中查找文本的方式 sed浏览文件时,默认从第一行开始,有两种方法定位文本: 第一种:使用行号,可以用简单数字或是一个行号范围。 第二种:使用正则表达式。 Sed定位文本的一些方式,如下: x x表示行号。 x,y 表示行号范围从x到y。 /pattern/ 查找包含模式的行。 x,/pattern 通过行号和模式查询匹配行。 x,y! 查找不包含指定行号x到y的行。 3、 sed编辑命令 p 打印匹配行 = 显示文件行号 a\ 在定位行号后附加拳文本信息 i\ 在定位行号后插入拳文本信息 d 删除定位行 c\ 用拳文本替换定位文本 s 使用替换模式替换相应模式 r 从另一个文件中读文本 w 写文本到一个文件 q 第一个模式匹配完成后推出或立即推出 l 显示与八进制ASCII代码造价的控制字符 {} 在定位行执行的命令组 n 从另一个文件中读文本下一行,并附加在下一行 g 将模式2粘贴到/pattern n/ y 传送字符 n 延续到下一输入行;允许跨行的模式匹配语句。 4、 使用p显示行 $sed -n ‘2p’ myfile.txt Hello world! -n选项,显示打印定位行。 5、 打印范围 $sed -n ‘1,3p’ myfile.txt Hao 123 Hello world! Ni hao ma? 打印1到3行。 6、 打印模式 $sed -n ‘/123/’p myfile.txt Hao 123 匹配 7、 在指定行号匹配模式 $sed -n ‘5,/Hao/’p myfile.txt Hao ma? ------分隔线---------------------------- 上一篇:S3C2440上移植Qt输入法 下一篇:ARM异常处理小结