嵌入式开发交流网论坛

标题: 35个参数13个案例,全面解析Linux三剑客之grep命令 [打印本页]

作者: fandini    时间: 2020-9-28 14:07
标题: 35个参数13个案例,全面解析Linux三剑客之grep命令
前言
为什么要介绍正则表达式,是因为下面的介绍到grep命令会用到正则表达式,所以,放在最前面来进行说明
1.什么是正则表达式 ?
一个正则表达式就是描述了一个字符串集合的方式。正则表达式的表示就是一些特殊符号的组合,而每个符号代表着一些具体的意思。符合的组合就定义了一套规则和方法,其主要作用就是从大量文本从匹配出符合条件行。
2.正则表达式的使用场景
在Linux中,正则表达式的主要使用场景就是文本处理三剑客。grep,sed,awk .除此之外,vi指令也支持正则表达式。
3.正则表达式字符表示
在正则表达式中,又可以分为基本正则表达式和扩展正则表达式 。其主要区别在于:
[attach]52351[/attach]元字符及含义
扩展正则中支持的字符
[attach]52352[/attach]扩展正则支持的字符
预定义字符类
[attach]52353[/attach]
4.它们之间的区别
在上面我们提到正则包括基础正则和扩展正则,但是它们有什么区别呢?在什么地方使用呢 ? 接下来我们主要说明在Linux 三剑客中的不同(grep,sed,awk)
grep命令作用:
语法:
grep PATTERN
grep
说明:grep指令用于搜索所给定的模式(PATTERN )的FILE 文件里的内容 ,如果从文件内容里找到了该模式的文件内容,grep会把匹配的该行显示出来。若不指定任何文件,或给的文件名为- , 则grep会从标准输入读取内容。
另外,也可以使用两个变种程序 egrep 和 fgrep 。 Egrep 与 grep -E 相同。 Fgrep 与 grep -F 相同。说明: 以下的NUM代表的是一个数字,代表的是行数-A NUM 或者 --after-context=NUM除了显示符合条件的那一行之外,并显示该行之后NUM行的内容-a 或者--text将一个二进制文件视为一个文本文件来处理;它与--binary-files=text 选项等价。-B NUM 或者--before-context=NUM除了显示符合条件的那一行之外,并显示该行之前NUM行的内容。-C NUM 或者--context=NUM除了显示符合条件的那一行之外,并显示该行之前和之后的NUM行的内容-b 或者--byte-offset在输出的每行前面同时打印出当前行在输入文件中的字节偏移量。--colour 或者 --color在匹配的行中,已匹配到字符串进行着色显示。WHEN可以是never,always,或是auto。-c 或者--count计算符合条件的行数-d ACTION 或者 --directories=ACTION如果输入文件是一个目录,使用动作ACTION来处理它。默认情况下,动作ACTION是read,意味着目录将视为普通文件那样来读。如果动作 ACTION是skip ,将不处理而直接跳过目录。如果动作ACTION是recurse,grep 将递归地读每一目录下的所有文件。这样做和-r选项等价。-E 或者 --extended-regexp将E后面的模式作为一个正则表达式来使用。-e PATTERN 或者 --regexp=PATTERN使用PATTERN作为查找文件内容的模式(支持正则),但是在单条命令中可使用多个-e选项-F 或者 --fixed-strings将模式 PATTERN 视为一个固定的字符串的列表,用新行 (newlines) 分隔,只要匹配其中之一即可。-f FILE 或者--file=FILE从文件 FILE 中获取模式,每行一个。空文件含有0个模式,因此不匹配任何东西。-G 或者--basic-regexp将模式 PATTERN 作为一个基本的正则表达式这是默认值。-H 或者 --with-filename为每个匹配打印文件名。-h 或者 --no-filename当搜索多个文件时,禁止在输出的前面加上文件名前缀。-i 或者 --ignore-case忽略大小写的区别-L 或者 --files-without-match打印在文件内容中无法找到匹配后的文件名称-l 或者 --files-with-matches打印出在文件内容中找到匹配后的文件名-m NUM 或者 --max-count=NUM在找到NUM个匹配的行之后,不再读这个文件。-n 或者 --line-number在输出的每行前面加上它所在的文件中它的行号。-o 或者 --only-matching只显示匹配的行中与 PATTERN 相匹配的部分。--label=LABEL将来自标准输入的匹配输出视为来自输入文件LABEL的值--line-buffering使用行缓冲,it can be a performance penality.-q, --quiet, --silent不显示任何信息。-R, -r, --recursive递归地读每一目录下的所有文件。这样做和 -d recurse选项等价。--include=PATTERN仅仅在搜索匹配 PATTERN 的文件时在目录中递归搜索。--exclude=PATTERN在目录中递归搜索,但是跳过匹配 PATTERN 的文件。-s 或者 --no-messages禁止输出关于文件不存在或不可读的错误信息。-u 或者 --unix-byte-offsets报告Unix风格的字节偏移量。这个开关使得grep报告字节偏移量时,将文件作为Unix风格的文本文件看待,也就是说将CR字符去掉。这将产生与在一台Unix主机上运行grep完全相同的结果。除非同时使用-b选项,否则这个选项无效。这个选项在MS-DOS和MS-Windows之外的系统中无效。-V 或者 --version向标准错误输出打印 grep 的版本号。-v 或者 invert-match显示不包含匹配模式的所有行。-w 或者 --word-regexp只选择含有能组成完整的词的匹配的行。判断方法是匹配的子字符串必须是一行的开始,或者是在一个不可能-x 或者 --line-regexp完全匹配。-Z, --null文件内容全部显示,不同字体通过颜色加以标注重点
虽然在上面我们可以看到,grep中有很多选项,但是在工作中,大多数的选项是用不到的,这里我们划一下重点。
常用参数
[attach]52354[/attach]常用参数
实例
使用到文件info,通过grep来进行过滤,info的文件内容如下:
[attach]52355[/attach]
grep -n "ccc" info
grep -i "ggg" info[attach]52356[/attach]
grep -v "ccc" info[attach]52357[/attach]
grep -E "ddd|eee|fff" infogrep ^c info[attach]52358[/attach]
grep ^ccx$ infogrep .d infogrep -E d{1} info[attach]52359[/attach]
包含:grep -i ^ info不包含: grep -i info (是全部字符不包含a或b或c)[attach]52360[/attach]
grep -E a+ info[attach]52361[/attach]
grep -E "cc(c|x|ld)" info[attach]52362[/attach]
grep ] info[attach]52363[/attach]
grep ] info[attach]52364[/attach]
文本未完待续,后续持续更新sed,awk命令,希望大家关注转发。




欢迎光临 嵌入式开发交流网论坛 (http://www.dianzixuexi.com/bbs/) Powered by Discuz! X3.2