在GNU sed中模拟regexp查找环境

2020-11-01 20:00:51

这个堆栈溢出Q&;A让我思考在需要查找的情况下用GNU sed构建解决方案的各种方法。

这里只介绍单行(以换行符作为行分隔符)处理。还显示了使用grep-P或Perl的等效Lookround语法,以供比较。模式空间中存在多行和/或ASCII NUL字符的情况留作练习。

在这里,您只需要决定是否必须匹配输入行。SED支持对{}中的命令进行分组,只有在匹配筛选条件时才应执行这些命令。条件可以通过添加!性格。通过这种方式,您可以模拟多个正向和/或负向环视条件的链接。

$cat items.txt 1,2,3,4 apple=50;per KGA,b,c,d;foo xyz3#包含数字字符后跟a;character#Lookround isn';此处不需要的字符的筛选行#与:grep';[0-9].*;';或grep-p';\d(?=.*;)';$sed-n&39;/[0-9]。*;/p';items.txtapple=50;Per kg#筛选任意顺序同时包含数字和;字符的行#Same as:grep-P';^(?=.*;).*\d';$sed-n';/;//{/[0-9]/p}';items.txtapple=50;Per kg;foo xyz3#筛选同时包含数字和;字符的行#,但如果该行还包含字符a#Same as:grep-P';^(?!.*a)(?=.*;).*\d';$sed-n';/a/!{/;/{/[0-9]/p}}';items.txt;foo xyz3。

对于某些情况,像前面的示例那样的多个条件检查是不够的。例如,只要购物车不在后面的行中出现,就可以过滤包含PAR的行。出现在队伍前面的购物车应该不会影响结果。在这种情况下,您可以首先更改输入行,以便在出现Cart的地方添加换行符,然后构造一个条件,使其依赖于换行符,而不是Cart。如果找到匹配项,请删除所有换行符,然后打印该行。

$s=&39;par购物车备用车公园城市#同:grep-p&39;par(?!.*cart)';$ECHO";$s";|sed-n&39;s/cart/\n&;/g;/par[^\n]*$/{s/\n//g;p}';par购物车备用购物车公园城市。

换行符是默认逐行处理的安全字符,因为sed会将其从模式空间中删除。如果您正在处理包含换行符的模式空间(例如:-z选项、N命令等),那么只要您知道输入数据中不存在某个字符,您仍然可以执行此技巧。

在上一节中,您了解了如何使用换行符修改输入行,以便更容易地构造Lookround条件。这个小窍门在替换时也派上了用场。但是,对于搜索和替换情况,您还需要模拟环视的零宽度特性。要实现这一点,可以使用t命令构造一个循环,只要找到匹配项就执行替换。有关GNU sed中分支命令的更多详细信息,请参阅我关于控制结构的章节。

这里有一个循环的例子。目的是递归地从给定输入中删除FIN。

#手动重复,假设计数已知$echo';s/fin//#39;cofing$echo';s/fin//#39;|sed';s/fin//;s/';cog#:只要替换成功,循环就会用标签';loop';#tloop跳转到标签';loop';s/fin';cog';s/fin&/;s//';s/#39;cog#:LOOP用标签';loop';#tloop将跳到标签';loop';|sed';:循环s/fin//;tloop';齿轮。

有些情况只能在首先满足条件的情况下才能通过执行替换来解决。请注意,这里的{}分组是可选的。

#与:perl-ne';Print if s/^(?!;).*?\K[,].*//';$sed-n';/^;/!S/[,].*//p';items.txt 1 Apple=50 a。

仅当foo后面没有数字字符时,才将foo更改为[baz]。请注意,字符串末尾的foo也满足此断言。Foofoo有两个匹配项,因为断言本质上是零宽度的,即它不使用字符。这里,第一步是在foo和数字字符之间插入换行符。然后将所有foo更改为[baz],只要它在字符串的末尾,或者如果它后面没有换行符。循环结束后,删除所有换行符。

嘿,食物!Foo42 Foo5 foofoo';#等同于:perl-pe';s/foo(?!\d)/[baz]/g';$echo";$s";|sed-E';s/(Foo)([0-9])/\1\n\2/g;:a s/foo([^\n]|$)/[baz]\1/;ta;s/\n//g';嘿[baz]d!FOO42[Baz]T5[Baz][Baz]。

仅当foo前面没有_CHARACTER时,才将foo更改为[baz]。字符串开头的foo也是匹配的。

$s=';foo_foo 42foofoo';#等同于:perl-pe&39;s/(?<;!_)foo/[baz]/g';$echo";$s";|sed-E';s/(_)(Foo)/\1\n\2/g;:a s/(^|[^\n])foo/\1[baz]/;ta;s/\n//g';[Baz]_foo 42[Baz][Baz]

只要s字符稍后不出现在输入中,就用[xyz]替换PAR。这假设断言不与搜索模式冲突,例如,s不会与PAR冲突,但如果它是r和PAR,则会受到影响。

$s=';par备件方';#等同于:perl-pe';s/par(?!.*s)/[xyz]/g';$echo";$s";|sed-E';s/s/&;\n/g;:a s/par([^\n]*)$/[xyz]\1/;ta;s/\n//g';par s[xyz]e[xyz]t[xyz]。

将CSV输入的所有空字段替换为NA(假设没有嵌入逗号、换行符等)。

$s=';,1,2,3,#相同于:perl-lpe';s/(?<;![^,])(?![^,])/na/g';$echo";$s";|sed-E&39;:a s/,/,na,/g;ta;s/^,/na,/;S/,$/,NA/';NA,1,NA,NA,2,3,NA,NA,NA。

使用[]将字段括起来,CSV输入的第一个和最后一个字段除外(假设没有嵌入逗号、换行符等)。使用正向环视仿真时,修改后的字符串可能会继续满足匹配条件,从而导致无限循环。在本例中,字段本身可能包含[]字符,因此不能使用它们来防止无限循环。换行符技巧又派上用场了。

$s=';1,t[w]o,[3],f[ou]r,5';#等同于:perl-pe';s/(?<;=,)[^,]+(?=,)/[$&;]/g';$echo";$s";|sed-E&39;:a s/,([^,\n]+),/,\n[\1],/g;ta;S/\n//g';1,[t[w]o],[[3]],[f[ou]r],5。

在单词边界处添加空格,但不能在字符串的开头或结尾处添加空格。此外,如果已经存在空格,请不要添加。在这里,空格字符上的被否定的字符类足以模拟断言。

$s=';Total=num1+35*42/num2';#等同于:perl-lpe';s/(?<;=[^])\b(?=[^])//g';$ECHO";$s";|sed-E&39;:a s/([^])\b([^])/\1\2/;ta;';Total=num1+35*42/num2

只要部分在该行后面作为一个完整的单词出现,就用[xyz]替换par。这里,修改后的字符串本身的性质防止了无限循环的可能性。

$s=';PAR备件方';#等同于:perl-pe';s/par(?=.*\bpart\b)/[xyz]/g';$echo";$s";|sed-E&39;:a s/par(.*\bpart\b)/[xyz]\1/;ta';[xyz]s[xyz]e部件方。

分支命令和输入的一些创造性预处理可以组合在一起,以模拟sed中的Lookround断言。考虑到Unix实用程序sed是完全图灵的,这也许并不令人惊讶。现在,请原谅,我将忙于在stackoverflow/unix上获取积分。此边缘案例的stackexchange;)