zl程序教程

您现在的位置是:首页 >  其他

当前栏目

Sed简明教程

教程 简明 sed
2023-09-14 08:58:20 时间
awk于1977年出生,今年36岁本命年,sed比awk大2-3岁,awk就像林妹妹,sed就是宝玉哥哥了。所以  林妹妹跳了个Topless,他的哥哥sed坐不住了,也一定要出来抖一抖。

sed全名叫stream editor,流编辑器,用程序的方式来编辑文本,相当的hacker啊。sed基本上就是玩正则模式匹配,所以,玩sed的人,正则表达式一般都比较强。

同样,本篇文章不会说sed的全部东西,你可以参看sed的手册,我这里主要还是想和大家竞争一下那些从手机指缝间或马桶里流走的时间,用这些时间来学习一些东西。当然,接下来的还是要靠大家自己双手。

用s命令替换

我使用下面的这段文本做演示:


$ 表示一行的结尾。如:/}$/ 以}结尾的匹配。 \ 表示词首。 如 \ abc 表示以 abc 为首的詞。 \ 表示词尾。 如 abc\ 表示以 abc 結尾的詞。 . 表示任何单个字符。 * 表示某个字符出现了0次或多次。 [ ] 字符集合。 如:[abc]表示匹配a或b或c,还有[a-zA-Z]表示匹配所有的26个字符。如果其中有^表示反,如[^a]表示非a的字符

正规则表达式是一些很牛的事,比如我们要去掉某html中的tags:

html.txt b This /b is what span I /span meant. Understand?
# 要解决上面的那个问题,就得像下面这样。 # 其中的[^ ] 指定了除了 的字符重复0次或多次。 $seds/ [^ ]* //ghtml.txt This is what I meant. Understand?
多个匹配

如果我们需要一次替换多个模式,可参看下面的示例:(第一个模式把第一行到第三行的my替换成your,第二个则把第3行以后的This替换成了That)


$sed1,3s/my/your/g; 3,$s/This/That/gmy.txt This is yourcat, yourcats name is betty This is your dog, your dogs name is frank That is your fish, your fishs name is george That is my goat, my goats name is adam
This is [my] dog, [my] dogs name is frank This is [my] fish, [my] fishs name is george This is [my] goat, [my] goats name is adam
圆括号匹配

使用圆括号匹配的示例:(圆括号括起来的正则表达式所匹配的字符串会可以当成变量来使用,sed中使用的是\1,\2…)


上面这个例子中的正则表达式有点复杂,解开如下(去掉转义字符):

正则为:This is my ([^,]*),.*is (.*)
匹配为:This is my (cat),……….is (betty)

然后:\1就是cat,\2就是betty

sed的命令

让我们回到最一开始的例子pets.txt,让我们来看几个命令:

先来看N命令 —— 把下一行的内容纳入当成缓冲区做匹配。

下面的的示例会把原文本中的偶数行纳入奇数行匹配,而s只匹配并替换一次,所以,就成了下面的结果:


This is my dog\n  my dogs name is frank This is my fish\n  my fishs name is george This is my goat\n  my goats name is adam
# 其中的1i表明,其要在第1行前插入一行(insert) $sed"1 i This is my monkey, my monkeys name is wukong"my.txt This is my monkey, my monkeys name is wukong This is mycat, mycats name is betty This is my dog, my dogs name is frank This is my fish, my fishs name is george This is my goat, my goats name is adam # 其中的1a表明,其要在最后一行后追加一行(append) $sed"$ a This is my monkey, my monkeys name is wukong"my.txt This is mycat, mycats name is betty This is my monkey, my monkeys name is wukong This is my dog, my dogs name is frank This is my fish, my fishs name is george This is my goat, my goats name is adam
# 注意其中的/fish/a,这意思是匹配到/fish/后就追加一行 $sed"/fish/a This is my monkey, my monkeys name is wukong"my.txt This is mycat, mycats name is betty This is my dog, my dogs name is frank This is my fish, my fishs name is george This is my monkey, my monkeys name is wukong This is my goat, my goats name is adam
$sed"2 c This is my monkey, my monkeys name is wukong"my.txt This is mycat, mycats name is betty This is my monkey, my monkeys name is wukong This is my fish, my fishs name is george This is my goat, my goats name is adam $sed"/fish/c This is my monkey, my monkeys name is wukong"my.txt This is mycat, mycats name is betty This is my dog, my dogs name is frank This is my monkey, my monkeys name is wukong This is my goat, my goats name is adam
# 匹配fish并输出,可以看到fish的那一行被打了两遍, # 这是因为sed处理时会把处理的信息输出 $sed/fish/pmy.txt This is mycat, mycats name is betty This is my dog, my dogs name is frank This is my fish, my fishs name is george This is my fish, my fishs name is george This is my goat, my goats name is adam # 使用n参数就好了 $sed-n/fish/pmy.txt This is my fish, my fishs name is george # 从一个模式到另一个模式 $sed-n/dog/,/fish/pmy.txt This is my dog, my dogs name is frank This is my fish, my fishs name is george #从第一行打印到匹配fish成功的那一行 $sed-n1,/fish/pmy.txt This is mycat, mycats name is betty This is my dog, my dogs name is frank This is my fish, my fishs name is george
Pattern Space

第零个是关于-n参数的,大家也许没看懂,没关系,我们来看一下sed处理文本的伪代码,并了解一下Pattern Space的概念:


    // 对每个pattern space执行sed命令     Pattern_Space = EXEC(sed_cmd, Pattern_Space);     // 如果没有指定 -n 则输出处理后的Pattern_Space     if(sed option hasnt"-n")  {        print Pattern_Space     }
Address

第一个是关于address,几乎上述所有的命令都是这样的(注:其中的!表示匹配成功后是否执行命令)

[address[,address]][!]{cmd}

address可以是一个数字,也可以是一个模式,你可以通过逗号要分隔两个address 表示两个address的区间,参执行命令cmd,伪代码如下:


命令打包

第二个是cmd可以是多个,它们可以用分号分开,可以用大括号括起来作为嵌套命令。下面是几个例子:


# 对3行到第6行,匹配/This/成功后,再匹配/fish/,成功后执行d命令 $sed3,6 {/This/{/fish/d}}pets.txt This is mycat   mycats name is betty This is my dog   my dogs name is frank   my fishs name is george This is my goat   my goats name is adam # 从第一行到最后一行,如果匹配到This,则删除之;如果前面有空格,则去除空格 $sed1,${/This/d;s/^ *//g}pets.txt mycats name is betty my dogs name is frank my fishs name is george my goats name is adam

第三个我们再来看一下 Hold Space

接下来,我们需要了解一下Hold Space的概念,我们先来看四个命令:

g: 将hold space中的内容拷贝到pattern space中,原来pattern space里的内容清除
G: 将hold space中的内容append到pattern space\n后
h: 将pattern space中的内容拷贝到hold space中,原来的hold space里的内容被清除
H: 将pattern space中的内容append到hold space\n后
x: 交换pattern space和hold space的内容

这些命令有什么用?我们来看两个示例吧,用到的示例文件是:


1!G —— 只有第一行不执行G命令,将hold space中的内容append回到pattern space h —— 第一行都执行h命令,将pattern space中的内容拷贝到hold space中 $!d —— 除了最后一行不执行d命令,其它行都执行d命令,删除当前行

这个执行序列很难理解,做个图如下大家就明白了:

就先说这么多吧,希望对大家有用。

http://sed.sourceforge.net/sed1line_zh-CN.html


《Linux命令行与shell脚本编程大全》第十九章 初识sed和gawk 这两个工具能够极大简化需要进行的数据处理任务。 19.1 文本处理 能轻松实现自动格式化、插入、修改或删除文本元素的简单命令行编辑。 sed和gawk就具备上述功能 19.1.1 sed编辑器 被称为流编辑器。
李名赫 博主从事的是物联网行业,目前在某知名智能家居科技公司担任家庭智能中心研发主管。欢迎交流!