3a7360fc59980b30dc9965ccef8a36263b6e691b
[oweals/busybox.git] / sed.c
1 /*
2  * sed.c - very minimalist version of sed
3  *
4  * Copyright (C) 1999,2000 by Lineo, inc.
5  * Written by Mark Whitley <markw@lineo.com>, <markw@enol.com>
6  *
7  * This program is free software; you can redistribute it and/or modify
8  * it under the terms of the GNU General Public License as published by
9  * the Free Software Foundation; either version 2 of the License, or
10  * (at your option) any later version.
11  *
12  * This program is distributed in the hope that it will be useful,
13  * but WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
15  * General Public License for more details.
16  *
17  * You should have received a copy of the GNU General Public License
18  * along with this program; if not, write to the Free Software
19  * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA
20  *
21  */
22
23 /*
24         Supported features and commands in this version of sed:
25
26          - comments ('#')
27          - address matching: num|/matchstr/[,num|/matchstr/|$]command
28          - commands: (p)rint, (d)elete, (s)ubstitue (with g & I flags)
29          - edit commands: (a)ppend, (i)nsert, (c)hange
30          
31          (Note: Specifying an address (range) to match is *optional*; commands
32          default to the whole pattern space if no specific address match was
33          requested.)
34
35         Unsupported features:
36
37          - transliteration (y/source-chars/dest-chars/) (use 'tr')
38          - no support for characters other than the '/' character for regex matches
39          - no pattern space hold space storing / swapping (x, etc.)
40          - no labels / branching (: label, b, t, and friends)
41          - and lots, lots more.
42
43 */
44
45 #include <stdio.h>
46 #include <stdlib.h> /* for realloc() */
47 #include <unistd.h> /* for getopt() */
48 #include <regex.h>
49 #include <string.h> /* for strdup() */
50 #include <errno.h>
51 #include <ctype.h> /* for isspace() */
52 #include "internal.h"
53
54
55 /* externs */
56 extern int optind; /* in unistd.h */
57 extern char *optarg; /* ditto */
58
59 /* options */
60 static int be_quiet = 0;
61
62 struct sed_cmd {
63
64         /* address storage */
65         int beg_line; /* 'sed 1p'   0 == no begining line, apply commands to all lines */
66         int end_line; /* 'sed 1,3p' 0 == no end line, use only beginning. -1 == $ */
67         regex_t *beg_match; /* sed -e '/match/cmd' */
68         regex_t *end_match; /* sed -e '/match/,/end_match/cmd' */
69
70         /* the command */
71         char cmd; /* p,d,s (add more at your leisure :-) */
72
73         /* substitution command specific fields */
74         regex_t *sub_match; /* sed -e 's/sub_match/replace/' */
75         char *replace; /* sed -e 's/sub_match/replace/' XXX: who will hold the \1 \2 \3s? */
76         unsigned int sub_g:1; /* sed -e 's/foo/bar/g' (global) */
77
78         /* edit command (a,i,c) speicific field */
79         char *editline;
80 };
81
82 /* globals */
83 static struct sed_cmd *sed_cmds = NULL; /* growable arrary holding a sequence of sed cmds */
84 static int ncmds = 0; /* number of sed commands */
85
86 /*static char *cur_file = NULL;*/ /* file currently being processed XXX: do I need this? */
87
88 static const char sed_usage[] =
89         "sed [-Vhnef] pattern [files...]\n"
90 #ifndef BB_FEATURE_TRIVIAL_HELP
91         "\n"
92         "-n\tsuppress automatic printing of pattern space\n"
93         "-e script\tadd the script to the commands to be executed\n"
94         "-f scriptfile\tadd the contents of script-file to the commands to be executed\n"
95         "-h\tdisplay this help message\n"
96         "-V\toutput version information and exit\n"
97         "\n"
98         "If no -e or -f is given, the first non-option argument is taken as the\n"
99         "sed script to interpret. All remaining arguments are names of input\n"
100         "files; if no input files are specified, then the standard input is read.\n"
101 #endif
102         ;
103
104 #if 0
105 static void destroy_cmd_strs()
106 {
107         if (sed_cmds == NULL)
108                 return;
109
110         /* destroy all the elements in the array */
111         while (--ncmds >= 0) {
112
113                 if (sed_cmds[ncmds].beg_match) {
114                         regfree(sed_cmds[ncmds].beg_match);
115                         free(sed_cmds[ncmds].beg_match);
116                 }
117                 if (sed_cmds[ncmds].end_match) {
118                         regfree(sed_cmds[ncmds].end_match);
119                         free(sed_cmds[ncmds].end_match);
120                 }
121                 if (sed_cmds[ncmds].sub_match) {
122                         regfree(sed_cmds[ncmds].sub_match);
123                         free(sed_cmds[ncmds].sub_match);
124                 }
125                 if (sed_cmds[ncmds].replace)
126                         free(sed_cmds[ncmds].replace);
127         }
128
129         /* destroy the array */
130         free(sed_cmds);
131         sed_cmds = NULL;
132 }
133 #endif
134
135 /*
136  * trim_str - trims leading and trailing space from a string
137  * 
138  * Note: This returns a malloc'ed string so you must store and free it
139  * XXX: This should be in the utility.c file.
140  */
141 static char *trim_str(const char *str)
142 {
143         int i;
144         char *retstr = strdup(str);
145
146         /* trim leading whitespace */
147         memmove(retstr, &retstr[strspn(retstr, " \n\t\v")], strlen(retstr));
148
149         /* trim trailing whitespace */
150         i = strlen(retstr) - 1;
151         while (isspace(retstr[i]))
152                 i--;
153         retstr[++i] = 0;
154
155         /* Aside: 
156          *
157          * you know, a strrspn() would really be nice cuz then we could say:
158          * 
159          * retstr[strlen(retstr) - strrspn(retstr, " \n\t\v") + 1] = 0;
160          */
161         
162         return retstr;
163 }
164
165 /*
166  * index_of_unescaped_slash - walks left to right through a string beginning
167  * at a specified index and returns the index of the next unescaped slash.
168  */
169 static int index_of_next_unescaped_slash(const char *str, int idx)
170 {
171         do {
172                 idx++;
173                 /* test if we've hit the end */
174                 if (str[idx] == 0)
175                         return -1;
176         } while (str[idx] != '/' && str[idx - 1] != '\\');
177
178         return idx;
179 }
180
181 /*
182  * returns the index in the string just past where the address ends.
183  */
184 static int get_address(const char *str, int *line, regex_t **regex)
185 {
186         char *my_str = strdup(str);
187         int idx = 0;
188
189         if (isdigit(my_str[idx])) {
190                 do {
191                         idx++;
192                 } while (isdigit(my_str[idx]));
193                 my_str[idx] = 0;
194                 *line = atoi(my_str);
195         }
196         else if (my_str[idx] == '$') {
197                 *line = -1;
198                 idx++;
199         }
200         else if (my_str[idx] == '/') {
201                 idx = index_of_next_unescaped_slash(my_str, idx);
202                 if (idx == -1)
203                         fatalError("unterminated match expression\n");
204                 my_str[idx] = '\0';
205                 *regex = (regex_t *)xmalloc(sizeof(regex_t));
206                 xregcomp(*regex, my_str+1, REG_NEWLINE);
207                 idx++; /* so it points to the next character after the last '/' */
208         }
209         else {
210                 errorMsg("get_address: no address found in string\n"
211                                 "\t(you probably didn't check the string you passed me)\n");
212                 idx = -1;
213         }
214
215         free(my_str);
216         return idx;
217 }
218
219 static char *strdup_substr(const char *str, int start, int end)
220 {
221         int size = end - start + 1;
222         char *newstr = xmalloc(size);
223         memcpy(newstr, str+start, size-1);
224         newstr[size-1] = '\0';
225         return newstr;
226 }
227
228 static void parse_subst_cmd(struct sed_cmd *sed_cmd, const char *substr)
229 {
230         int oldidx, cflags = REG_NEWLINE;
231         char *match;
232         int idx = 0;
233
234         /*
235          * the string that gets passed to this function should look like this:
236          *    s/match/replace/gI
237          *    ||     |        ||
238          *    mandatory       optional
239          *
240          *    (all three of the '/' slashes are mandatory)
241          */
242
243         /* verify that the 's' is followed by a 'slash' */
244         if (substr[++idx] != '/')
245                 fatalError("bad format in substitution expression\n");
246
247         /* save the match string */
248         oldidx = idx+1;
249         idx = index_of_next_unescaped_slash(substr, idx);
250         if (idx == -1)
251                 fatalError("bad format in substitution expression\n");
252         match = strdup_substr(substr, oldidx, idx);
253
254         /* save the replacement string */
255         oldidx = idx+1;
256         idx = index_of_next_unescaped_slash(substr, idx);
257         if (idx == -1)
258                 fatalError("bad format in substitution expression\n");
259         sed_cmd->replace = strdup_substr(substr, oldidx, idx);
260
261         /* process the flags */
262         while (substr[++idx]) {
263                 switch (substr[idx]) {
264                 case 'g':
265                         sed_cmd->sub_g = 1;
266                         break;
267                 case 'I':
268                         cflags |= REG_ICASE;
269                         break;
270                 default:
271                         fatalError("bad option in substitution expression\n");
272                 }
273         }
274                 
275         /* compile the regex */
276         sed_cmd->sub_match = (regex_t *)xmalloc(sizeof(regex_t));
277         xregcomp(sed_cmd->sub_match, match, cflags);
278         free(match);
279 }
280
281 static void parse_edit_cmd(struct sed_cmd *sed_cmd, const char *editstr)
282 {
283         int idx = 0;
284         char *ptr; /* shorthand */
285
286         /*
287          * the string that gets passed to this function should look like this:
288          *
289          *    need one of these 
290          *    |
291          *    |    this backslash (immediately following the edit command) is mandatory
292          *    |    |
293          *    [aic]\
294          *    TEXT1\
295          *    TEXT2\
296          *    TEXTN
297          *
298          * as soon as we hit a TEXT line that has no trailing '\', we're done.
299          * this means a command like:
300          *
301          * i\
302          * INSERTME
303          *
304          * is a-ok.
305          *
306          */
307
308         if (editstr[1] != '\\' && (editstr[2] != '\n' || editstr[2] != '\r'))
309                 fatalError("bad format in edit expression\n");
310
311         /* store the edit line text */
312         /* make editline big enough to accomodate the extra '\n' we will tack on
313          * to the end */
314         sed_cmd->editline = xmalloc(strlen(&editstr[3]) + 2);
315         strcpy(sed_cmd->editline, &editstr[3]);
316         ptr = sed_cmd->editline;
317
318         /* now we need to go through * and: s/\\[\r\n]$/\n/g on the edit line */
319         while (ptr[idx]) {
320                 while (ptr[idx] != '\\' && (ptr[idx+1] != '\n' || ptr[idx+1] != '\r')) {
321                         idx++;
322                         if (!ptr[idx]) {
323                                 ptr[idx] = '\n';
324                                 ptr[idx+1] = 0;
325                                 return;
326                         }
327                 }
328                 /* move the newline over the '\' before it (effectively eats the '\') */
329                 memmove(&ptr[idx], &ptr[idx+1], strlen(&ptr[idx+1]));
330                 ptr[strlen(ptr)-1] = 0;
331                 /* substitue \r for \n if needed */
332                 if (ptr[idx] == '\r')
333                         ptr[idx] = '\n';
334         }
335 }
336
337 static void parse_cmd_str(struct sed_cmd *sed_cmd, const char *cmdstr)
338 {
339         int idx = 0;
340
341         /* parse the command
342          * format is: [addr][,addr]cmd
343          *            |----||-----||-|
344          *            part1 part2  part3
345          */
346
347         /* first part (if present) is an address: either a number or a /regex/ */
348         if (isdigit(cmdstr[idx]) || cmdstr[idx] == '/')
349                 idx = get_address(cmdstr, &sed_cmd->beg_line, &sed_cmd->beg_match);
350
351         /* second part (if present) will begin with a comma */
352         if (cmdstr[idx] == ',')
353                 idx += get_address(&cmdstr[++idx], &sed_cmd->end_line, &sed_cmd->end_match);
354
355         /* last part (mandatory) will be a command */
356         if (cmdstr[idx] == '\0')
357                 fatalError("missing command\n");
358         if (!strchr("pdsaic", cmdstr[idx])) /* <-- XXX add new commands here */
359                 fatalError("invalid command\n");
360         sed_cmd->cmd = cmdstr[idx];
361
362         /* special-case handling for (s)ubstitution */
363         if (sed_cmd->cmd == 's')
364                 parse_subst_cmd(sed_cmd, &cmdstr[idx]);
365         
366         /* special-case handling for (a)ppend, (i)nsert, and (c)hange */
367         if (strchr("aic", cmdstr[idx])) {
368                 if (sed_cmd->end_line || sed_cmd->end_match)
369                         fatalError("only a beginning address can be specified for edit commands\n");
370                 parse_edit_cmd(sed_cmd, &cmdstr[idx]);
371         }
372 }
373
374 static void add_cmd_str(const char *cmdstr)
375 {
376         char *my_cmdstr = trim_str(cmdstr);
377
378         /* if this is a comment, don't even bother */
379         if (my_cmdstr[0] == '#') {
380                 free(my_cmdstr);
381                 return;
382         }
383
384         /* grow the array */
385         sed_cmds = realloc(sed_cmds, sizeof(struct sed_cmd) * (++ncmds));
386         /* zero new element */
387         memset(&sed_cmds[ncmds-1], 0, sizeof(struct sed_cmd));
388         /* load command string into new array element */
389         parse_cmd_str(&sed_cmds[ncmds-1], my_cmdstr);
390 }
391
392
393 static void load_cmd_file(char *filename)
394 {
395         FILE *cmdfile;
396         char *line;
397         char *nextline;
398
399         cmdfile = fopen(filename, "r");
400         if (cmdfile == NULL)
401                 fatalError(strerror(errno));
402
403         while ((line = get_line_from_file(cmdfile)) != NULL) {
404                 /* if a line ends with '\' it needs the next line appended to it */
405                 while (line[strlen(line)-2] == '\\' &&
406                                 (nextline = get_line_from_file(cmdfile)) != NULL) {
407                         line = realloc(line, strlen(line) + strlen(nextline) + 1);
408                         strcat(line, nextline);
409                 }
410                 add_cmd_str(line);
411                 free(line);
412         }
413 }
414
415 static int do_subst_command(const struct sed_cmd *sed_cmd, const char *line)
416 {
417         int altered = 0;
418
419         /* we only substitute if the substitution 'search' expression matches */
420         if (regexec(sed_cmd->sub_match, line, 0, NULL, 0) == 0) {
421                 regmatch_t regmatch;
422                 int i;
423                 char *ptr = (char *)line;
424
425                 while (*ptr) {
426                         /* if we can match the search string... */
427                         if (regexec(sed_cmd->sub_match, ptr, 1, &regmatch, 0) == 0) {
428                                 /* print everything before the match, */
429                                 for (i = 0; i < regmatch.rm_so; i++)
430                                         fputc(ptr[i], stdout);
431                                 /* then print the substitution in its place */
432                                 fputs(sed_cmd->replace, stdout);
433                                 /* then advance past the match */
434                                 ptr += regmatch.rm_eo;
435                                 /* and flag that something has changed */
436                                 altered++;
437
438                                 /* if we're not doing this globally... */
439                                 if (!sed_cmd->sub_g)
440                                         break;
441                         }
442                         /* if we COULD NOT match the search string (meaning we've gone past
443                          * all previous instances), get out */
444                         else
445                                 break;
446                 }
447
448                 /* is there anything left to print? */
449                 if (*ptr) 
450                         fputs(ptr, stdout);
451         }
452
453         return altered;
454 }
455
456 static int do_sed_command(const struct sed_cmd *sed_cmd, const char *line) 
457 {
458         int altered = 0;
459
460         switch (sed_cmd->cmd) {
461
462                 case 'p':
463                         fputs(line, stdout);
464                         break;
465
466                 case 'd':
467                         altered++;
468                         break;
469
470                 case 's':
471                         altered = do_subst_command(sed_cmd, line);
472                         break;
473
474                 case 'a':
475                         fputs(line, stdout);
476                         fputs(sed_cmd->editline, stdout);
477                         altered++;
478                         break;
479
480                 case 'i':
481                         fputs(sed_cmd->editline, stdout);
482                         break;
483
484                 case 'c':
485                         fputs(sed_cmd->editline, stdout);
486                         altered++;
487                         break;
488         }
489
490         return altered;
491 }
492
493 static void process_file(FILE *file)
494 {
495         char *line = NULL;
496         static int linenum = 0; /* GNU sed does not restart counting lines at EOF */
497         unsigned int still_in_range = 0;
498         int line_altered;
499         int i;
500
501         /* go through every line in the file */
502         while ((line = get_line_from_file(file)) != NULL) {
503
504                 linenum++;
505                 line_altered = 0;
506
507                 /* for every line, go through all the commands */
508                 for (i = 0; i < ncmds; i++) {
509
510                         /* are we acting on a range of matched lines? */
511                         if (sed_cmds[i].beg_match && sed_cmds[i].end_match) {
512                                 if (still_in_range || regexec(sed_cmds[i].beg_match, line, 0, NULL, 0) == 0) {
513                                         line_altered += do_sed_command(&sed_cmds[i], line);
514                                         still_in_range = 1; 
515                                         if (regexec(sed_cmds[i].end_match, line, 0, NULL, 0) == 0)
516                                                 still_in_range = 0;
517                                 }
518                         }
519
520                         /* are we trying to match a single line? */
521                         else if (sed_cmds[i].beg_match) {
522                                 if (regexec(sed_cmds[i].beg_match, line, 0, NULL, 0) == 0)
523                                         line_altered += do_sed_command(&sed_cmds[i], line);
524                         }
525
526                         /* are we acting on a range of line numbers? */
527                         else if (sed_cmds[i].beg_line > 0 && sed_cmds[i].end_line > 0) {
528                                 if (linenum >= sed_cmds[i].beg_line && linenum <= sed_cmds[i].end_line)
529                                         line_altered += do_sed_command(&sed_cmds[i], line);
530                         }
531
532                         /* are we acting on a specified line number */
533                         else if (sed_cmds[i].beg_line > 0) {
534                                 if (linenum == sed_cmds[i].beg_line)
535                                         line_altered += do_sed_command(&sed_cmds[i], line);
536                         }
537
538                         /* not acting on matches or line numbers. act on every line */
539                         else 
540                                 line_altered += do_sed_command(&sed_cmds[i], line);
541
542                 }
543
544                 /* we will print the line unless we were told to be quiet or if the
545                  * line was altered (via a 'd'elete or 's'ubstitution) */
546                 if (!be_quiet && !line_altered)
547                         fputs(line, stdout);
548
549                 free(line);
550         }
551 }
552
553 extern int sed_main(int argc, char **argv)
554 {
555         int opt;
556
557         /* do special-case option parsing */
558         if (argv[1] && (strcmp(argv[1], "--help") == 0))
559                 usage(sed_usage);
560
561 #if 0
562         /* destroy command strings on exit */
563         if (atexit(destroy_cmd_strs) == -1) {
564                 perror("sed");
565                 exit(1);
566         }
567 #endif
568
569         /* do normal option parsing */
570         while ((opt = getopt(argc, argv, "Vhne:f:")) > 0) {
571                 switch (opt) {
572                         case 'V':
573                                 printf("BusyBox v%s (%s)\n", BB_VER, BB_BT);
574                                 exit(0);
575                                 break;
576                         case 'h':
577                                 usage(sed_usage);
578                                 break;
579                         case 'n':
580                                 be_quiet++;
581                                 break;
582                         case 'e':
583                                 add_cmd_str(optarg);
584                                 break;
585                         case 'f': 
586                                 load_cmd_file(optarg);
587                                 break;
588                 }
589         }
590
591         /* if we didn't get a pattern from a -e and no command file was specified,
592          * argv[optind] should be the pattern. no pattern, no worky */
593         if (ncmds == 0) {
594                 if (argv[optind] == NULL)
595                         usage(sed_usage);
596                 else {
597                         add_cmd_str(argv[optind]);
598                         optind++;
599                 }
600         }
601
602
603         /* argv[(optind)..(argc-1)] should be names of file to process. If no
604          * files were specified or '-' was specified, take input from stdin.
605          * Otherwise, we process all the files specified. */
606         if (argv[optind] == NULL || (strcmp(argv[optind], "-") == 0)) {
607                 process_file(stdin);
608         }
609         else {
610                 int i;
611                 FILE *file;
612                 for (i = optind; i < argc; i++) {
613                         file = fopen(argv[i], "r");
614                         if (file == NULL) {
615                                 errorMsg("%s: %s\n", argv[i], strerror(errno));
616                         } else {
617                                 process_file(file);
618                                 fclose(file);
619                         }
620                 }
621         }
622         
623         return 0;
624 }