1eea128d5e36d8cde6c8ec4048bb44fa15654333
[oweals/busybox.git] / sed.c
1 /*
2  * sed.c - very minimalist version of sed
3  *
4  * Copyright (C) 1999,2000 by Lineo, inc.
5  * Written by Mark Whitley <markw@lineo.com>, <markw@enol.com>
6  *
7  * This program is free software; you can redistribute it and/or modify
8  * it under the terms of the GNU General Public License as published by
9  * the Free Software Foundation; either version 2 of the License, or
10  * (at your option) any later version.
11  *
12  * This program is distributed in the hope that it will be useful,
13  * but WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
15  * General Public License for more details.
16  *
17  * You should have received a copy of the GNU General Public License
18  * along with this program; if not, write to the Free Software
19  * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA
20  *
21  */
22
23 /*
24         Supported features and commands in this version of sed:
25
26          - comments ('#')
27          - address matching: num|/matchstr/[,num|/matchstr/|$]command
28          - commands: (p)rint, (d)elete, (s)ubstitue (with g & I flags)
29          - edit commands: (a)ppend, (i)nsert, (c)hange
30          
31          (Note: Specifying an address (range) to match is *optional*; commands
32          default to the whole pattern space if no specific address match was
33          requested.)
34
35         Unsupported features:
36
37          - transliteration (y/source-chars/dest-chars/) (use 'tr')
38          - no support for characters other than the '/' character for regex matches
39          - no pattern space hold space storing / swapping (x, etc.)
40          - no labels / branching (: label, b, t, and friends)
41          - and lots, lots more.
42
43 */
44
45 #include <stdio.h>
46 #include <stdlib.h> /* for realloc() */
47 #include <unistd.h> /* for getopt() */
48 #include <regex.h>
49 #include <string.h> /* for strdup() */
50 #include <errno.h>
51 #include <ctype.h> /* for isspace() */
52 #include "internal.h"
53
54
55 /* externs */
56 extern int optind; /* in unistd.h */
57 extern char *optarg; /* ditto */
58
59 /* options */
60 static int be_quiet = 0;
61
62 struct sed_cmd {
63
64         /* address storage */
65         int beg_line; /* 'sed 1p'   0 == no begining line, apply commands to all lines */
66         int end_line; /* 'sed 1,3p' 0 == no end line, use only beginning. -1 == $ */
67         regex_t *beg_match; /* sed -e '/match/cmd' */
68         regex_t *end_match; /* sed -e '/match/,/end_match/cmd' */
69
70         /* the command */
71         char cmd; /* p,d,s (add more at your leisure :-) */
72
73         /* substitution command specific fields */
74         regex_t *sub_match; /* sed -e 's/sub_match/replace/' */
75         char *replace; /* sed -e 's/sub_match/replace/' XXX: who will hold the \1 \2 \3s? */
76         unsigned int sub_g:1; /* sed -e 's/foo/bar/g' (global) */
77
78         /* edit command (a,i,c) speicific field */
79         char *editline;
80 };
81
82 /* globals */
83 static struct sed_cmd *sed_cmds = NULL; /* growable arrary holding a sequence of sed cmds */
84 static int ncmds = 0; /* number of sed commands */
85
86 /*static char *cur_file = NULL;*/ /* file currently being processed XXX: do I need this? */
87
88 static const char sed_usage[] =
89         "sed [-Vhnef] pattern [files...]\n"
90 #ifndef BB_FEATURE_TRIVIAL_HELP
91         "\n"
92         "-n\tsuppress automatic printing of pattern space\n"
93         "-e script\tadd the script to the commands to be executed\n"
94         "-f scriptfile\tadd the contents of script-file to the commands to be executed\n"
95         "-h\tdisplay this help message\n"
96         "-V\toutput version information and exit\n"
97         "\n"
98         "If no -e or -f is given, the first non-option argument is taken as the\n"
99         "sed script to interpret. All remaining arguments are names of input\n"
100         "files; if no input files are specified, then the standard input is read.\n"
101 #endif
102         ;
103
104 #if 0
105 static void destroy_cmd_strs()
106 {
107         if (sed_cmds == NULL)
108                 return;
109
110         /* destroy all the elements in the array */
111         while (--ncmds >= 0) {
112
113                 if (sed_cmds[ncmds].beg_match) {
114                         regfree(sed_cmds[ncmds].beg_match);
115                         free(sed_cmds[ncmds].beg_match);
116                 }
117                 if (sed_cmds[ncmds].end_match) {
118                         regfree(sed_cmds[ncmds].end_match);
119                         free(sed_cmds[ncmds].end_match);
120                 }
121                 if (sed_cmds[ncmds].sub_match) {
122                         regfree(sed_cmds[ncmds].sub_match);
123                         free(sed_cmds[ncmds].sub_match);
124                 }
125                 if (sed_cmds[ncmds].replace)
126                         free(sed_cmds[ncmds].replace);
127         }
128
129         /* destroy the array */
130         free(sed_cmds);
131         sed_cmds = NULL;
132 }
133 #endif
134
135 /*
136  * trim_str - trims leading and trailing space from a string
137  * 
138  * Note: This returns a malloc'ed string so you must store and free it
139  * XXX: This should be in the utility.c file.
140  */
141 static char *trim_str(const char *str)
142 {
143         int i;
144         char *retstr = strdup(str);
145
146         /* trim leading whitespace */
147         memmove(retstr, &retstr[strspn(retstr, " \n\t\v")], strlen(retstr));
148
149         /* trim trailing whitespace */
150         i = strlen(retstr) - 1;
151         while (isspace(retstr[i]))
152                 i--;
153         retstr[++i] = 0;
154
155         /* Aside: 
156          *
157          * you know, a strrspn() would really be nice cuz then we could say:
158          * 
159          * retstr[strlen(retstr) - strrspn(retstr, " \n\t\v") + 1] = 0;
160          */
161         
162         return retstr;
163 }
164
165 /*
166  * index_of_unescaped_slash - walks left to right through a string beginning
167  * at a specified index and returns the index of the next unescaped slash.
168  */
169 static int index_of_next_unescaped_slash(const char *str, int idx)
170 {
171         do {
172                 idx++;
173                 /* test if we've hit the end */
174                 if (str[idx] == 0)
175                         return -1;
176         } while (str[idx] != '/' && str[idx - 1] != '\\');
177
178         return idx;
179 }
180
181 /*
182  * returns the index in the string just past where the address ends.
183  */
184 static int get_address(const char *str, int *line, regex_t **regex)
185 {
186         char *my_str = strdup(str);
187         int idx = 0;
188
189         if (isdigit(my_str[idx])) {
190                 do {
191                         idx++;
192                 } while (isdigit(my_str[idx]));
193                 my_str[idx] = 0;
194                 *line = atoi(my_str);
195         }
196         else if (my_str[idx] == '$') {
197                 *line = -1;
198                 idx++;
199         }
200         else if (my_str[idx] == '/') {
201                 idx = index_of_next_unescaped_slash(my_str, idx);
202                 if (idx == -1)
203                         fatalError("unterminated match expression\n");
204                 my_str[idx] = '\0';
205                 *regex = (regex_t *)xmalloc(sizeof(regex_t));
206                 xregcomp(*regex, my_str+1, REG_NEWLINE);
207                 idx++; /* so it points to the next character after the last '/' */
208         }
209         else {
210                 fprintf(stderr, "sed.c:get_address: no address found in string\n");
211                 fprintf(stderr, "\t(you probably didn't check the string you passed me)\n");
212                 idx = -1;
213         }
214
215         free(my_str);
216         return idx;
217 }
218
219 static char *strdup_substr(const char *str, int start, int end)
220 {
221         int size = end - start + 1;
222         char *newstr = xmalloc(size);
223         memcpy(newstr, str+start, size-1);
224         newstr[size-1] = '\0';
225         return newstr;
226 }
227
228 static void parse_subst_cmd(struct sed_cmd *sed_cmd, const char *substr)
229 {
230         int oldidx, cflags = REG_NEWLINE;
231         char *match;
232         int idx = 0;
233
234         /*
235          * the string that gets passed to this function should look like this:
236          *    s/match/replace/gI
237          *    ||     |        ||
238          *    mandatory       optional
239          *
240          *    (all three of the '/' slashes are mandatory)
241          */
242
243         /* verify that the 's' is followed by a 'slash' */
244         if (substr[++idx] != '/')
245                 fatalError("bad format in substitution expression\n");
246
247         /* save the match string */
248         oldidx = idx+1;
249         idx = index_of_next_unescaped_slash(substr, idx);
250         if (idx == -1)
251                 fatalError("bad format in substitution expression\n");
252         match = strdup_substr(substr, oldidx, idx);
253
254         /* save the replacement string */
255         oldidx = idx+1;
256         idx = index_of_next_unescaped_slash(substr, idx);
257         if (idx == -1)
258                 fatalError("bad format in substitution expression\n");
259         sed_cmd->replace = strdup_substr(substr, oldidx, idx);
260
261         /* process the flags */
262         while (substr[++idx]) {
263                 switch (substr[idx]) {
264                 case 'g':
265                         sed_cmd->sub_g = 1;
266                         break;
267                 case 'I':
268                         cflags |= REG_ICASE;
269                         break;
270                 default:
271                         fatalError("bad option in substitution expression\n");
272                 }
273         }
274                 
275         /* compile the regex */
276         sed_cmd->sub_match = (regex_t *)xmalloc(sizeof(regex_t));
277         xregcomp(sed_cmd->sub_match, match, cflags);
278         free(match);
279 }
280
281 static void parse_edit_cmd(struct sed_cmd *sed_cmd, const char *editstr)
282 {
283         int idx = 0;
284         char *ptr; /* shorthand */
285
286         /*
287          * the string that gets passed to this function should look like this:
288          *
289          *    need one of these 
290          *    |
291          *    |    this backslash (immediately following the edit command) is mandatory
292          *    |    |
293          *    [aic]\
294          *    TEXT1\
295          *    TEXT2\
296          *    TEXTN
297          *
298          * as soon as we hit a TEXT line that has no trailing '\', we're done.
299          * this means a command like:
300          *
301          * i\
302          * INSERTME
303          *
304          * is a-ok.
305          *
306          */
307
308         if (editstr[1] != '\\' && (editstr[2] != '\n' || editstr[2] != '\r'))
309                 fatalError("bad format in edit expression\n");
310
311         /* store the edit line text */
312         sed_cmd->editline = strdup(&editstr[3]);
313         ptr = sed_cmd->editline;
314
315         /* now we need to go through * and: s/\\[\r\n]$/\n/g on the edit line */
316         while (ptr[idx]) {
317                 while (ptr[idx] != '\\' && (ptr[idx+1] != '\n' || ptr[idx+1] != '\r')) {
318                         idx++;
319                         if (!ptr[idx]) {
320                                 ptr[idx] = '\n';
321                                 ptr[idx+1] = 0;
322                                 return;
323                         }
324                 }
325                 /* move the newline over the '\' before it (effectively eats the '\') */
326                 memmove(&ptr[idx], &ptr[idx+1], strlen(&ptr[idx+1]));
327                 ptr[strlen(ptr)-1] = 0;
328                 /* substitue \r for \n if needed */
329                 if (ptr[idx] == '\r')
330                         ptr[idx] = '\n';
331         }
332 }
333
334 static void parse_cmd_str(struct sed_cmd *sed_cmd, const char *cmdstr)
335 {
336         int idx = 0;
337
338         /* parse the command
339          * format is: [addr][,addr]cmd
340          *            |----||-----||-|
341          *            part1 part2  part3
342          */
343
344         /* first part (if present) is an address: either a number or a /regex/ */
345         if (isdigit(cmdstr[idx]) || cmdstr[idx] == '/')
346                 idx = get_address(cmdstr, &sed_cmd->beg_line, &sed_cmd->beg_match);
347
348         /* second part (if present) will begin with a comma */
349         if (cmdstr[idx] == ',')
350                 idx += get_address(&cmdstr[++idx], &sed_cmd->end_line, &sed_cmd->end_match);
351
352         /* last part (mandatory) will be a command */
353         if (cmdstr[idx] == '\0')
354                 fatalError("missing command\n");
355         if (!strchr("pdsaic", cmdstr[idx])) /* <-- XXX add new commands here */
356                 fatalError("invalid command\n");
357         sed_cmd->cmd = cmdstr[idx];
358
359         /* special-case handling for (s)ubstitution */
360         if (sed_cmd->cmd == 's')
361                 parse_subst_cmd(sed_cmd, &cmdstr[idx]);
362         
363         /* special-case handling for (a)ppend, (i)nsert, and (c)hange */
364         if (strchr("aic", cmdstr[idx]))
365                 parse_edit_cmd(sed_cmd, &cmdstr[idx]);
366 }
367
368 static void add_cmd_str(const char *cmdstr)
369 {
370         char *my_cmdstr = trim_str(cmdstr);
371
372         /* if this is a comment, don't even bother */
373         if (my_cmdstr[0] == '#') {
374                 free(my_cmdstr);
375                 return;
376         }
377
378         /* grow the array */
379         sed_cmds = realloc(sed_cmds, sizeof(struct sed_cmd) * (++ncmds));
380         /* zero new element */
381         memset(&sed_cmds[ncmds-1], 0, sizeof(struct sed_cmd));
382         /* load command string into new array element */
383         parse_cmd_str(&sed_cmds[ncmds-1], my_cmdstr);
384 }
385
386
387 static void load_cmd_file(char *filename)
388 {
389         FILE *cmdfile;
390         char *line;
391         char *nextline;
392
393         cmdfile = fopen(filename, "r");
394         if (cmdfile == NULL)
395                 fatalError(strerror(errno));
396
397         while ((line = get_line_from_file(cmdfile)) != NULL) {
398                 /* if a line ends with '\' it needs the next line appended to it */
399                 while (line[strlen(line)-2] == '\\' &&
400                                 (nextline = get_line_from_file(cmdfile)) != NULL) {
401                         line = realloc(line, strlen(line) + strlen(nextline) + 1);
402                         strcat(line, nextline);
403                 }
404                 add_cmd_str(line);
405                 free(line);
406         }
407 }
408
409 static int do_subst_command(const struct sed_cmd *sed_cmd, const char *line)
410 {
411         int altered = 0;
412
413         /* we only substitute if the substitution 'search' expression matches */
414         if (regexec(sed_cmd->sub_match, line, 0, NULL, 0) == 0) {
415                 regmatch_t regmatch;
416                 int i;
417                 char *ptr = (char *)line;
418
419                 while (*ptr) {
420                         /* if we can match the search string... */
421                         if (regexec(sed_cmd->sub_match, ptr, 1, &regmatch, 0) == 0) {
422                                 /* print everything before the match, */
423                                 for (i = 0; i < regmatch.rm_so; i++)
424                                         fputc(ptr[i], stdout);
425                                 /* then print the substitution in its place */
426                                 fputs(sed_cmd->replace, stdout);
427                                 /* then advance past the match */
428                                 ptr += regmatch.rm_eo;
429                                 /* and flag that something has changed */
430                                 altered++;
431
432                                 /* if we're not doing this globally... */
433                                 if (!sed_cmd->sub_g)
434                                         break;
435                         }
436                         /* if we COULD NOT match the search string (meaning we've gone past
437                          * all previous instances), get out */
438                         else
439                                 break;
440                 }
441
442                 /* is there anything left to print? */
443                 if (*ptr) 
444                         fputs(ptr, stdout);
445         }
446
447         return altered;
448 }
449
450 static int do_sed_command(const struct sed_cmd *sed_cmd, const char *line) 
451 {
452         int altered = 0;
453
454         switch (sed_cmd->cmd) {
455
456                 case 'p':
457                         fputs(line, stdout);
458                         break;
459
460                 case 'd':
461                         altered++;
462                         break;
463
464                 case 's':
465                         altered = do_subst_command(sed_cmd, line);
466                         break;
467
468                 case 'a':
469                         fputs(line, stdout);
470                         fputs(sed_cmd->editline, stdout);
471                         altered++;
472                         break;
473
474                 case 'i':
475                         fputs(sed_cmd->editline, stdout);
476                         break;
477
478                 case 'c':
479                         fputs(sed_cmd->editline, stdout);
480                         altered++;
481                         break;
482         }
483
484         return altered;
485 }
486
487 static void process_file(FILE *file)
488 {
489         char *line = NULL;
490         static int linenum = 0; /* GNU sed does not restart counting lines at EOF */
491         unsigned int still_in_range = 0;
492         int line_altered;
493         int i;
494
495         /* go through every line in the file */
496         while ((line = get_line_from_file(file)) != NULL) {
497
498                 linenum++;
499                 line_altered = 0;
500
501                 /* for every line, go through all the commands */
502                 for (i = 0; i < ncmds; i++) {
503
504                         /* are we acting on a range of matched lines? */
505                         if (sed_cmds[i].beg_match && sed_cmds[i].end_match) {
506                                 if (still_in_range || regexec(sed_cmds[i].beg_match, line, 0, NULL, 0) == 0) {
507                                         line_altered += do_sed_command(&sed_cmds[i], line);
508                                         still_in_range = 1; 
509                                         if (regexec(sed_cmds[i].end_match, line, 0, NULL, 0) == 0)
510                                                 still_in_range = 0;
511                                 }
512                         }
513
514                         /* are we trying to match a single line? */
515                         else if (sed_cmds[i].beg_match) {
516                                 if (regexec(sed_cmds[i].beg_match, line, 0, NULL, 0) == 0)
517                                         line_altered += do_sed_command(&sed_cmds[i], line);
518                         }
519
520                         /* are we acting on a range of line numbers? */
521                         else if (sed_cmds[i].beg_line > 0 && sed_cmds[i].end_line > 0) {
522                                 if (linenum >= sed_cmds[i].beg_line && linenum <= sed_cmds[i].end_line)
523                                         line_altered += do_sed_command(&sed_cmds[i], line);
524                         }
525
526                         /* are we acting on a specified line number */
527                         else if (sed_cmds[i].beg_line > 0) {
528                                 if (linenum == sed_cmds[i].beg_line)
529                                         line_altered += do_sed_command(&sed_cmds[i], line);
530                         }
531
532                         /* not acting on matches or line numbers. act on every line */
533                         else 
534                                 line_altered += do_sed_command(&sed_cmds[i], line);
535
536                 }
537
538                 /* we will print the line unless we were told to be quiet or if the
539                  * line was altered (via a 'd'elete or 's'ubstitution) */
540                 if (!be_quiet && !line_altered)
541                         fputs(line, stdout);
542
543                 free(line);
544         }
545 }
546
547 extern int sed_main(int argc, char **argv)
548 {
549         int opt;
550
551         /* do special-case option parsing */
552         if (argv[1] && (strcmp(argv[1], "--help") == 0))
553                 usage(sed_usage);
554
555 #if 0
556         /* destroy command strings on exit */
557         if (atexit(destroy_cmd_strs) == -1) {
558                 perror("sed");
559                 exit(1);
560         }
561 #endif
562
563         /* do normal option parsing */
564         while ((opt = getopt(argc, argv, "Vhne:f:")) > 0) {
565                 switch (opt) {
566                         case 'V':
567                                 printf("BusyBox v%s (%s)\n", BB_VER, BB_BT);
568                                 exit(0);
569                                 break;
570                         case 'h':
571                                 usage(sed_usage);
572                                 break;
573                         case 'n':
574                                 be_quiet++;
575                                 break;
576                         case 'e':
577                                 add_cmd_str(optarg);
578                                 break;
579                         case 'f': 
580                                 load_cmd_file(optarg);
581                                 break;
582                 }
583         }
584
585         /* if we didn't get a pattern from a -e and no command file was specified,
586          * argv[optind] should be the pattern. no pattern, no worky */
587         if (ncmds == 0) {
588                 if (argv[optind] == NULL)
589                         usage(sed_usage);
590                 else {
591                         add_cmd_str(argv[optind]);
592                         optind++;
593                 }
594         }
595
596
597         /* argv[(optind)..(argc-1)] should be names of file to process. If no
598          * files were specified or '-' was specified, take input from stdin.
599          * Otherwise, we process all the files specified. */
600         if (argv[optind] == NULL || (strcmp(argv[optind], "-") == 0)) {
601                 process_file(stdin);
602         }
603         else {
604                 int i;
605                 FILE *file;
606                 for (i = optind; i < argc; i++) {
607                         file = fopen(argv[i], "r");
608                         if (file == NULL) {
609                                 fprintf(stderr, "sed: %s: %s\n", argv[i], strerror(errno));
610                         } else {
611                                 process_file(file);
612                                 fclose(file);
613                         }
614                 }
615         }
616         
617         return 0;
618 }