814380246523af01255d3b75493257d4476e04e9
[oweals/gnunet.git] / src / regex / regex_test_lib.c
1 /*
2  *  This file is part of GNUnet
3  *  Copyright (C) 2012-2017 GNUnet e.V.
4  *
5  *  GNUnet is free software; you can redistribute it and/or modify
6  *  it under the terms of the GNU General Public License as published
7  *  by the Free Software Foundation; either version 3, or (at your
8  *  option) any later version.
9  *
10  *  GNUnet is distributed in the hope that it will be useful, but
11  *  WITHOUT ANY WARRANTY; without even the implied warranty of
12  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  *  General Public License for more details.
14  *
15  *  You should have received a copy of the GNU General Public License
16  *  along with GNUnet; see the file COPYING.  If not, write to the
17  *  Free Software Foundation, Inc., 51 Franklin Street, Fifth Floor,
18  *  Boston, MA 02110-1301, USA.
19  */
20 /**
21  * @file src/regex/regex_test_lib.c
22  * @brief library to read regexes representing IP networks from a file.
23  *        and simplyfinying the into one big regex, in order to run
24  *        tests (regex performance, cadet profiler).
25  * @author Bartlomiej Polot
26  */
27
28 #include "platform.h"
29 #include "gnunet_util_lib.h"
30
31
32 /**
33  * Struct to hold the tree formed by prefix-combining the regexes.
34  */
35 struct RegexCombineCtx
36 {
37   /**
38    * Child nodes with same prefix and token.
39    */
40   struct RegexCombineCtx **children;
41
42   /**
43    * Alphabet size (how many @a children there are)
44    */
45   unsigned int size;
46
47   /**
48    * Token.
49    */
50   char *s;
51 };
52
53
54 /**
55  * Char 2 int
56  *
57  * Convert a character into its int value depending on the base used
58  *
59  * @param c Char
60  * @param size base (2, 8 or 16(hex))
61  *
62  * @return Int in range [0, (base-1)]
63  */
64 static int
65 c2i (char c, int size)
66 {
67   switch (size)
68   {
69     case 2:
70     case 8:
71       return c - '0';
72       break;
73     case 16:
74       if (c >= '0' && c <= '9')
75         return c - '0';
76       else if (c >= 'A' && c <= 'F')
77         return c - 'A' + 10;
78       else if (c >= 'a' && c <= 'f')
79         return c - 'a' + 10;
80       else
81       {
82         GNUNET_log (GNUNET_ERROR_TYPE_ERROR,
83                     "Cannot convert char %c in base %u\n",
84                     c, size);
85         GNUNET_assert (0);
86       }
87       break;
88     default:
89       GNUNET_assert (0);
90   }
91 }
92
93
94 /**
95  * Printf spaces to indent the regex tree
96  *
97  * @param n Indentation level
98  */
99 static void
100 space (int n)
101 {
102   for (int i = 0; i < n; i++)
103     fprintf (stderr, "| ");
104 }
105
106
107 /**
108  * Printf the combined regex ctx.
109  *
110  * @param ctx The ctx to printf
111  * @param level Indentation level to start with
112  */
113 static void
114 debugctx (struct RegexCombineCtx *ctx, int level)
115 {
116 #if DEBUG_REGEX
117   if (NULL != ctx->s)
118   {
119     space (level - 1);
120     fprintf (stderr, "%u:'%s'\n", c2i(ctx->s[0], ctx->size), ctx->s);
121   }
122   else
123     fprintf (stderr, "ROOT (base %u)\n", ctx->size);
124   for (unsigned int i = 0; i < ctx->size; i++)
125   {
126     if (NULL != ctx->children[i])
127     {
128       space (level);
129       debugctx (ctx->children[i], level + 1);
130     }
131   }
132   fflush(stderr);
133 #endif
134 }
135
136
137 /**
138  * Add a single regex to a context, combining with exisiting regex by-prefix.
139  *
140  * @param ctx Context with 0 or more regexes.
141  * @param regex Regex to add.
142  */
143 static void
144 regex_add (struct RegexCombineCtx *ctx,
145            const char *regex);
146
147
148 /**
149  * Create and initialize a new RegexCombineCtx.
150  *
151  * @param alphabet_size Size of the alphabet (and the Trie array)
152  */
153 static struct RegexCombineCtx *
154 new_regex_ctx (unsigned int alphabet_size)
155 {
156   struct RegexCombineCtx *ctx;
157   size_t array_size;
158
159   array_size = sizeof(struct RegexCombineCtx *) * alphabet_size;
160   ctx = GNUNET_new (struct RegexCombineCtx);
161   ctx->children = GNUNET_malloc (array_size);
162   ctx->size = alphabet_size;
163
164   return ctx;
165 }
166
167
168 static void
169 move_children (struct RegexCombineCtx *dst,
170                const struct RegexCombineCtx *src)
171 {
172   size_t array_size;
173
174   array_size = sizeof(struct RegexCombineCtx *) * src->size;
175   memcpy (dst->children,
176           src->children,
177           array_size);
178   for (unsigned int i = 0; i < src->size; i++)
179   {
180     src->children[i] = NULL;
181   }
182 }
183
184
185 /**
186  * Extract a string from all prefix-combined regexes.
187  *
188  * @param ctx Context with 0 or more regexes.
189  *
190  * @return Regex that matches any of the added regexes.
191  */
192 static char *
193 regex_combine (struct RegexCombineCtx *ctx)
194 {
195   struct RegexCombineCtx *p;
196   unsigned int i;
197   size_t len;
198   char *regex;
199   char *tmp;
200   char *s;
201   int opt;
202
203   GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, "new combine %s\n", ctx->s);
204   regex = GNUNET_strdup ("");
205   opt = GNUNET_NO;
206   for (i = 0; i < ctx->size; i++)
207   {
208     p = ctx->children[i];
209     if (NULL == p)
210       continue;
211     GNUNET_log (GNUNET_ERROR_TYPE_DEBUG,
212                 "adding '%s' to innner %s\n",
213                 p->s, ctx->s);
214     s = regex_combine (p);
215     GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, "  total '%s'\n", s);
216     if (strlen(s) == 0)
217     {
218       opt = GNUNET_YES;
219     }
220     else
221     {
222       GNUNET_asprintf (&tmp, "%s%s|", regex, s);
223       GNUNET_free_non_null (regex);
224       regex = tmp;
225     }
226     GNUNET_free_non_null (s);
227     GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, "  so far '%s' for inner %s\n", regex, ctx->s);
228   }
229
230   GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, "opt: %d, innner: '%s'\n", opt, regex);
231   len = strlen (regex);
232   if (0 == len)
233   {
234     GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, "empty, returning ''\n");
235     GNUNET_free (regex);
236     return NULL == ctx->s ? NULL : GNUNET_strdup (ctx->s);
237   }
238
239   if ('|' == regex[len - 1])
240     regex[len - 1] = '\0';
241
242   if (NULL != ctx->s)
243   {
244     if (opt)
245       GNUNET_asprintf (&s, "%s(%s)?", ctx->s, regex);
246     else
247       GNUNET_asprintf (&s, "%s(%s)", ctx->s, regex);
248     GNUNET_free (regex);
249     regex = s;
250   }
251
252   GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, "partial: %s\n", regex);
253   return regex;
254 }
255
256
257 /**
258  * Get the number of matching characters on the prefix of both strings.
259  *
260  * @param s1 String 1.
261  * @param s2 String 2.
262  *
263  * @return Number of characters of matching prefix.
264  */
265 static unsigned int
266 get_prefix_length (const char *s1, const char *s2)
267 {
268   unsigned int l1;
269   unsigned int l2;
270   unsigned int limit;
271   unsigned int i;
272
273   l1 = strlen (s1);
274   l2 = strlen (s2);
275   limit = l1 > l2 ? l2 : l1;
276
277   for (i = 0; i < limit; i++)
278   {
279     if (s1[i] != s2[i])
280       return i;
281   }
282   return limit;
283 }
284
285
286 /**
287  * Return the child context with the longest prefix match with the regex.
288  * Usually only one child will match, search all just in case.
289  *
290  * @param ctx Context whose children to search.
291  * @param regex String to match.
292  *
293  * @return Child with the longest prefix, NULL if no child matches.
294  */
295 static struct RegexCombineCtx *
296 get_longest_prefix (struct RegexCombineCtx *ctx, const char *regex)
297 {
298   struct RegexCombineCtx *p;
299   struct RegexCombineCtx *best;
300   unsigned int i;
301   unsigned int l;
302   unsigned int best_l;
303
304   best_l = 0;
305   best = NULL;
306
307   for (i = 0; i < ctx->size; i++)
308   {
309     p = ctx->children[i];
310     if (NULL == p)
311       continue;
312
313     l = get_prefix_length (p->s, regex);
314     if (l > best_l)
315     {
316       GNUNET_break (0 == best_l);
317       best = p;
318       best_l = l;
319     }
320   }
321   return best;
322 }
323
324 static void
325 regex_add_multiple (struct RegexCombineCtx *ctx,
326                     const char *regex,
327                     struct RegexCombineCtx **children)
328 {
329   char tmp[2];
330   long unsigned int i;
331   size_t l;
332   struct RegexCombineCtx *newctx;
333   unsigned int count;
334
335   if ('(' != regex[0])
336   {
337     GNUNET_assert (0);
338   }
339
340   /* Does the regex cover *all* possible children? Then don't add any,
341    * as it will be covered by the post-regex "(a-z)*"
342    */
343   l = strlen (regex);
344   count = 0;
345   for (i = 1UL; i < l; i++)
346   {
347     if (regex[i] != '|' && regex[i] != ')')
348     {
349       count++;
350     }
351   }
352   if (count == ctx->size)
353   {
354     return;
355   }
356
357   /* Add every component as a child node */
358   tmp[1] = '\0';
359   for (i = 1UL; i < l; i++)
360   {
361     if (regex[i] != '|' && regex[i] != ')')
362     {
363       tmp[0] = regex[i];
364       newctx = new_regex_ctx(ctx->size);
365       newctx->s = GNUNET_strdup (tmp);
366       if (children != NULL)
367         memcpy (newctx->children, children, sizeof (*children) * ctx->size);
368       ctx->children[c2i(tmp[0], ctx->size)] = newctx;
369     }
370   }
371 }
372
373 /**
374  * Add a single regex to a context, splitting the exisiting state.
375  *
376  * We only had a partial match, split existing state, truncate the current node
377  * so it only contains the prefix, add suffix(es) as children.
378  *
379  * @param ctx Context to split.
380  * @param len Lenght of ctx->s
381  * @param prefix_l Lenght of common prefix of the new regex and @a ctx->s
382  */
383 static void
384 regex_split (struct RegexCombineCtx *ctx,
385              unsigned int len,
386              unsigned int prefix_l)
387 {
388   struct RegexCombineCtx *newctx;
389   unsigned int idx;
390   char *suffix;
391
392   suffix = GNUNET_malloc (len - prefix_l + 1);
393   strncpy (suffix, &ctx->s[prefix_l], len - prefix_l + 1);
394
395   /* Suffix saved, truncate current node so it only contains the prefix,
396    * copy any children nodes to put as grandchildren and initialize new empty
397    * children array.
398    */
399   ctx->s[prefix_l] = '\0';
400
401   /* If the suffix is an OR expression, add multiple children */
402   if ('(' == suffix[0])
403   {
404     struct RegexCombineCtx **tmp;
405
406     tmp = ctx->children;
407     ctx->children = GNUNET_malloc (sizeof(*tmp) * ctx->size);
408     regex_add_multiple (ctx, suffix, tmp);
409     GNUNET_free (suffix);
410     GNUNET_free (tmp);
411     return;
412   }
413
414   /* The suffix is a normal string, add as one node */
415   newctx = new_regex_ctx (ctx->size);
416   newctx->s = suffix;
417   move_children (newctx, ctx);
418   idx = c2i(suffix[0], ctx->size);
419   ctx->children[idx] = newctx;
420 }
421
422
423 /**
424  * Add a single regex to a context, combining with exisiting regex by-prefix.
425  *
426  * @param ctx Context with 0 or more regexes.
427  * @param regex Regex to add.
428  */
429 static void
430 regex_add (struct RegexCombineCtx *ctx, const char *regex)
431 {
432   struct RegexCombineCtx *p;
433   struct RegexCombineCtx *newctx;
434   long unsigned int l;
435   unsigned int prefix_l;
436   const char *rest_r;
437   const char *rest_s;
438   size_t len;
439   int idx;
440
441   GNUNET_log (GNUNET_ERROR_TYPE_DEBUG,
442               "regex_add '%s' into '%s'\n",
443               regex, ctx->s);
444   l = strlen (regex);
445   if (0UL == l)
446     return;
447
448   /* If the regex is in the form of (a|b|c), add every character separately */
449   if ('(' == regex[0])
450   {
451     regex_add_multiple (ctx, regex, NULL);
452     return;
453   }
454
455   p = get_longest_prefix (ctx, regex);
456   if (NULL != p)
457   {
458     /* There is some prefix match, reduce regex and try again */
459     prefix_l = get_prefix_length (p->s, regex);
460     rest_s = &p->s[prefix_l];
461     rest_r = &regex[prefix_l];
462     GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, "chosen '%s' [%u]\n", p->s, prefix_l);
463     GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, "prefix r '%.*s'\n", prefix_l, p->s);
464     GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, "rest r '%s'\n", rest_r);
465     GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, "rest s '%s'\n", rest_s);
466     len = strlen (p->s);
467     if (prefix_l < len)
468     {
469       regex_split (p, len, prefix_l);
470     }
471     regex_add (p, rest_r);
472     return;
473   }
474
475   /* There is no prefix match, add new */
476   idx = c2i(regex[0], ctx->size);
477   if (NULL == ctx->children[idx] && NULL != ctx->s)
478   {
479     /* this was the end before, add empty string */
480     newctx = new_regex_ctx (ctx->size);
481     newctx->s = GNUNET_strdup ("");
482     ctx->children[idx] = newctx;
483   }
484   GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, " no match\n");
485   GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, " new state %s\n", regex);
486   GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, " under %s\n", ctx->s);
487   newctx = new_regex_ctx(ctx->size);
488   newctx->s = GNUNET_strdup (regex);
489   ctx->children[idx] = newctx;
490 }
491
492
493 /**
494  * Free all resources used by the context node and all its children.
495  *
496  * @param ctx Context to free.
497  */
498 static void
499 regex_ctx_destroy (struct RegexCombineCtx *ctx)
500 {
501   unsigned int i;
502
503   if (NULL == ctx)
504     return;
505
506   for (i = 0; i < ctx->size; i++)
507   {
508     regex_ctx_destroy (ctx->children[i]);
509   }
510   GNUNET_free_non_null (ctx->s); /* 's' on root node is null */
511   GNUNET_free (ctx->children);
512   GNUNET_free (ctx);
513 }
514
515
516 /**
517  * Combine an array of regexes into a single prefix-shared regex.
518  * Returns a prefix-combine regex that matches the same strings as
519  * any of the original regexes.
520  *
521  * WARNING: only useful for reading specific regexes for specific applications,
522  *          namely the gnunet-regex-profiler / gnunet-regex-daemon.
523  *          This function DOES NOT support arbitrary regex combining.
524  *
525  * @param regexes A NULL-terminated array of regexes.
526  * @param alphabet_size Size of the alphabet the regex uses.
527  *
528  * @return A string with a single regex that matches any of the original regexes
529  */
530 char *
531 REGEX_TEST_combine (char * const regexes[], unsigned int alphabet_size)
532 {
533   unsigned int i;
534   char *combined;
535   const char *current;
536   struct RegexCombineCtx *ctx;
537
538   ctx = new_regex_ctx (alphabet_size);
539   for (i = 0; regexes[i]; i++)
540   {
541     current = regexes[i];
542     GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, "Regex %u: %s\n", i, current);
543     regex_add (ctx, current);
544     debugctx (ctx, 0);
545   }
546   GNUNET_log (GNUNET_ERROR_TYPE_DEBUG, "\nCombining...\n");
547   debugctx (ctx, 0);
548
549   combined = regex_combine (ctx);
550
551   regex_ctx_destroy (ctx);
552
553   return combined;
554 }
555
556
557 /**
558  * Read a set of regexes from a file, one per line and return them in an array
559  * suitable for REGEX_TEST_combine.
560  * The array must be free'd using REGEX_TEST_free_from_file.
561  *
562  * @param filename Name of the file containing the regexes.
563  *
564  * @return A newly allocated, NULL terminated array of regexes.
565  */
566 char **
567 REGEX_TEST_read_from_file (const char *filename)
568 {
569   struct GNUNET_DISK_FileHandle *f;
570   unsigned int nr;
571   unsigned int offset;
572   off_t size;
573   size_t len;
574   char *buffer;
575   char *regex;
576   char **regexes;
577
578   f = GNUNET_DISK_file_open (filename,
579                              GNUNET_DISK_OPEN_READ,
580                              GNUNET_DISK_PERM_NONE);
581   if (NULL == f)
582   {
583     GNUNET_log (GNUNET_ERROR_TYPE_ERROR,
584                 "Can't open file %s for reading\n", filename);
585     return NULL;
586   }
587   if (GNUNET_OK != GNUNET_DISK_file_handle_size (f, &size))
588   {
589     GNUNET_log (GNUNET_ERROR_TYPE_ERROR,
590                 "Can't get size of file %s\n", filename);
591     GNUNET_DISK_file_close (f);
592     return NULL;
593   }
594   GNUNET_log (GNUNET_ERROR_TYPE_DEBUG,
595               "using file %s, size %llu\n",
596               filename, (unsigned long long) size);
597
598   buffer = GNUNET_malloc (size + 1);
599   GNUNET_DISK_file_read (f, buffer, size);
600   GNUNET_DISK_file_close (f);
601   regexes = GNUNET_malloc (sizeof (char *));
602   nr = 1;
603   offset = 0;
604   regex = NULL;
605   do
606   {
607     if (NULL == regex)
608       regex = GNUNET_malloc (size + 1);
609     len = (size_t) sscanf (&buffer[offset], "%s", regex);
610     if (0 == len)
611       break;
612     len = strlen (regex);
613     offset += len + 1;
614     if (len < 1)
615       continue;
616     regex[len] = '\0';
617     regex = GNUNET_realloc (regex, len + 1);
618     GNUNET_array_grow (regexes, nr, nr + 1);
619     GNUNET_assert (NULL == regexes[nr - 2]);
620     regexes[nr - 2] = regex;
621     regexes[nr - 1] = NULL;
622     regex = NULL;
623   } while (offset < size);
624   GNUNET_free_non_null (regex);
625   GNUNET_free (buffer);
626
627   return regexes;
628 }
629
630
631 /**
632  * Free all memory reserved for a set of regexes created by read_from_file.
633  *
634  * @param regexes NULL-terminated array of regexes.
635  */
636 void
637 REGEX_TEST_free_from_file (char **regexes)
638 {
639   unsigned int i;
640
641   for (i = 0; regexes[i]; i++)
642     GNUNET_free (regexes[i]);
643   GNUNET_free (regexes);
644 }
645
646 /* end of regex_test_lib.c */