fix
[oweals/gnunet.git] / src / regex / test_regex.c
1 /*
2      This file is part of GNUnet
3      (C) 2012 Christian Grothoff (and other contributing authors)
4
5      GNUnet is free software; you can redistribute it and/or modify
6      it under the terms of the GNU General Public License as published
7      by the Free Software Foundation; either version 3, or (at your
8      option) any later version.
9
10      GNUnet is distributed in the hope that it will be useful, but
11      WITHOUT ANY WARRANTY; without even the implied warranty of
12      MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13      General Public License for more details.
14
15      You should have received a copy of the GNU General Public License
16      along with GNUnet; see the file COPYING.  If not, write to the
17      Free Software Foundation, Inc., 59 Temple Place - Suite 330,
18      Boston, MA 02111-1307, USA.
19 */
20 /**
21  * @file regex/test_regex.c
22  * @brief test for regex.c
23  * @author Maximilian Szengel
24  */
25 #include <regex.h>
26 #include <time.h>
27 #include "platform.h"
28 #include "gnunet_regex_lib.h"
29
30 enum Match_Result
31 {
32   match = 0,
33   nomatch = 1
34 };
35
36 struct Regex_String_Pair
37 {
38   char *regex;
39   int string_count;
40   char *strings[20];
41   enum Match_Result expected_results[20];
42 };
43
44 static const char allowed_literals[] =
45     "0123456789" "ABCDEFGHIJKLMNOPQRSTUVWXYZ" "abcdefghijklmnopqrstuvwxyz";
46
47 int
48 test_random (unsigned int rx_length, unsigned int max_str_len,
49              unsigned int str_count)
50 {
51   int i;
52   int j;
53   int rx_exp;
54   char rand_rx[rx_length + 1];
55   char matching_str[str_count][max_str_len + 1];
56   char *rand_rxp;
57   char *matching_strp;
58   int char_op_switch;
59   int last_was_op;
60   char current_char;
61   int eval;
62   int eval_check;
63   struct GNUNET_REGEX_Automaton *dfa;
64   regex_t rx;
65   regmatch_t matchptr[1];
66   char error[200];
67   int result;
68   unsigned int str_len;
69
70   // At least one string is needed for matching
71   GNUNET_assert (str_count > 0);
72   // The string should be at least as long as the regex itself
73   GNUNET_assert (max_str_len >= rx_length);
74
75   rand_rxp = rand_rx;
76   matching_strp = matching_str[0];
77   current_char = 0;
78   last_was_op = 1;
79
80   // Generate random regex and a string that matches the regex
81   for (i = 0; i < rx_length; i++)
82   {
83     char_op_switch = 0 + (int) (1.0 * rand () / (RAND_MAX + 1.0));
84
85     if (0 == char_op_switch && !last_was_op)
86     {
87       last_was_op = 1;
88       rx_exp = rand () % 3;
89
90       switch (rx_exp)
91       {
92       case 0:
93         current_char = '+';
94         break;
95       case 1:
96         current_char = '*';
97         break;
98       case 2:
99         if (i < rx_length - 1)  // '|' cannot be at the end
100           current_char = '|';
101         else
102           current_char =
103               allowed_literals[rand () % (sizeof (allowed_literals) - 1)];
104         break;
105       }
106     }
107     else
108     {
109       current_char =
110           allowed_literals[rand () % (sizeof (allowed_literals) - 1)];
111       last_was_op = 0;
112     }
113
114     if (current_char != '+' && current_char != '*' && current_char != '|')
115     {
116       *matching_strp = current_char;
117       matching_strp++;
118     }
119
120     *rand_rxp = current_char;
121     rand_rxp++;
122   }
123   *rand_rxp = '\0';
124   *matching_strp = '\0';
125
126   // Generate some random strings for matching...
127   // Start at 1, because the first string is generated above during regex generation
128   for (i = 1; i < str_count; i++)
129   {
130     str_len = rand () % max_str_len;
131     for (j = 0; j < str_len; j++)
132       matching_str[i][j] =
133           allowed_literals[rand () % (sizeof (allowed_literals) - 1)];
134     matching_str[i][str_len] = '\0';
135   }
136
137   // Now match
138   result = 0;
139   for (i = 0; i < str_count; i++)
140   {
141     // Match string using DFA
142     dfa = GNUNET_REGEX_construct_dfa (rand_rx, strlen (rand_rx));
143     if (NULL == dfa)
144     {
145       GNUNET_log (GNUNET_ERROR_TYPE_ERROR, "Constructing DFA failed\n");
146       return -1;
147     }
148
149     eval = GNUNET_REGEX_eval (dfa, matching_str[i]);
150     GNUNET_REGEX_automaton_destroy (dfa);
151
152     // Match string using glibc regex
153     if (0 != regcomp (&rx, rand_rx, REG_EXTENDED))
154     {
155       GNUNET_log (GNUNET_ERROR_TYPE_ERROR,
156                   "Could not compile regex using regcomp\n");
157       return -1;
158     }
159
160     eval_check = regexec (&rx, matching_str[i], 1, matchptr, 0);
161     regfree (&rx);
162
163     // We only want to match the whole string, because that's what our DFA does, too.
164     if (eval_check == 0 &&
165         (matchptr[0].rm_so != 0 ||
166          matchptr[0].rm_eo != strlen (matching_str[i])))
167       eval_check = 1;
168
169     // compare result
170     if (eval_check != eval)
171     {
172       regerror (eval_check, &rx, error, sizeof error);
173       GNUNET_log (GNUNET_ERROR_TYPE_ERROR,
174                   "Unexpected result:\nregex: %s\nstring: %s\ngnunet regex: %i\nglibc regex: %i\nglibc error: %s\n\n",
175                   rand_rx, matching_str, eval, eval_check, error);
176       result += 1;
177     }
178   }
179   return result;
180 }
181
182 int
183 test_automaton (struct GNUNET_REGEX_Automaton *a, regex_t * rx,
184                 struct Regex_String_Pair *rxstr)
185 {
186   int result;
187   int eval;
188   int eval_check;
189   char error[200];
190   regmatch_t matchptr[1];
191   int i;
192
193   if (NULL == a)
194   {
195     GNUNET_log (GNUNET_ERROR_TYPE_ERROR, "Automaton was NULL\n");
196     return 1;
197   }
198
199   result = 0;
200
201   for (i = 0; i < rxstr->string_count; i++)
202   {
203     eval = GNUNET_REGEX_eval (a, rxstr->strings[i]);
204     eval_check = regexec (rx, rxstr->strings[i], 1, matchptr, 0);
205
206     // We only want to match the whole string, because that's what our DFA does, too.
207     if (eval_check == 0 &&
208         (matchptr[0].rm_so != 0 ||
209          matchptr[0].rm_eo != strlen (rxstr->strings[i])))
210       eval_check = 1;
211
212     if ((rxstr->expected_results[i] == match && (0 != eval || 0 != eval_check))
213         || (rxstr->expected_results[i] == nomatch &&
214             (0 == eval || 0 == eval_check)))
215     {
216       result = 1;
217       regerror (eval_check, rx, error, sizeof error);
218       GNUNET_log (GNUNET_ERROR_TYPE_ERROR,
219                   "Unexpected result:\nregex: %s\nstring: %s\nexpected result: %i\n"
220                   "gnunet regex: %i\nglibc regex: %i\nglibc error: %s\nrm_so: %i\nrm_eo: %i\n\n",
221                   rxstr->regex, rxstr->strings[i], rxstr->expected_results[i],
222                   eval, eval_check, error, matchptr[0].rm_so,
223                   matchptr[0].rm_eo);
224     }
225   }
226   return result;
227 }
228
229 int
230 main (int argc, char *argv[])
231 {
232   GNUNET_log_setup ("test-regex",
233 #if VERBOSE
234                     "DEBUG",
235 #else
236                     "WARNING",
237 #endif
238                     NULL);
239
240   struct GNUNET_REGEX_Automaton *a;
241   regex_t rx;
242   int i;
243   int check_nfa;
244   int check_dfa;
245   int check_rand;
246
247   struct Regex_String_Pair rxstr[4] = {
248     {"ab(c|d)+c*(a(b|c)d)+", 5,
249      {"abcdcdcdcdddddabd", "abcd", "abcddddddccccccccccccccccccccccccabdacdabd",
250       "abccccca", "abcdcdcdccdabdabd"},
251      {match, nomatch, match, nomatch, match}},
252     {"ab+c*(a(bx|c)d)+", 5,
253      {"abcdcdcdcdddddabd", "abcd", "abcddddddccccccccccccccccccccccccabdacdabd",
254       "abccccca", "abcdcdcdccdabdabd"},
255      {nomatch, nomatch, nomatch, nomatch, nomatch}},
256     {"k|a+X*y+c|Q*e|p|R|Z*K*y*R+w|Y*6+n+h*k*w+V*F|W*B*e*g|N+V|t+L|P*j*3*9+X*h*J|J*6|b|E*i*f*R+S|Z|R|Y*Z|g*", 1,
257      {"kaXycQepRZKyRwY6nhkwVFWBegNVtLPj39XhJJ6bEifRSZRYZg"},
258      {nomatch}},
259     {"k|a+X*y+c|Q*e|p|R|Z*K*y*R+w|Y*6+n+h*k*w+V*F|W*B*e*g|N+V|t+L|P*j*3*9+X*h*J|J*6|b|E*i*f*R+S|Z|R|Y*Z|g*", 1,
260      {"kaXycQepRZKyRwY6nhkwVFWBegNVtLPj39XhJJ6bEifRSZRYZg"},
261      {nomatch}}
262   };
263
264   check_nfa = 0;
265   check_dfa = 0;
266   check_rand = 0;
267
268   for (i = 0; i < 4; i++)
269   {
270     if (0 != regcomp (&rx, rxstr[i].regex, REG_EXTENDED))
271     {
272       GNUNET_log (GNUNET_ERROR_TYPE_ERROR,
273                   "Could not compile regex using regcomp()\n");
274       return 1;
275     }
276
277     // NFA test
278     a = GNUNET_REGEX_construct_nfa (rxstr[i].regex, strlen (rxstr[i].regex));
279     check_nfa += test_automaton (a, &rx, &rxstr[i]);
280     GNUNET_REGEX_automaton_destroy (a);
281
282     // DFA test
283     a = GNUNET_REGEX_construct_dfa (rxstr[i].regex, strlen (rxstr[i].regex));
284     check_dfa += test_automaton (a, &rx, &rxstr[i]);
285     GNUNET_REGEX_automaton_destroy (a);
286
287     regfree (&rx);
288   }
289
290   srand (time (NULL));
291   for (i = 0; i < 100; i++)
292     check_rand += test_random (200, 250, 20);
293
294   return check_nfa + check_dfa + check_rand;
295 }