-ensure labels are less than 64 chars, add test for full DNS names
[oweals/gnunet.git] / src / include / gnunet_regex_lib.h
1 /*
2      This file is part of GNUnet
3      (C) 2012 Christian Grothoff (and other contributing authors)
4
5      GNUnet is free software; you can redistribute it and/or modify
6      it under the terms of the GNU General Public License as published
7      by the Free Software Foundation; either version 3, or (at your
8      option) any later version.
9
10      GNUnet is distributed in the hope that it will be useful, but
11      WITHOUT ANY WARRANTY; without even the implied warranty of
12      MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13      General Public License for more details.
14
15      You should have received a copy of the GNU General Public License
16      along with GNUnet; see the file COPYING.  If not, write to the
17      Free Software Foundation, Inc., 59 Temple Place - Suite 330,
18      Boston, MA 02111-1307, USA.
19 */
20 /**
21  * @file include/gnunet_regex_lib.h
22  * @brief library to parse regular expressions into dfa
23  * @author Maximilian Szengel
24  *
25  */
26
27 #ifndef GNUNET_REGEX_LIB_H
28 #define GNUNET_REGEX_LIB_H
29
30 #include "gnunet_util_lib.h"
31
32 #ifdef __cplusplus
33 extern "C"
34 {
35 #if 0                           /* keep Emacsens' auto-indent happy */
36 }
37 #endif
38 #endif
39
40
41 /**
42  * Constant for how many bytes the initial string regex should have.
43  */
44 #define GNUNET_REGEX_INITIAL_BYTES 24
45
46
47 /**
48  * Maximum regex string length for use with GNUNET_REGEX_ipv4toregex
49  */
50 #define GNUNET_REGEX_IPV4_REGEXLEN 32 + 6
51
52
53 /**
54  * Maximum regex string length for use with GNUNET_REGEX_ipv6toregex
55  */
56 #define GNUNET_REGEX_IPV6_REGEXLEN 128 + 6
57
58
59 /**
60  * Automaton (NFA/DFA) representation.
61  */
62 struct GNUNET_REGEX_Automaton;
63
64
65 /**
66  * Edge representation.
67  */
68 struct GNUNET_REGEX_Edge
69 {
70   /**
71    * Label of the edge.  FIXME: might want to not consume exactly multiples of 8 bits, need length?
72    */
73   const char *label;
74
75   /**
76    * Destionation of the edge.
77    */
78   struct GNUNET_HashCode destination;
79 };
80
81
82 /**
83  * Construct DFA for the given 'regex' of length 'len'.
84  *
85  * Path compression means, that for example a DFA o -> a -> b -> c -> o will be
86  * compressed to o -> abc -> o. Note that this parameter influences the
87  * non-determinism of states of the resulting NFA in the DHT (number of outgoing
88  * edges with the same label). For example for an application that stores IPv4
89  * addresses as bitstrings it could make sense to limit the path compression to
90  * 4 or 8.
91  *
92  * @param regex regular expression string.
93  * @param len length of the regular expression.
94  * @param max_path_len limit the path compression length to the
95  *        given value. If set to 1, no path compression is applied. Set to 0 for
96  *        maximal possible path compression (generally not desireable).
97  * @return DFA, needs to be freed using GNUNET_REGEX_automaton_destroy.
98  */
99 struct GNUNET_REGEX_Automaton *
100 GNUNET_REGEX_construct_dfa (const char *regex, const size_t len,
101                             int max_path_len);
102
103
104 /**
105  * Free the memory allocated by constructing the GNUNET_REGEX_Automaton.
106  * data structure.
107  *
108  * @param a automaton to be destroyed.
109  */
110 void
111 GNUNET_REGEX_automaton_destroy (struct GNUNET_REGEX_Automaton *a);
112
113
114 /**
115  * Options for graph creation function
116  * GNUNET_REGEX_automaton_save_graph.
117  */
118 enum GNUNET_REGEX_GraphSavingOptions
119 {
120   /**
121    * Default. Do nothing special.
122    */
123   GNUNET_REGEX_GRAPH_DEFAULT = 0,
124
125   /**
126    * The generated graph will include extra information such as the NFA states
127    * that were used to generate the DFA state.
128    */
129   GNUNET_REGEX_GRAPH_VERBOSE = 1,
130
131   /**
132    * Enable graph coloring. Will color each SCC in a different color.
133    */
134   GNUNET_REGEX_GRAPH_COLORING = 2
135 };
136
137
138 /**
139  * Save the given automaton as a GraphViz dot file.
140  *
141  * @param a the automaton to be saved.
142  * @param filename where to save the file.
143  * @param options options for graph generation that include coloring or verbose
144  *                mode
145  */
146 void
147 GNUNET_REGEX_automaton_save_graph (struct GNUNET_REGEX_Automaton *a,
148                                    const char *filename,
149                                    enum GNUNET_REGEX_GraphSavingOptions options);
150
151
152 /**
153  * Evaluates the given 'string' against the given compiled regex.
154  *
155  * @param a automaton.
156  * @param string string to check.
157  *
158  * @return 0 if string matches, non 0 otherwise.
159  */
160 int
161 GNUNET_REGEX_eval (struct GNUNET_REGEX_Automaton *a,
162                    const char *string);
163
164
165 /**
166  * Get the first key for the given 'input_string'. This hashes
167  * the first x bits of the 'input_string'.
168  *
169  * @param input_string string.
170  * @param string_len length of the 'input_string'.
171  * @param key pointer to where to write the hash code.
172  *
173  * @return number of bits of 'input_string' that have been consumed
174  *         to construct the key
175  */
176 size_t
177 GNUNET_REGEX_get_first_key (const char *input_string, size_t string_len,
178                             struct GNUNET_HashCode * key);
179
180
181 /**
182  * Check if the given 'proof' matches the given 'key'.
183  *
184  * @param proof partial regex of a state.
185  * @param key hash of a state.
186  *
187  * @return GNUNET_OK if the proof is valid for the given key.
188  */
189 int
190 GNUNET_REGEX_check_proof (const char *proof,
191                           const struct GNUNET_HashCode *key);
192
193
194 /**
195  * Iterator callback function.
196  *
197  * @param cls closure.
198  * @param key hash for current state.
199  * @param proof proof for current state.
200  * @param accepting GNUNET_YES if this is an accepting state, GNUNET_NO if not.
201  * @param num_edges number of edges leaving current state.
202  * @param edges edges leaving current state.
203  */
204 typedef void (*GNUNET_REGEX_KeyIterator)(void *cls,
205                                          const struct GNUNET_HashCode *key,
206                                          const char *proof,
207                                          int accepting,
208                                          unsigned int num_edges,
209                                          const struct GNUNET_REGEX_Edge *edges);
210
211
212 /**
213  * Iterate over all edges starting from start state of automaton 'a'. Calling
214  * iterator for each edge.
215  *
216  * @param a automaton.
217  * @param iterator iterator called for each edge.
218  * @param iterator_cls closure.
219  */
220 void
221 GNUNET_REGEX_iterate_all_edges (struct GNUNET_REGEX_Automaton *a,
222                                 GNUNET_REGEX_KeyIterator iterator,
223                                 void *iterator_cls);
224
225
226 /**
227  * Create a regex in 'rxstr' from the given 'ip' and 'netmask'.
228  *
229  * @param ip IPv4 representation.
230  * @param netmask netmask for the ip.
231  * @param rxstr generated regex, must be at least GNUNET_REGEX_IPV4_REGEXLEN
232  *              bytes long.
233  */
234 void
235 GNUNET_REGEX_ipv4toregex (const struct in_addr *ip, const char *netmask,
236                           char *rxstr);
237
238
239 /**
240  * Create a regex in 'rxstr' from the given 'ipv6' and 'prefixlen'.
241  *
242  * @param ipv6 IPv6 representation.
243  * @param prefixlen length of the ipv6 prefix.
244  * @param rxstr generated regex, must be at least GNUNET_REGEX_IPV6_REGEXLEN
245  *              bytes long.
246  */
247 void
248 GNUNET_REGEX_ipv6toregex (const struct in6_addr *ipv6,
249                           unsigned int prefixlen, char *rxstr);
250
251
252 #if 0                           /* keep Emacsens' auto-indent happy */
253 {
254 #endif
255 #ifdef __cplusplus
256 }
257 #endif
258
259 /* end of gnunet_regex_lib.h */
260 #endif