Added '?' operator
[oweals/gnunet.git] / src / regex / regex.c
index 6f5b20cc2fbd258a10a5e1ad0c0a07ad283a68f0..a240fcd8023a466919a9bcc90584d4c2b5f25501 100644 (file)
  */
 struct GNUNET_REGEX_Context
 {
+  /**
+   * Unique state id.
+   */
   unsigned int state_id;
+
+  /**
+   * Unique transition id.
+   */
   unsigned int transition_id;
 
   /**
-   * DLL of GNUNET_REGEX_Automaton's used as a stack
+   * DLL of GNUNET_REGEX_Automaton's used as a stack.
    */
   struct GNUNET_REGEX_Automaton *stack_head;
+
+  /**
+   * DLL of GNUNET_REGEX_Automaton's used as a stack.
+   */
   struct GNUNET_REGEX_Automaton *stack_tail;
 };
 
+/**
+ * Type of an automaton.
+ */
 enum GNUNET_REGEX_automaton_type
 {
   NFA,
@@ -50,20 +64,51 @@ enum GNUNET_REGEX_automaton_type
 };
 
 /**
- * Automaton representation
+ * Automaton representation.
  */
 struct GNUNET_REGEX_Automaton
 {
+  /**
+   * This is a linked list.
+   */
   struct GNUNET_REGEX_Automaton *prev;
+
+  /**
+   * This is a linked list.
+   */
   struct GNUNET_REGEX_Automaton *next;
 
+  /**
+   * First state of the automaton. This is mainly
+   * used for constructing an NFA, where each NFA
+   * itself consists of one or more NFAs linked
+   * together.
+   */
   struct State *start;
+
+  /**
+   * End state of the automaton.
+   */
   struct State *end;
 
+  /**
+   * Number of states in the automaton.
+   */
   unsigned int state_count;
+
+  /**
+   * DLL of states.
+   */
   struct State *states_head;
+
+  /**
+   * DLL of states
+   */
   struct State *states_tail;
 
+  /**
+   * Type of the automaton.
+   */
   enum GNUNET_REGEX_automaton_type type;
 };
 
@@ -72,18 +117,58 @@ struct GNUNET_REGEX_Automaton
  */
 struct State
 {
+  /**
+   * This is a linked list.
+   */
   struct State *prev;
+
+  /**
+   * This is a linked list.
+   */
   struct State *next;
 
+  /**
+   * Unique state id.
+   */
   unsigned int id;
+
+  /**
+   * If this is an accepting state or not.
+   */
   int accepting;
+
+  /**
+   * Marking of the state. This is used for marking all visited
+   * states when traversing all states of an automaton and for
+   * cases where the state id cannot be used (dfa minimization).
+   */
   int marked;
+
+  /**
+   * Human readable name of the automaton. Used for debugging
+   * and graph creation.
+   */
   char *name;
 
+  /**
+   * Number of transitions from this state to other states.
+   */
   unsigned int transition_count;
+
+  /**
+   * DLL of transitions.
+   */
   struct Transition *transitions_head;
+
+  /**
+   * DLL of transitions.
+   */
   struct Transition *transitions_tail;
 
+  /**
+   * Set of states on which this state is based on. Used when
+   * creating a DFA out of several NFA states.
+   */
   struct StateSet *nfa_set;
 };
 
@@ -93,23 +178,46 @@ struct State
  */
 struct Transition
 {
+  /**
+   * This is a linked list.
+   */
   struct Transition *prev;
+
+  /**
+   * This is a linked list.
+   */
   struct Transition *next;
 
+  /**
+   * Unique id of this transition.
+   */
   unsigned int id;
+
+  /**
+   * Literal for this transition. This is basically the edge label for
+   * the graph.
+   */
   char literal;
+
+  /**
+   * State to which this transition leads.
+   */
   struct State *state;
 };
 
 /**
- * Set of states
+ * Set of states.
  */
 struct StateSet
 {
   /**
-   * Array of states
+   * Array of states.
    */
   struct State **states;
+
+  /**
+   * Length of the 'states' array.
+   */
   unsigned int len;
 };
 
@@ -206,24 +314,29 @@ state_compare (const void *a, const void *b)
  * @param sset1 first state set
  * @param sset2 second state set
  *
- * @return 0 if they are equal, non 0 otherwise
+ * @return an integer less than, equal to, or greater than zero
+ *         if the first argument is considered to be respectively
+ *         less than, equal to, or greater than the second.
  */
 static int
 state_set_compare (struct StateSet *sset1, struct StateSet *sset2)
 {
+  int result;
   int i;
 
-  if (sset1->len != sset2->len)
+  if (NULL == sset1 || NULL == sset2)
     return 1;
 
+  result = sset1->len - sset2->len;
+
   for (i = 0; i < sset1->len; i++)
   {
-    if (sset1->states[i]->id != sset2->states[i]->id)
-    {
-      return 1;
-    }
+    if (0 != result)
+      break;
+
+    result = state_compare (&sset1->states[i], &sset2->states[i]);
   }
-  return 0;
+  return result;
 }
 
 /**
@@ -304,6 +417,9 @@ add_transition (struct GNUNET_REGEX_Context *ctx, struct State *from_state,
 static void
 automaton_fragment_clear (struct GNUNET_REGEX_Automaton *a)
 {
+  if (NULL == a)
+    return;
+
   a->start = NULL;
   a->end = NULL;
   a->states_head = NULL;
@@ -323,6 +439,9 @@ automaton_destroy_state (struct State *s)
   struct Transition *t;
   struct Transition *next_t;
 
+  if (NULL == s)
+    return;
+
   if (NULL != s->name)
     GNUNET_free (s->name);
 
@@ -354,6 +473,9 @@ automaton_remove_state (struct GNUNET_REGEX_Automaton *a, struct State *s)
   struct State *s_check;
   struct Transition *t_check;
 
+  if (NULL == a || NULL == s)
+    return;
+
   // remove state
   ss = s;
   GNUNET_CONTAINER_DLL_remove (a->states_head, a->states_tail, s);
@@ -602,12 +724,9 @@ dfa_remove_unreachable_states (struct GNUNET_REGEX_Automaton *a)
     s->marked = 1;              // mark s as visited
     for (t = s->transitions_head; NULL != t; t = t->next)
     {
+      // add next states to stack
       if (NULL != t->state && 0 == t->state->marked)
-      {
-        // add next states to stack
-        stack[stack_len] = t->state;
-        stack_len++;
-      }
+        stack[++stack_len] = t->state;
     }
   }
 
@@ -660,6 +779,7 @@ dfa_remove_dead_states (struct GNUNET_REGEX_Automaton *a)
 /**
  * Merge all non distinguishable states in the DFA 'a'
  *
+ * @param ctx context
  * @param a DFA automaton
  */
 static void
@@ -743,6 +863,7 @@ dfa_merge_nondistinguishable_states (struct GNUNET_REGEX_Context *ctx,
  * Minimize the given DFA 'a' by removing all unreachable states,
  * removing all dead states and merging all non distinguishable states
  *
+ * @param ctx context
  * @param a DFA automaton
  */
 static void
@@ -855,13 +976,13 @@ nfa_state_create (struct GNUNET_REGEX_Context *ctx, int accepting)
 }
 
 /**
- * Calculates the NFA closure set for the given state
+ * Calculates the NFA closure set for the given state.
  *
  * @param s starting point state
  * @param literal transitioning literal on which to base the closure on,
  *                pass 0 for epsilon transition
  *
- * @return nfa closure on 'literal' (epsilon closure if 'literal' is 0)
+ * @return sorted nfa closure on 'literal' (epsilon closure if 'literal' is 0)
  */
 static struct StateSet *
 nfa_closure_create (struct State *s, const char literal)
@@ -920,7 +1041,7 @@ nfa_closure_create (struct State *s, const char literal)
  * @param literal transitioning literal for which to base the closure on,
  *                pass 0 for epsilon transition
  *
- * @return nfa closure on 'literal' (epsilon closure if 'literal' is 0)
+ * @return sorted nfa closure on 'literal' (epsilon closure if 'literal' is 0)
  */
 static struct StateSet *
 nfa_closure_set_create (struct StateSet *states, const char literal)
@@ -1057,6 +1178,45 @@ nfa_add_plus_op (struct GNUNET_REGEX_Context *ctx)
   GNUNET_CONTAINER_DLL_insert_tail (ctx->stack_head, ctx->stack_tail, a);
 }
 
+/**
+ * Pops an NFA fragment (a) from the stack and adds a new fragment (a?)
+ *
+ * @param ctx context
+ */
+static void
+nfa_add_question_op (struct GNUNET_REGEX_Context *ctx)
+{
+  struct GNUNET_REGEX_Automaton *a;
+  struct GNUNET_REGEX_Automaton *new;
+  struct State *start;
+  struct State *end;
+
+  a = ctx->stack_tail;
+  GNUNET_CONTAINER_DLL_remove (ctx->stack_head, ctx->stack_tail, a);
+
+  if (NULL == a)
+  {
+    GNUNET_log (GNUNET_ERROR_TYPE_ERROR,
+                "nfa_add_question_op failed, because there was no element on the stack");
+    return;
+  }
+
+  start = nfa_state_create (ctx, 0);
+  end = nfa_state_create (ctx, 1);
+
+  add_transition (ctx, start, 0, a->start);
+  add_transition (ctx, start, 0, end);
+  add_transition (ctx, a->end, 0, end);
+
+  a->end->accepting = 0;
+
+  new = nfa_fragment_create (start, end);
+  nfa_add_states (new, a->states_head, a->states_tail);
+  automaton_fragment_clear (a);
+
+  GNUNET_CONTAINER_DLL_insert_tail (ctx->stack_head, ctx->stack_tail, new);
+}
+
 /**
  * Pops two NFA fragments (a, b) from the stack and adds a new NFA fragment
  * that alternates between a and b (a|b)
@@ -1220,6 +1380,14 @@ GNUNET_REGEX_construct_nfa (const char *regex, const size_t len)
       }
       nfa_add_plus_op (&ctx);
       break;
+    case '?':
+      if (atomcount == 0)
+      {
+        error_msg = "Cannot append '?' to nothing";
+        goto error;
+      }
+      nfa_add_question_op (&ctx);
+      break;
     case 92:                   /* escape: \ */
       regexp++;
       count++;