Added multi-striding capabilities to regex.
[oweals/gnunet.git] / src / regex / regex_internal.h
index 8ea597d40bf355c774fa5328ddfc35233d600846..f96d51fb09b8207075b075d2869f701a49e4a9cc 100644 (file)
@@ -42,6 +42,249 @@ extern "C"
 #define ALLOWED_LITERALS "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"
 
 
+/**
+ * Transition between two states. Each state can have 0-n transitions.  If label
+ * is 0, this is considered to be an epsilon transition.
+ */
+struct GNUNET_REGEX_Transition
+{
+  /**
+   * This is a linked list.
+   */
+  struct GNUNET_REGEX_Transition *prev;
+
+  /**
+   * This is a linked list.
+   */
+  struct GNUNET_REGEX_Transition *next;
+
+  /**
+   * Unique id of this transition.
+   */
+  unsigned int id;
+
+  /**
+   * Label for this transition. This is basically the edge label for the graph.
+   */
+  char *label;
+
+  /**
+   * State to which this transition leads.
+   */
+  struct GNUNET_REGEX_State *to_state;
+
+  /**
+   * State from which this transition origins.
+   */
+  struct GNUNET_REGEX_State *from_state;
+};
+
+
+/**
+ * A state. Can be used in DFA and NFA automatons.
+ */
+struct GNUNET_REGEX_State
+{
+  /**
+   * This is a linked list.
+   */
+  struct GNUNET_REGEX_State *prev;
+
+  /**
+   * This is a linked list.
+   */
+  struct GNUNET_REGEX_State *next;
+
+  /**
+   * Unique state id.
+   */
+  unsigned int id;
+
+  /**
+   * Unique state id that is used for traversing the automaton. It is guaranteed
+   * to be > 0 and < state_count.
+   */
+  unsigned int traversal_id;
+
+  /**
+   * If this is an accepting state or not.
+   */
+  int accepting;
+
+  /**
+   * Marking of the state. This is used for marking all visited states when
+   * traversing all states of an automaton and for cases where the state id
+   * cannot be used (dfa minimization).
+   */
+  int marked;
+
+  /**
+   * Marking the state as contained. This is used for checking, if the state is
+   * contained in a set in constant time
+   */
+  int contained;
+
+  /**
+   * Marking the state as part of an SCC (Strongly Connected Component).  All
+   * states with the same scc_id are part of the same SCC. scc_id is 0, if state
+   * is not a part of any SCC.
+   */
+  unsigned int scc_id;
+
+  /**
+   * Used for SCC detection.
+   */
+  int index;
+
+  /**
+   * Used for SCC detection.
+   */
+  int lowlink;
+
+  /**
+   * Human readable name of the automaton. Used for debugging and graph
+   * creation.
+   */
+  char *name;
+
+  /**
+   * Hash of the state.
+   */
+  struct GNUNET_HashCode hash;
+
+  /**
+   * Linear state ID accquired by depth-first-search. This ID should be used for
+   * storing information about the state in an array, because the 'id' of the
+   * state is not guaranteed to be linear. The 'dfs_id' is guaranteed to be > 0
+   * and < 'state_count'.
+   */
+  unsigned int dfs_id;
+
+  /**
+   * Proof for this state.
+   */
+  char *proof;
+
+  /**
+   * Number of transitions from this state to other states.
+   */
+  unsigned int transition_count;
+
+  /**
+   * DLL of transitions.
+   */
+  struct GNUNET_REGEX_Transition *transitions_head;
+
+  /**
+   * DLL of transitions.
+   */
+  struct GNUNET_REGEX_Transition *transitions_tail;
+
+  /**
+   * Set of states on which this state is based on. Used when creating a DFA out
+   * of several NFA states.
+   */
+  struct GNUNET_REGEX_StateSet *nfa_set;
+};
+
+
+/**
+ * Type of an automaton.
+ */
+enum GNUNET_REGEX_AutomatonType
+{
+  NFA,
+  DFA
+};
+
+
+/**
+ * Automaton representation.
+ */
+struct GNUNET_REGEX_Automaton
+{
+  /**
+   * Linked list of NFAs used for partial NFA creation.
+   */
+  struct GNUNET_REGEX_Automaton *prev;
+
+  /**
+   * Linked list of NFAs used for partial NFA creation.
+   */
+  struct GNUNET_REGEX_Automaton *next;
+
+  /**
+   * First state of the automaton. This is mainly used for constructing an NFA,
+   * where each NFA itself consists of one or more NFAs linked together.
+   */
+  struct GNUNET_REGEX_State *start;
+
+  /**
+   * End state of the partial NFA. This is undefined for DFAs
+   */
+  struct GNUNET_REGEX_State *end;
+
+  /**
+   * Number of states in the automaton.
+   */
+  unsigned int state_count;
+
+  /**
+   * DLL of states.
+   */
+  struct GNUNET_REGEX_State *states_head;
+
+  /**
+   * DLL of states
+   */
+  struct GNUNET_REGEX_State *states_tail;
+
+  /**
+   * Type of the automaton.
+   */
+  enum GNUNET_REGEX_AutomatonType type;
+
+  /**
+   * Regex
+   */
+  char *regex;
+
+  /**
+   * Canonical regex (result of RX->NFA->DFA->RX)
+   */
+  char *canonical_regex;
+};
+
+
+/**
+ * Function that is called with each state, when traversing an automaton.
+ *
+ * @param cls closure.
+ * @param count current count of the state, from 0 to a->state_count -1.
+ * @param s state.
+ */
+typedef void (*GNUNET_REGEX_traverse_action) (void *cls,
+                                              const unsigned int count,
+                                              struct GNUNET_REGEX_State * s);
+
+
+/**
+ * Traverses the given automaton using depth-first-search (DFS) from it's start
+ * state, visiting all reachable states and calling 'action' on each one of
+ * them.
+ *
+ * @param a automaton to be traversed.
+ * @param start start state, pass a->start or NULL to traverse the whole automaton.
+ * @param action action to be performed on each state.
+ * @param action_cls closure for action
+ */
+void
+GNUNET_REGEX_automaton_traverse (const struct GNUNET_REGEX_Automaton *a,
+                                 struct GNUNET_REGEX_State *start,
+                                 GNUNET_REGEX_traverse_action action,
+                                 void *action_cls);
+
+
 /**
  * Get the canonical regex of the given automaton.
  * When constructing the automaton a proof is computed for each state,
@@ -86,6 +329,7 @@ GNUNET_REGEX_generate_random_regex (size_t rx_length, char *matching_str);
 char *
 GNUNET_REGEX_generate_random_string (size_t max_len);
 
+
 #if 0                           /* keep Emacsens' auto-indent happy */
 {
 #endif