5cc947bd6663e41b4a2e526bc549f829188283a4
[oweals/gnunet.git] / src / util / container_bloomfilter.c
1 /*
2      This file is part of GNUnet.
3      (C) 2001, 2002, 2003, 2004, 2006, 2008 Christian Grothoff (and other contributing authors)
4
5      GNUnet is free software; you can redistribute it and/or modify
6      it under the terms of the GNU General Public License as published
7      by the Free Software Foundation; either version 2, or (at your
8      option) any later version.
9
10      GNUnet is distributed in the hope that it will be useful, but
11      WITHOUT ANY WARRANTY; without even the implied warranty of
12      MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13      General Public License for more details.
14
15      You should have received a copy of the GNU General Public License
16      along with GNUnet; see the file COPYING.  If not, write to the
17      Free Software Foundation, Inc., 59 Temple Place - Suite 330,
18      Boston, MA 02111-1307, USA.
19 */
20 /**
21  * @file util/container_bloomfilter.c
22  * @brief data structure used to reduce disk accesses.
23  *
24  * The idea basically: Create a signature for each element in the
25  * database. Add those signatures to a bit array. When doing a lookup,
26  * check if the bit array matches the signature of the requested
27  * element. If yes, address the disk, otherwise return 'not found'.
28  *
29  * A property of the bloom filter is that sometimes we will have
30  * a match even if the element is not on the disk (then we do
31  * an unnecessary disk access), but what's most important is that
32  * we never get a single "false negative".
33  *
34  * To be able to delete entries from the bloom filter, we maintain
35  * a 4 bit counter in the file on the drive (we still use only one
36  * bit in memory).
37  *
38  * @author Igor Wronsky
39  * @author Christian Grothoff
40  */
41
42 #include "platform.h"
43 #include "gnunet_common.h"
44 #include "gnunet_container_lib.h"
45 #include "gnunet_disk_lib.h"
46
47 struct GNUNET_CONTAINER_BloomFilter
48 {
49
50   /**
51    * The actual bloomfilter bit array
52    */
53   char *bitArray;
54
55   /**
56    * Filename of the filter
57    */
58   char *filename;
59
60   /**
61    * The bit counter file on disk
62    */
63   struct GNUNET_DISK_FileHandle *fh;
64
65   /**
66    * How many bits we set for each stored element
67    */
68   unsigned int addressesPerElement;
69
70   /**
71    * Size of bitArray in bytes
72    */
73   unsigned int bitArraySize;
74
75 };
76
77
78 /**
79  * Sets a bit active in the bitArray. Increment bit-specific
80  * usage counter on disk only if below 4bit max (==15).
81  *
82  * @param bitArray memory area to set the bit in
83  * @param bitIdx which bit to set
84  */
85 static void
86 setBit (char *bitArray, unsigned int bitIdx)
87 {
88   unsigned int arraySlot;
89   unsigned int targetBit;
90
91   arraySlot = bitIdx / 8;
92   targetBit = (1L << (bitIdx % 8));
93   bitArray[arraySlot] |= targetBit;
94 }
95
96 /**
97  * Clears a bit from bitArray. Bit is cleared from the array
98  * only if the respective usage counter on the disk hits/is zero.
99  *
100  * @param bitArray memory area to set the bit in
101  * @param bitIdx which bit to unset
102  */
103 static void
104 clearBit (char *bitArray, unsigned int bitIdx)
105 {
106   unsigned int slot;
107   unsigned int targetBit;
108
109   slot = bitIdx / 8;
110   targetBit = (1L << (bitIdx % 8));
111   bitArray[slot] = bitArray[slot] & (~targetBit);
112 }
113
114 /**
115  * Checks if a bit is active in the bitArray
116  *
117  * @param bitArray memory area to set the bit in
118  * @param bitIdx which bit to test
119  * @return GNUNET_YES if the bit is set, GNUNET_NO if not.
120  */
121 static int
122 testBit (char *bitArray, unsigned int bitIdx)
123 {
124   unsigned int slot;
125   unsigned int targetBit;
126
127   slot = bitIdx / 8;
128   targetBit = (1L << (bitIdx % 8));
129   if (bitArray[slot] & targetBit)
130     return GNUNET_YES;
131   else
132     return GNUNET_NO;
133 }
134
135 /**
136  * Sets a bit active in the bitArray and increments
137  * bit-specific usage counter on disk (but only if
138  * the counter was below 4 bit max (==15)).
139  *
140  * @param bitArray memory area to set the bit in
141  * @param bitIdx which bit to test
142  * @param fh A file to keep the 4 bit address usage counters in
143  */
144 static void
145 incrementBit (char *bitArray, unsigned int bitIdx, const struct GNUNET_DISK_FileHandle *fh)
146 {
147   unsigned int fileSlot;
148   unsigned char value;
149   unsigned int high;
150   unsigned int low;
151   unsigned int targetLoc;
152
153   setBit (bitArray, bitIdx);
154   if (GNUNET_DISK_handle_invalid (fh))
155     return;
156   /* Update the counter file on disk */
157   fileSlot = bitIdx / 2;
158   targetLoc = bitIdx % 2;
159
160   GNUNET_assert (fileSlot == (unsigned int) GNUNET_DISK_file_seek (fh, fileSlot, GNUNET_DISK_SEEK_SET));
161   if (1 != GNUNET_DISK_file_read (fh, &value, 1))
162     value = 0;
163   low = value & 0xF;
164   high = (value & (~0xF)) >> 4;
165
166   if (targetLoc == 0)
167     {
168       if (low < 0xF)
169         low++;
170     }
171   else
172     {
173       if (high < 0xF)
174         high++;
175     }
176   value = ((high << 4) | low);
177   GNUNET_assert (fileSlot == (unsigned int) GNUNET_DISK_file_seek (fh, fileSlot, GNUNET_DISK_SEEK_SET));
178   GNUNET_assert (1 == GNUNET_DISK_file_write (fh, &value, 1));
179 }
180
181 /**
182  * Clears a bit from bitArray if the respective usage
183  * counter on the disk hits/is zero.
184  *
185  * @param bitArray memory area to set the bit in
186  * @param bitIdx which bit to test
187  * @param fh A file to keep the 4bit address usage counters in
188  */
189 static void
190 decrementBit (char *bitArray, unsigned int bitIdx, const struct GNUNET_DISK_FileHandle *fh)
191 {
192   unsigned int fileSlot;
193   unsigned char value;
194   unsigned int high;
195   unsigned int low;
196   unsigned int targetLoc;
197
198   if (GNUNET_DISK_handle_invalid (fh))
199     return;                     /* cannot decrement! */
200   /* Each char slot in the counter file holds two 4 bit counters */
201   fileSlot = bitIdx / 2;
202   targetLoc = bitIdx % 2;
203   GNUNET_DISK_file_seek (fh, fileSlot, GNUNET_DISK_SEEK_SET);
204   if (1 != GNUNET_DISK_file_read (fh, &value, 1))
205     value = 0;
206   low = value & 0xF;
207   high = (value & 0xF0) >> 4;
208
209   /* decrement, but once we have reached the max, never go back! */
210   if (targetLoc == 0)
211     {
212       if ((low > 0) && (low < 0xF))
213         low--;
214       if (low == 0)
215         {
216           clearBit (bitArray, bitIdx);
217         }
218     }
219   else
220     {
221       if ((high > 0) && (high < 0xF))
222         high--;
223       if (high == 0)
224         {
225           clearBit (bitArray, bitIdx);
226         }
227     }
228   value = ((high << 4) | low);
229   GNUNET_DISK_file_seek (fh, fileSlot, GNUNET_DISK_SEEK_SET);
230   GNUNET_assert (1 == GNUNET_DISK_file_write (fh, &value, 1));
231 }
232
233 #define BUFFSIZE 65536
234
235 /**
236  * Creates a file filled with zeroes
237  *
238  * @param fh the file handle
239  * @param size the size of the file
240  * @return GNUNET_OK if created ok, GNUNET_SYSERR otherwise
241  */
242 static int
243 makeEmptyFile (const struct GNUNET_DISK_FileHandle *fh, unsigned int size)
244 {
245   char *buffer;
246   unsigned int bytesleft = size;
247   int res = 0;
248
249   if (GNUNET_DISK_handle_invalid (fh))
250     return GNUNET_SYSERR;
251   buffer = GNUNET_malloc (BUFFSIZE);
252   memset (buffer, 0, BUFFSIZE);
253   GNUNET_DISK_file_seek (fh, 0, GNUNET_DISK_SEEK_SET);
254
255   while (bytesleft > 0)
256     {
257       if (bytesleft > BUFFSIZE)
258         {
259           res = GNUNET_DISK_file_write (fh, buffer, BUFFSIZE);
260           bytesleft -= BUFFSIZE;
261         }
262       else
263         {
264           res = GNUNET_DISK_file_write (fh, buffer, bytesleft);
265           bytesleft = 0;
266         }
267       GNUNET_assert (res != GNUNET_SYSERR);
268     }
269   GNUNET_free (buffer);
270   return GNUNET_OK;
271 }
272
273 /* ************** GNUNET_CONTAINER_BloomFilter GNUNET_CRYPTO_hash iterator ********* */
274
275 /**
276  * Iterator (callback) method to be called by the
277  * bloomfilter iterator on each bit that is to be
278  * set or tested for the key.
279  *
280  * @param cls closure
281  * @param bf the filter to manipulate
282  * @param bit the current bit
283  */
284 typedef void (*BitIterator) (void *cls,
285                              struct GNUNET_CONTAINER_BloomFilter * bf,
286                              unsigned int bit);
287
288 /**
289  * Call an iterator for each bit that the bloomfilter
290  * must test or set for this element.
291  *
292  * @param bf the filter
293  * @param callback the method to call
294  * @param arg extra argument to callback
295  * @param key the key for which we iterate over the BF bits
296  */
297 static void
298 iterateBits (struct GNUNET_CONTAINER_BloomFilter *bf,
299              BitIterator callback, void *arg, const GNUNET_HashCode * key)
300 {
301   GNUNET_HashCode tmp[2];
302   int bitCount;
303   int round;
304   unsigned int slot = 0;
305
306   bitCount = bf->addressesPerElement;
307   memcpy (&tmp[0], key, sizeof (GNUNET_HashCode));
308   round = 0;
309   while (bitCount > 0)
310     {
311       while (slot < (sizeof (GNUNET_HashCode) / sizeof (unsigned int)))
312         {
313           callback (arg, 
314                     bf,
315                     (((unsigned int *) &tmp[round & 1])[slot]) &
316                     ((bf->bitArraySize * 8) - 1));
317           slot++;
318           bitCount--;
319           if (bitCount == 0)
320             break;
321         }
322       if (bitCount > 0)
323         {
324           GNUNET_CRYPTO_hash (&tmp[round & 1], sizeof (GNUNET_HashCode),
325                               &tmp[(round + 1) & 1]);
326           round++;
327           slot = 0;
328         }
329     }
330 }
331
332 /**
333  * Callback: increment bit
334  *
335  * @param cls not used
336  * @param bf the filter to manipulate
337  * @param bit the bit to increment
338  */
339 static void
340 incrementBitCallback (void *cls,
341                       struct GNUNET_CONTAINER_BloomFilter *bf,
342                       unsigned int bit)
343 {
344   incrementBit (bf->bitArray, bit, bf->fh);
345 }
346
347 /**
348  * Callback: decrement bit
349  *
350  * @param cls not used
351  * @param bf the filter to manipulate
352  * @param bit the bit to decrement
353  */
354 static void
355 decrementBitCallback (void *cls,
356                       struct GNUNET_CONTAINER_BloomFilter *bf,
357                       unsigned int bit)
358 {
359   decrementBit (bf->bitArray, bit, bf->fh);
360 }
361
362 /**
363  * Callback: test if all bits are set
364  *
365  * @param cls pointer set to GNUNET_NO if bit is not set
366  * @param bf the filter
367  * @param bit the bit to test
368  */
369 static void
370 testBitCallback (void *cls,
371                  struct GNUNET_CONTAINER_BloomFilter *bf, unsigned int bit)
372 {
373   int *arg = cls;
374   if (GNUNET_NO == testBit (bf->bitArray, bit))
375     *arg = GNUNET_NO;
376 }
377
378 /* *********************** INTERFACE **************** */
379
380 /**
381  * Load a bloom-filter from a file.
382  *
383  * @param filename the name of the file (or the prefix)
384  * @param size the size of the bloom-filter (number of
385  *        bytes of storage space to use)
386  * @param k the number of GNUNET_CRYPTO_hash-functions to apply per
387  *        element (number of bits set per element in the set)
388  * @return the bloomfilter
389  */
390 struct GNUNET_CONTAINER_BloomFilter *
391 GNUNET_CONTAINER_bloomfilter_load (const char *filename, unsigned int size,
392                                    unsigned int k)
393 {
394   struct GNUNET_CONTAINER_BloomFilter *bf;
395   char *rbuff;
396   unsigned int pos;
397   int i;
398   unsigned int ui;
399
400   if ((k == 0) || (size == 0))
401     return NULL;
402   if (size < BUFFSIZE)
403     size = BUFFSIZE;
404   ui = 1;
405   while (ui < size)
406     ui *= 2;
407   size = ui;                    /* make sure it's a power of 2 */
408
409   bf = GNUNET_malloc (sizeof (struct GNUNET_CONTAINER_BloomFilter));
410   /* Try to open a bloomfilter file */
411   if (filename != NULL)
412     {
413       bf->fh = GNUNET_DISK_file_open (filename, GNUNET_DISK_OPEN_READWRITE
414                                       | GNUNET_DISK_OPEN_CREATE,
415           GNUNET_DISK_PERM_USER_READ | GNUNET_DISK_PERM_USER_WRITE);
416       if (NULL == bf->fh)
417         {
418           GNUNET_free (bf);
419           return NULL;
420         }
421       bf->filename = GNUNET_strdup (filename);
422     }
423   else
424     {
425       bf->filename = NULL;
426       bf->fh = NULL;
427     }
428   /* Alloc block */
429   bf->bitArray = GNUNET_malloc_large (size);
430   bf->bitArraySize = size;
431   bf->addressesPerElement = k;
432   memset (bf->bitArray, 0, bf->bitArraySize);
433
434   if (bf->filename != NULL)
435     {
436       /* Read from the file what bits we can */
437       rbuff = GNUNET_malloc (BUFFSIZE);
438       pos = 0;
439       while (pos < size * 8)
440         {
441           int res;
442
443           res = GNUNET_DISK_file_read (bf->fh, rbuff, BUFFSIZE);
444           if (res == -1)
445             {
446               GNUNET_log_strerror_file (GNUNET_ERROR_TYPE_WARNING,
447                                         "read",
448                                         bf->filename);
449             }
450           if (res == 0)
451             break;              /* is ok! we just did not use that many bits yet */
452           for (i = 0; i < res; i++)
453             {
454               if ((rbuff[i] & 0x0F) != 0)
455                 setBit (bf->bitArray, pos + i * 2);
456               if ((rbuff[i] & 0xF0) != 0)
457                 setBit (bf->bitArray, pos + i * 2 + 1);
458             }
459           if (res < BUFFSIZE)
460             break;
461           pos += BUFFSIZE * 2;  /* 2 bits per byte in the buffer */
462         }
463       GNUNET_free (rbuff);
464     }
465   return bf;
466 }
467
468
469 /**
470  * Create a bloom filter from raw bits.
471  *
472  * @param data the raw bits in memory (maybe NULL,
473  *        in which case all bits should be considered
474  *        to be zero).
475  * @param size the size of the bloom-filter (number of
476  *        bytes of storage space to use); also size of data
477  *        -- unless data is NULL
478  * @param k the number of GNUNET_CRYPTO_hash-functions to apply per
479  *        element (number of bits set per element in the set)
480  * @return the bloomfilter
481  */
482 struct GNUNET_CONTAINER_BloomFilter *
483 GNUNET_CONTAINER_bloomfilter_init (const char *data, unsigned int size,
484                                    unsigned int k)
485 {
486   struct GNUNET_CONTAINER_BloomFilter *bf;
487   unsigned int ui;
488
489   if ((k == 0) || (size == 0))
490     return NULL;
491   ui = 1;
492   while (ui < size)
493     ui *= 2;
494   if (size != ui)
495     {
496       GNUNET_break (0);
497       return NULL;
498     }
499   bf = GNUNET_malloc (sizeof (struct GNUNET_CONTAINER_BloomFilter));
500   bf->filename = NULL;
501   bf->fh = NULL;
502   bf->bitArray = GNUNET_malloc_large (size);
503   bf->bitArraySize = size;
504   bf->addressesPerElement = k;
505   if (data != NULL)
506     memcpy (bf->bitArray, data, size);
507   else
508     memset (bf->bitArray, 0, bf->bitArraySize);
509   return bf;
510 }
511
512
513 /**
514  * Copy the raw data of this bloomfilter into
515  * the given data array.
516  *
517  * @param data where to write the data
518  * @param size the size of the given data array
519  * @return GNUNET_SYSERR if the data array is not big enough
520  */
521 int
522 GNUNET_CONTAINER_bloomfilter_get_raw_data (struct GNUNET_CONTAINER_BloomFilter
523                                            *bf, char *data, unsigned int size)
524 {
525   if (NULL == bf)
526     return GNUNET_SYSERR;
527
528   if (bf->bitArraySize != size)
529     return GNUNET_SYSERR;
530   memcpy (data, bf->bitArray, size);
531   return GNUNET_OK;
532 }
533
534 /**
535  * Free the space associated with a filter
536  * in memory, flush to drive if needed (do not
537  * free the space on the drive)
538  *
539  * @param bf the filter
540  */
541 void
542 GNUNET_CONTAINER_bloomfilter_free (struct GNUNET_CONTAINER_BloomFilter *bf)
543 {
544   if (NULL == bf)
545     return;
546   if (bf->filename != NULL)
547     {
548       GNUNET_DISK_file_close (bf->fh);
549       GNUNET_free (bf->filename);
550     }
551   GNUNET_free (bf->bitArray);
552   GNUNET_free (bf);
553 }
554
555 /**
556  * Reset a bloom filter to empty. Clears the file on disk.
557  *
558  * @param bf the filter
559  */
560 void
561 GNUNET_CONTAINER_bloomfilter_clear (struct GNUNET_CONTAINER_BloomFilter *bf)
562 {
563   if (NULL == bf)
564     return;
565
566   memset (bf->bitArray, 0, bf->bitArraySize);
567   if (bf->filename != NULL)
568     makeEmptyFile (bf->fh, bf->bitArraySize * 4);
569 }
570
571
572 /**
573  * Test if an element is in the filter.
574  *
575  * @param e the element
576  * @param bf the filter
577  * @return GNUNET_YES if the element is in the filter, GNUNET_NO if not
578  */
579 int
580 GNUNET_CONTAINER_bloomfilter_test (struct GNUNET_CONTAINER_BloomFilter *bf,
581                                    const GNUNET_HashCode * e)
582 {
583   int res;
584
585   if (NULL == bf)
586     return GNUNET_YES;
587   res = GNUNET_YES;
588   iterateBits (bf, &testBitCallback, &res, e);
589   return res;
590 }
591
592 /**
593  * Add an element to the filter
594  *
595  * @param bf the filter
596  * @param e the element
597  */
598 void
599 GNUNET_CONTAINER_bloomfilter_add (struct GNUNET_CONTAINER_BloomFilter *bf,
600                                   const GNUNET_HashCode * e)
601 {
602
603   if (NULL == bf)
604     return;
605   iterateBits (bf, &incrementBitCallback, NULL, e);
606 }
607
608
609 /**
610  * Or the entries of the given raw data array with the
611  * data of the given bloom filter.  Assumes that
612  * the size of the data array and the current filter
613  * match.
614  * @param bf the filter
615  */
616 int
617 GNUNET_CONTAINER_bloomfilter_or (struct GNUNET_CONTAINER_BloomFilter *bf,
618                                  const char *data, unsigned int size)
619 {
620   unsigned int i;
621
622   if (NULL == bf)
623     return GNUNET_YES;
624   if (bf->bitArraySize != size)
625     return GNUNET_SYSERR;
626   /* FIXME: we could do this 4-8x faster by
627      going over int/long arrays */
628   for (i = 0; i < size; i++)
629     bf->bitArray[i] |= data[i];
630   return GNUNET_OK;
631 }
632
633 /**
634  * Remove an element from the filter.
635  *
636  * @param bf the filter
637  * @param e the element to remove
638  */
639 void
640 GNUNET_CONTAINER_bloomfilter_remove (struct GNUNET_CONTAINER_BloomFilter *bf,
641                                      const GNUNET_HashCode * e)
642 {
643   if (NULL == bf)
644     return;
645   if (bf->filename == NULL)
646     return;
647   iterateBits (bf, &decrementBitCallback, NULL, e);
648 }
649
650 /**
651  * Resize a bloom filter.  Note that this operation
652  * is pretty costly.  Essentially, the bloom filter
653  * needs to be completely re-build.
654  *
655  * @param bf the filter
656  * @param iterator an iterator over all elements stored in the BF
657  * @param iterator_arg argument to the iterator function
658  * @param size the new size for the filter
659  * @param k the new number of GNUNET_CRYPTO_hash-function to apply per element
660  */
661 void
662 GNUNET_CONTAINER_bloomfilter_resize (struct GNUNET_CONTAINER_BloomFilter *bf,
663                                      GNUNET_HashCodeIterator iterator,
664                                      void *iterator_arg, unsigned int size,
665                                      unsigned int k)
666 {
667   GNUNET_HashCode hc;
668   unsigned int i;
669
670   GNUNET_free (bf->bitArray);
671   i = 1;
672   while (i < size)
673     i *= 2;
674   size = i;                     /* make sure it's a power of 2 */
675
676   bf->bitArraySize = size;
677   bf->bitArray = GNUNET_malloc (size);
678   memset (bf->bitArray, 0, bf->bitArraySize);
679   if (bf->filename != NULL)
680     makeEmptyFile (bf->fh, bf->bitArraySize * 4);
681   while (GNUNET_YES == iterator (iterator_arg, &hc))
682     GNUNET_CONTAINER_bloomfilter_add (bf, &hc);
683 }
684
685 /* end of container_bloomfilter.c */