move __expand_heap into malloc.c
[oweals/musl.git] / src / malloc / malloc.c
index a4eefda94323be47967cc370b58204311c2e0f0a..df3ea1becd3d5eb81ab68cb8e493b3ba27e81b6c 100644 (file)
@@ -1,3 +1,4 @@
+#define _GNU_SOURCE
 #include <stdlib.h>
 #include <string.h>
 #include <limits.h>
@@ -7,83 +8,48 @@
 #include "libc.h"
 #include "atomic.h"
 #include "pthread_impl.h"
+#include "malloc_impl.h"
 
-uintptr_t __brk(uintptr_t);
-void *__mmap(void *, size_t, int, int, int, off_t);
-int __munmap(void *, size_t);
-void *__mremap(void *, size_t, size_t, int, ...);
-int __madvise(void *, size_t, int);
-
-struct chunk {
-       size_t data[1];
-       struct chunk *next;
-       struct chunk *prev;
-};
-
-struct bin {
-       int lock[2];
-       struct chunk *head;
-       struct chunk *tail;
-};
+#if defined(__GNUC__) && defined(__PIC__)
+#define inline inline __attribute__((always_inline))
+#endif
 
 static struct {
-       uintptr_t brk;
-       size_t *heap;
-       uint64_t binmap;
+       volatile uint64_t binmap;
        struct bin bins[64];
-       int brk_lock[2];
-       int free_lock[2];
+       volatile int split_merge_lock[2];
 } mal;
 
-
-#define SIZE_ALIGN (4*sizeof(size_t))
-#define SIZE_MASK (-SIZE_ALIGN)
-#define OVERHEAD (2*sizeof(size_t))
-#define MMAP_THRESHOLD (0x1c00*SIZE_ALIGN)
-#define DONTCARE 16
-#define RECLAIM 163840
-
-#define CHUNK_SIZE(c) ((c)->data[0] & SIZE_MASK)
-#define CHUNK_PSIZE(c) ((c)->data[-1] & SIZE_MASK)
-#define PREV_CHUNK(c) ((struct chunk *)((char *)(c) - CHUNK_PSIZE(c)))
-#define NEXT_CHUNK(c) ((struct chunk *)((char *)(c) + CHUNK_SIZE(c)))
-#define MEM_TO_CHUNK(p) (struct chunk *)((size_t *)p - 1)
-#define CHUNK_TO_MEM(c) (void *)((c)->data+1)
-#define BIN_TO_CHUNK(i) (MEM_TO_CHUNK(&mal.bins[i].head))
-
-#define C_INUSE  ((size_t)1)
-#define C_FLAGS  ((size_t)3)
-#define C_SIZE   SIZE_MASK
-
-#define IS_MMAPPED(c) !((c)->data[0] & (C_INUSE))
-
+int __malloc_replaced;
 
 /* Synchronization tools */
 
-static void lock(volatile int *lk)
+static inline void lock(volatile int *lk)
 {
-       if (!libc.threads_minus_1) return;
-       while(a_swap(lk, 1)) __wait(lk, lk+1, 1, 1);
+       int need_locks = libc.need_locks;
+       if (need_locks) {
+               while(a_swap(lk, 1)) __wait(lk, lk+1, 1, 1);
+               if (need_locks < 0) libc.need_locks = 0;
+       }
 }
 
-static void unlock(volatile int *lk)
+static inline void unlock(volatile int *lk)
 {
-       if (!libc.threads_minus_1) return;
-       a_store(lk, 0);
-       if (lk[1]) __wake(lk, 1, 1);
+       if (lk[0]) {
+               a_store(lk, 0);
+               if (lk[1]) __wake(lk, 1, 1);
+       }
 }
 
-static void lock_bin(int i)
+static inline void lock_bin(int i)
 {
-       if (libc.threads_minus_1)
-               lock(mal.bins[i].lock);
+       lock(mal.bins[i].lock);
        if (!mal.bins[i].head)
                mal.bins[i].head = mal.bins[i].tail = BIN_TO_CHUNK(i);
 }
 
-static void unlock_bin(int i)
+static inline void unlock_bin(int i)
 {
-       if (!libc.threads_minus_1) return;
        unlock(mal.bins[i].lock);
 }
 
@@ -114,19 +80,29 @@ static int first_set(uint64_t x)
 #endif
 }
 
+static const unsigned char bin_tab[60] = {
+                   32,33,34,35,36,36,37,37,38,38,39,39,
+       40,40,40,40,41,41,41,41,42,42,42,42,43,43,43,43,
+       44,44,44,44,44,44,44,44,45,45,45,45,45,45,45,45,
+       46,46,46,46,46,46,46,46,47,47,47,47,47,47,47,47,
+};
+
 static int bin_index(size_t x)
 {
        x = x / SIZE_ALIGN - 1;
        if (x <= 32) return x;
+       if (x < 512) return bin_tab[x/8-4];
        if (x > 0x1c00) return 63;
-       return ((union { float v; uint32_t r; }){ x }.r>>21) - 496;
+       return bin_tab[x/128-4] + 16;
 }
 
 static int bin_index_up(size_t x)
 {
        x = x / SIZE_ALIGN - 1;
        if (x <= 32) return x;
-       return ((union { float v; uint32_t r; }){ x }.r+0x1fffff>>21) - 496;
+       x--;
+       if (x < 512) return bin_tab[x/8-4] + 1;
+       return bin_tab[x/128-4] + 17;
 }
 
 #if 0
@@ -137,8 +113,8 @@ void __dump_heap(int x)
        for (c = (void *)mal.heap; CHUNK_SIZE(c); c = NEXT_CHUNK(c))
                fprintf(stderr, "base %p size %zu (%d) flags %d/%d\n",
                        c, CHUNK_SIZE(c), bin_index(CHUNK_SIZE(c)),
-                       c->data[0] & 15,
-                       NEXT_CHUNK(c)->data[-1] & 15);
+                       c->csize & 15,
+                       NEXT_CHUNK(c)->psize & 15);
        for (i=0; i<64; i++) {
                if (mal.bins[i].head != BIN_TO_CHUNK(i) && mal.bins[i].head) {
                        fprintf(stderr, "bin %d: %p\n", i, mal.bins[i].head);
@@ -150,67 +126,106 @@ void __dump_heap(int x)
 }
 #endif
 
-static struct chunk *expand_heap(size_t n)
-{
-       struct chunk *w;
-       uintptr_t new;
-
-       lock(mal.brk_lock);
+/* This function returns true if the interval [old,new]
+ * intersects the 'len'-sized interval below &libc.auxv
+ * (interpreted as the main-thread stack) or below &b
+ * (the current stack). It is used to defend against
+ * buggy brk implementations that can cross the stack. */
 
-       if (n > SIZE_MAX - mal.brk - 2*PAGE_SIZE) goto fail;
-       new = mal.brk + n + SIZE_ALIGN + PAGE_SIZE - 1 & -PAGE_SIZE;
-       n = new - mal.brk;
-
-       if (__brk(new) != new) goto fail;
+static int traverses_stack_p(uintptr_t old, uintptr_t new)
+{
+       const uintptr_t len = 8<<20;
+       uintptr_t a, b;
 
-       w = MEM_TO_CHUNK(new);
-       w->data[-1] = n | C_INUSE;
-       w->data[0] = 0 | C_INUSE;
+       b = (uintptr_t)libc.auxv;
+       a = b > len ? b-len : 0;
+       if (new>a && old<b) return 1;
 
-       w = MEM_TO_CHUNK(mal.brk);
-       w->data[0] = n | C_INUSE;
-       mal.brk = new;
-       
-       unlock(mal.brk_lock);
+       b = (uintptr_t)&b;
+       a = b > len ? b-len : 0;
+       if (new>a && old<b) return 1;
 
-       return w;
-fail:
-       unlock(mal.brk_lock);
        return 0;
 }
 
-static int init_malloc()
-{
-       static int init, waiters;
-       int state;
-       struct chunk *c;
+/* Expand the heap in-place if brk can be used, or otherwise via mmap,
+ * using an exponential lower bound on growth by mmap to make
+ * fragmentation asymptotically irrelevant. The size argument is both
+ * an input and an output, since the caller needs to know the size
+ * allocated, which will be larger than requested due to page alignment
+ * and mmap minimum size rules. The caller is responsible for locking
+ * to prevent concurrent calls. */
 
-       if (init == 2) return 0;
+static void *__expand_heap(size_t *pn)
+{
+       static uintptr_t brk;
+       static unsigned mmap_step;
+       size_t n = *pn;
 
-       while ((state=a_swap(&init, 1)) == 1)
-               __wait(&init, &waiters, 1, 1);
-       if (state) {
-               a_store(&init, 2);
+       if (n > SIZE_MAX/2 - PAGE_SIZE) {
+               errno = ENOMEM;
                return 0;
        }
+       n += -n & PAGE_SIZE-1;
+
+       if (!brk) {
+               brk = __syscall(SYS_brk, 0);
+               brk += -brk & PAGE_SIZE-1;
+       }
 
-       mal.brk = __brk(0) + 2*SIZE_ALIGN-1 & -SIZE_ALIGN;
+       if (n < SIZE_MAX-brk && !traverses_stack_p(brk, brk+n)
+           && __syscall(SYS_brk, brk+n)==brk+n) {
+               *pn = n;
+               brk += n;
+               return (void *)(brk-n);
+       }
 
-       c = expand_heap(1);
+       size_t min = (size_t)PAGE_SIZE << mmap_step/2;
+       if (n < min) n = min;
+       void *area = __mmap(0, n, PROT_READ|PROT_WRITE,
+               MAP_PRIVATE|MAP_ANONYMOUS, -1, 0);
+       if (area == MAP_FAILED) return 0;
+       *pn = n;
+       mmap_step++;
+       return area;
+}
 
-       if (!c) {
-               a_store(&init, 0);
-               if (waiters) __wake(&init, 1, 1);
-               return -1;
+static struct chunk *expand_heap(size_t n)
+{
+       static void *end;
+       void *p;
+       struct chunk *w;
+
+       /* The argument n already accounts for the caller's chunk
+        * overhead needs, but if the heap can't be extended in-place,
+        * we need room for an extra zero-sized sentinel chunk. */
+       n += SIZE_ALIGN;
+
+       p = __expand_heap(&n);
+       if (!p) return 0;
+
+       /* If not just expanding existing space, we need to make a
+        * new sentinel chunk below the allocated space. */
+       if (p != end) {
+               /* Valid/safe because of the prologue increment. */
+               n -= SIZE_ALIGN;
+               p = (char *)p + SIZE_ALIGN;
+               w = MEM_TO_CHUNK(p);
+               w->psize = 0 | C_INUSE;
        }
 
-       mal.heap = (void *)c;
-       c->data[-1] = 0 | C_INUSE;
-       free(CHUNK_TO_MEM(c));
+       /* Record new heap end and fill in footer. */
+       end = (char *)p + n;
+       w = MEM_TO_CHUNK(end);
+       w->psize = n | C_INUSE;
+       w->csize = 0 | C_INUSE;
 
-       a_store(&init, 2);
-       if (waiters) __wake(&init, -1, 1);
-       return 0;
+       /* Fill in header, which may be new or may be replacing a
+        * zero-size sentinel header at the old end-of-heap. */
+       w = MEM_TO_CHUNK(p);
+       w->csize = n | C_INUSE;
+
+       return w;
 }
 
 static int adjust_size(size_t *n)
@@ -235,76 +250,18 @@ static void unbin(struct chunk *c, int i)
                a_and_64(&mal.binmap, ~(1ULL<<i));
        c->prev->next = c->next;
        c->next->prev = c->prev;
-       c->data[0] |= C_INUSE;
-       NEXT_CHUNK(c)->data[-1] |= C_INUSE;
-}
-
-static int alloc_fwd(struct chunk *c)
-{
-       int i;
-       size_t k;
-       while (!((k=c->data[0]) & C_INUSE)) {
-               i = bin_index(k);
-               lock_bin(i);
-               if (c->data[0] == k) {
-                       unbin(c, i);
-                       unlock_bin(i);
-                       return 1;
-               }
-               unlock_bin(i);
-       }
-       return 0;
-}
-
-static int alloc_rev(struct chunk *c)
-{
-       int i;
-       size_t k;
-       while (!((k=c->data[-1]) & C_INUSE)) {
-               i = bin_index(k);
-               lock_bin(i);
-               if (c->data[-1] == k) {
-                       unbin(PREV_CHUNK(c), i);
-                       unlock_bin(i);
-                       return 1;
-               }
-               unlock_bin(i);
-       }
-       return 0;
+       c->csize |= C_INUSE;
+       NEXT_CHUNK(c)->psize |= C_INUSE;
 }
 
-
-/* pretrim - trims a chunk _prior_ to removing it from its bin.
- * Must be called with i as the ideal bin for size n, j the bin
- * for the _free_ chunk self, and bin j locked. */
-static int pretrim(struct chunk *self, size_t n, int i, int j)
+static void bin_chunk(struct chunk *self, int i)
 {
-       size_t n1;
-       struct chunk *next, *split;
-
-       /* We cannot pretrim if it would require re-binning. */
-       if (j < 40) return 0;
-       if (j < i+3) {
-               if (j != 63) return 0;
-               n1 = CHUNK_SIZE(self);
-               if (n1-n <= MMAP_THRESHOLD) return 0;
-       } else {
-               n1 = CHUNK_SIZE(self);
-       }
-       if (bin_index(n1-n) != j) return 0;
-
-       next = NEXT_CHUNK(self);
-       split = (void *)((char *)self + n);
-
-       split->prev = self->prev;
-       split->next = self->next;
-       split->prev->next = split;
-       split->next->prev = split;
-       split->data[-1] = n | C_INUSE;
-       split->data[0] = n1-n;
-       next->data[-1] = n1-n;
-       self->data[0] = n | C_INUSE;
-       return 1;
+       self->next = BIN_TO_CHUNK(i);
+       self->prev = mal.bins[i].tail;
+       self->next->prev = self;
+       self->prev->next = self;
+       if (self->prev == BIN_TO_CHUNK(i))
+               a_or_64(&mal.binmap, 1ULL<<i);
 }
 
 static void trim(struct chunk *self, size_t n)
@@ -317,64 +274,109 @@ static void trim(struct chunk *self, size_t n)
        next = NEXT_CHUNK(self);
        split = (void *)((char *)self + n);
 
-       split->data[-1] = n | C_INUSE;
-       split->data[0] = n1-n | C_INUSE;
-       next->data[-1] = n1-n | C_INUSE;
-       self->data[0] = n | C_INUSE;
+       split->psize = n | C_INUSE;
+       split->csize = n1-n;
+       next->psize = n1-n;
+       self->csize = n | C_INUSE;
 
-       free(CHUNK_TO_MEM(split));
+       int i = bin_index(n1-n);
+       lock_bin(i);
+
+       bin_chunk(split, i);
+
+       unlock_bin(i);
 }
 
 void *malloc(size_t n)
 {
        struct chunk *c;
        int i, j;
+       uint64_t mask;
 
        if (adjust_size(&n) < 0) return 0;
 
        if (n > MMAP_THRESHOLD) {
-               size_t len = n + PAGE_SIZE - 1 & -PAGE_SIZE;
+               size_t len = n + OVERHEAD + PAGE_SIZE - 1 & -PAGE_SIZE;
                char *base = __mmap(0, len, PROT_READ|PROT_WRITE,
                        MAP_PRIVATE|MAP_ANONYMOUS, -1, 0);
                if (base == (void *)-1) return 0;
-               c = (void *)(base + SIZE_ALIGN - sizeof(size_t));
-               c->data[0] = len - (SIZE_ALIGN - sizeof(size_t));
-               c->data[-1] = SIZE_ALIGN - sizeof(size_t);
+               c = (void *)(base + SIZE_ALIGN - OVERHEAD);
+               c->csize = len - (SIZE_ALIGN - OVERHEAD);
+               c->psize = SIZE_ALIGN - OVERHEAD;
                return CHUNK_TO_MEM(c);
        }
 
        i = bin_index_up(n);
-       for (;;) {
-               uint64_t mask = mal.binmap & -(1ULL<<i);
-               if (!mask) {
-                       init_malloc();
-                       c = expand_heap(n);
-                       if (!c) return 0;
-                       if (alloc_rev(c)) {
-                               struct chunk *x = c;
-                               c = PREV_CHUNK(c);
-                               NEXT_CHUNK(x)->data[-1] = c->data[0] =
-                                       x->data[0] + CHUNK_SIZE(c);
-                       }
-                       break;
+       if (i<63 && (mal.binmap & (1ULL<<i))) {
+               lock_bin(i);
+               c = mal.bins[i].head;
+               if (c != BIN_TO_CHUNK(i) && CHUNK_SIZE(c)-n <= DONTCARE) {
+                       unbin(c, i);
+                       unlock_bin(i);
+                       return CHUNK_TO_MEM(c);
                }
+               unlock_bin(i);
+       }
+       lock(mal.split_merge_lock);
+       for (mask = mal.binmap & -(1ULL<<i); mask; mask -= (mask&-mask)) {
                j = first_set(mask);
                lock_bin(j);
                c = mal.bins[j].head;
-               if (c != BIN_TO_CHUNK(j) && j == bin_index(c->data[0])) {
-                       if (!pretrim(c, n, i, j)) unbin(c, j);
+               if (c != BIN_TO_CHUNK(j)) {
+                       unbin(c, j);
                        unlock_bin(j);
                        break;
                }
                unlock_bin(j);
        }
-
-       /* Now patch up in case we over-allocated */
+       if (!mask) {
+               c = expand_heap(n);
+               if (!c) {
+                       unlock(mal.split_merge_lock);
+                       return 0;
+               }
+       }
        trim(c, n);
-
+       unlock(mal.split_merge_lock);
        return CHUNK_TO_MEM(c);
 }
 
+static size_t mal0_clear(char *p, size_t pagesz, size_t n)
+{
+#ifdef __GNUC__
+       typedef uint64_t __attribute__((__may_alias__)) T;
+#else
+       typedef unsigned char T;
+#endif
+       char *pp = p + n;
+       size_t i = (uintptr_t)pp & (pagesz - 1);
+       for (;;) {
+               pp = memset(pp - i, 0, i);
+               if (pp - p < pagesz) return pp - p;
+               for (i = pagesz; i; i -= 2*sizeof(T), pp -= 2*sizeof(T))
+                       if (((T *)pp)[-1] | ((T *)pp)[-2])
+                               break;
+       }
+}
+
+void *calloc(size_t m, size_t n)
+{
+       if (n && m > (size_t)-1/n) {
+               errno = ENOMEM;
+               return 0;
+       }
+       n *= m;
+       void *p = malloc(n);
+       if (!p) return p;
+       if (!__malloc_replaced) {
+               if (IS_MMAPPED(MEM_TO_CHUNK(p)))
+                       return p;
+               if (n >= PAGE_SIZE)
+                       n = mal0_clear(p, PAGE_SIZE, n);
+       }
+       return memset(p, 0, n);
+}
+
 void *realloc(void *p, size_t n)
 {
        struct chunk *self, *next;
@@ -388,136 +390,161 @@ void *realloc(void *p, size_t n)
        self = MEM_TO_CHUNK(p);
        n1 = n0 = CHUNK_SIZE(self);
 
+       if (n<=n0 && n0-n<=DONTCARE) return p;
+
        if (IS_MMAPPED(self)) {
-               size_t extra = self->data[-1];
+               size_t extra = self->psize;
                char *base = (char *)self - extra;
                size_t oldlen = n0 + extra;
                size_t newlen = n + extra;
                /* Crash on realloc of freed chunk */
-               if ((uintptr_t)base < mal.brk) *(char *)0=0;
-               if (newlen < PAGE_SIZE && (new = malloc(n))) {
-                       memcpy(new, p, n-OVERHEAD);
-                       free(p);
-                       return new;
+               if (extra & 1) a_crash();
+               if (newlen < PAGE_SIZE && (new = malloc(n-OVERHEAD))) {
+                       n0 = n;
+                       goto copy_free_ret;
                }
                newlen = (newlen + PAGE_SIZE-1) & -PAGE_SIZE;
                if (oldlen == newlen) return p;
                base = __mremap(base, oldlen, newlen, MREMAP_MAYMOVE);
                if (base == (void *)-1)
-                       return newlen < oldlen ? p : 0;
+                       goto copy_realloc;
                self = (void *)(base + extra);
-               self->data[0] = newlen - extra;
+               self->csize = newlen - extra;
                return CHUNK_TO_MEM(self);
        }
 
        next = NEXT_CHUNK(self);
 
-       /* Merge adjacent chunks if we need more space. This is not
-        * a waste of time even if we fail to get enough space, because our
-        * subsequent call to free would otherwise have to do the merge. */
-       if (n > n1 && alloc_fwd(next)) {
-               n1 += CHUNK_SIZE(next);
-               next = NEXT_CHUNK(next);
-       }
-       /* FIXME: find what's wrong here and reenable it..? */
-       if (0 && n > n1 && alloc_rev(self)) {
-               self = PREV_CHUNK(self);
-               n1 += CHUNK_SIZE(self);
-       }
-       self->data[0] = n1 | C_INUSE;
-       next->data[-1] = n1 | C_INUSE;
+       /* Crash on corrupted footer (likely from buffer overflow) */
+       if (next->psize != self->csize) a_crash();
 
-       /* If we got enough space, split off the excess and return */
-       if (n <= n1) {
-               //memmove(CHUNK_TO_MEM(self), p, n0-OVERHEAD);
-               trim(self, n);
-               return CHUNK_TO_MEM(self);
+       lock(mal.split_merge_lock);
+
+       size_t nsize = next->csize & C_INUSE ? 0 : CHUNK_SIZE(next);
+       if (n0+nsize >= n) {
+               int i = bin_index(nsize);
+               lock_bin(i);
+               if (!(next->csize & C_INUSE)) {
+                       unbin(next, i);
+                       unlock_bin(i);
+                       next = NEXT_CHUNK(next);
+                       self->csize = next->psize = n0+nsize | C_INUSE;
+                       trim(self, n);
+                       unlock(mal.split_merge_lock);
+                       return CHUNK_TO_MEM(self);
+               }
+               unlock_bin(i);
        }
+       unlock(mal.split_merge_lock);
 
+copy_realloc:
        /* As a last resort, allocate a new chunk and copy to it. */
        new = malloc(n-OVERHEAD);
        if (!new) return 0;
+copy_free_ret:
        memcpy(new, p, n0-OVERHEAD);
        free(CHUNK_TO_MEM(self));
        return new;
 }
 
-void free(void *p)
+void __bin_chunk(struct chunk *self)
 {
-       struct chunk *self = MEM_TO_CHUNK(p);
-       struct chunk *next;
-       size_t final_size, new_size, size;
-       int reclaim=0;
-       int i;
+       struct chunk *next = NEXT_CHUNK(self);
 
-       if (!p) return;
+       /* Crash on corrupted footer (likely from buffer overflow) */
+       if (next->psize != self->csize) a_crash();
 
-       if (IS_MMAPPED(self)) {
-               size_t extra = self->data[-1];
-               char *base = (char *)self - extra;
-               size_t len = CHUNK_SIZE(self) + extra;
-               /* Crash on double free */
-               if ((uintptr_t)base < mal.brk) *(char *)0=0;
-               __munmap(base, len);
-               return;
+       lock(mal.split_merge_lock);
+
+       size_t osize = CHUNK_SIZE(self), size = osize;
+
+       /* Since we hold split_merge_lock, only transition from free to
+        * in-use can race; in-use to free is impossible */
+       size_t psize = self->psize & C_INUSE ? 0 : CHUNK_PSIZE(self);
+       size_t nsize = next->csize & C_INUSE ? 0 : CHUNK_SIZE(next);
+
+       if (psize) {
+               int i = bin_index(psize);
+               lock_bin(i);
+               if (!(self->psize & C_INUSE)) {
+                       struct chunk *prev = PREV_CHUNK(self);
+                       unbin(prev, i);
+                       self = prev;
+                       size += psize;
+               }
+               unlock_bin(i);
+       }
+       if (nsize) {
+               int i = bin_index(nsize);
+               lock_bin(i);
+               if (!(next->csize & C_INUSE)) {
+                       unbin(next, i);
+                       next = NEXT_CHUNK(next);
+                       size += nsize;
+               }
+               unlock_bin(i);
        }
 
-       final_size = new_size = CHUNK_SIZE(self);
-       next = NEXT_CHUNK(self);
+       int i = bin_index(size);
+       lock_bin(i);
 
-       for (;;) {
-               /* Replace middle of large chunks with fresh zero pages */
-               if (reclaim && (self->data[-1] & next->data[0] & C_INUSE)) {
-                       uintptr_t a = (uintptr_t)self + SIZE_ALIGN+PAGE_SIZE-1 & -PAGE_SIZE;
-                       uintptr_t b = (uintptr_t)next - SIZE_ALIGN & -PAGE_SIZE;
+       self->csize = size;
+       next->psize = size;
+       bin_chunk(self, i);
+       unlock(mal.split_merge_lock);
+
+       /* Replace middle of large chunks with fresh zero pages */
+       if (size > RECLAIM && (size^(size-osize)) > size-osize) {
+               uintptr_t a = (uintptr_t)self + SIZE_ALIGN+PAGE_SIZE-1 & -PAGE_SIZE;
+               uintptr_t b = (uintptr_t)next - SIZE_ALIGN & -PAGE_SIZE;
 #if 1
-                       __madvise((void *)a, b-a, MADV_DONTNEED);
+               __madvise((void *)a, b-a, MADV_DONTNEED);
 #else
-                       __mmap((void *)a, b-a, PROT_READ|PROT_WRITE,
-                               MAP_PRIVATE|MAP_ANONYMOUS|MAP_FIXED, -1, 0);
+               __mmap((void *)a, b-a, PROT_READ|PROT_WRITE,
+                       MAP_PRIVATE|MAP_ANONYMOUS|MAP_FIXED, -1, 0);
 #endif
-               }
+       }
 
-               if (self->data[-1] & next->data[0] & C_INUSE) {
-                       self->data[0] = final_size | C_INUSE;
-                       next->data[-1] = final_size | C_INUSE;
-                       i = bin_index(final_size);
-                       lock_bin(i);
-                       lock(mal.free_lock);
-                       if (self->data[-1] & next->data[0] & C_INUSE)
-                               break;
-                       unlock(mal.free_lock);
-                       unlock_bin(i);
-               }
+       unlock_bin(i);
+}
 
-               if (alloc_rev(self)) {
-                       self = PREV_CHUNK(self);
-                       size = CHUNK_SIZE(self);
-                       final_size += size;
-                       if (new_size+size > RECLAIM && (new_size+size^size) > size)
-                               reclaim = 1;
-               }
+static void unmap_chunk(struct chunk *self)
+{
+       size_t extra = self->psize;
+       char *base = (char *)self - extra;
+       size_t len = CHUNK_SIZE(self) + extra;
+       /* Crash on double free */
+       if (extra & 1) a_crash();
+       __munmap(base, len);
+}
 
-               if (alloc_fwd(next)) {
-                       size = CHUNK_SIZE(next);
-                       final_size += size;
-                       if (new_size+size > RECLAIM && (new_size+size^size) > size)
-                               reclaim = 1;
-                       next = NEXT_CHUNK(next);
-               }
-       }
+void free(void *p)
+{
+       if (!p) return;
 
-       self->data[0] = final_size;
-       next->data[-1] = final_size;
-       unlock(mal.free_lock);
+       struct chunk *self = MEM_TO_CHUNK(p);
 
-       self->next = BIN_TO_CHUNK(i);
-       self->prev = mal.bins[i].tail;
-       self->next->prev = self;
-       self->prev->next = self;
+       if (IS_MMAPPED(self))
+               unmap_chunk(self);
+       else
+               __bin_chunk(self);
+}
 
-       if (!(mal.binmap & 1ULL<<i))
-               a_or_64(&mal.binmap, 1ULL<<i);
+void __malloc_donate(char *start, char *end)
+{
+       size_t align_start_up = (SIZE_ALIGN-1) & (-(uintptr_t)start - OVERHEAD);
+       size_t align_end_down = (SIZE_ALIGN-1) & (uintptr_t)end;
 
-       unlock_bin(i);
+       /* Getting past this condition ensures that the padding for alignment
+        * and header overhead will not overflow and will leave a nonzero
+        * multiple of SIZE_ALIGN bytes between start and end. */
+       if (end - start <= OVERHEAD + align_start_up + align_end_down)
+               return;
+       start += align_start_up + OVERHEAD;
+       end   -= align_end_down;
+
+       struct chunk *c = MEM_TO_CHUNK(start), *n = MEM_TO_CHUNK(end);
+       c->psize = n->csize = C_INUSE;
+       c->csize = n->psize = C_INUSE | (end-start);
+       __bin_chunk(c);
 }