Linux-libre 5.3.12-gnu
[librecmc/linux-libre.git] / drivers / net / ethernet / mellanox / mlx5 / core / en / xdp.c
1 /*
2  * Copyright (c) 2018, Mellanox Technologies. All rights reserved.
3  *
4  * This software is available to you under a choice of one of two
5  * licenses.  You may choose to be licensed under the terms of the GNU
6  * General Public License (GPL) Version 2, available from the file
7  * COPYING in the main directory of this source tree, or the
8  * OpenIB.org BSD license below:
9  *
10  *     Redistribution and use in source and binary forms, with or
11  *     without modification, are permitted provided that the following
12  *     conditions are met:
13  *
14  *      - Redistributions of source code must retain the above
15  *        copyright notice, this list of conditions and the following
16  *        disclaimer.
17  *
18  *      - Redistributions in binary form must reproduce the above
19  *        copyright notice, this list of conditions and the following
20  *        disclaimer in the documentation and/or other materials
21  *        provided with the distribution.
22  *
23  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
24  * EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
25  * MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
26  * NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS
27  * BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN
28  * ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
29  * CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
30  * SOFTWARE.
31  */
32
33 #include <linux/bpf_trace.h>
34 #include <net/xdp_sock.h>
35 #include "en/xdp.h"
36 #include "en/params.h"
37
38 int mlx5e_xdp_max_mtu(struct mlx5e_params *params, struct mlx5e_xsk_param *xsk)
39 {
40         int hr = mlx5e_get_linear_rq_headroom(params, xsk);
41
42         /* Let S := SKB_DATA_ALIGN(sizeof(struct skb_shared_info)).
43          * The condition checked in mlx5e_rx_is_linear_skb is:
44          *   SKB_DATA_ALIGN(sw_mtu + hard_mtu + hr) + S <= PAGE_SIZE         (1)
45          *   (Note that hw_mtu == sw_mtu + hard_mtu.)
46          * What is returned from this function is:
47          *   max_mtu = PAGE_SIZE - S - hr - hard_mtu                         (2)
48          * After assigning sw_mtu := max_mtu, the left side of (1) turns to
49          * SKB_DATA_ALIGN(PAGE_SIZE - S) + S, which is equal to PAGE_SIZE,
50          * because both PAGE_SIZE and S are already aligned. Any number greater
51          * than max_mtu would make the left side of (1) greater than PAGE_SIZE,
52          * so max_mtu is the maximum MTU allowed.
53          */
54
55         return MLX5E_HW2SW_MTU(params, SKB_MAX_HEAD(hr));
56 }
57
58 static inline bool
59 mlx5e_xmit_xdp_buff(struct mlx5e_xdpsq *sq, struct mlx5e_rq *rq,
60                     struct mlx5e_dma_info *di, struct xdp_buff *xdp)
61 {
62         struct mlx5e_xdp_xmit_data xdptxd;
63         struct mlx5e_xdp_info xdpi;
64         struct xdp_frame *xdpf;
65         dma_addr_t dma_addr;
66
67         xdpf = convert_to_xdp_frame(xdp);
68         if (unlikely(!xdpf))
69                 return false;
70
71         xdptxd.data = xdpf->data;
72         xdptxd.len  = xdpf->len;
73
74         if (xdp->rxq->mem.type == MEM_TYPE_ZERO_COPY) {
75                 /* The xdp_buff was in the UMEM and was copied into a newly
76                  * allocated page. The UMEM page was returned via the ZCA, and
77                  * this new page has to be mapped at this point and has to be
78                  * unmapped and returned via xdp_return_frame on completion.
79                  */
80
81                 /* Prevent double recycling of the UMEM page. Even in case this
82                  * function returns false, the xdp_buff shouldn't be recycled,
83                  * as it was already done in xdp_convert_zc_to_xdp_frame.
84                  */
85                 __set_bit(MLX5E_RQ_FLAG_XDP_XMIT, rq->flags); /* non-atomic */
86
87                 xdpi.mode = MLX5E_XDP_XMIT_MODE_FRAME;
88
89                 dma_addr = dma_map_single(sq->pdev, xdptxd.data, xdptxd.len,
90                                           DMA_TO_DEVICE);
91                 if (dma_mapping_error(sq->pdev, dma_addr)) {
92                         xdp_return_frame(xdpf);
93                         return false;
94                 }
95
96                 xdptxd.dma_addr     = dma_addr;
97                 xdpi.frame.xdpf     = xdpf;
98                 xdpi.frame.dma_addr = dma_addr;
99         } else {
100                 /* Driver assumes that convert_to_xdp_frame returns an xdp_frame
101                  * that points to the same memory region as the original
102                  * xdp_buff. It allows to map the memory only once and to use
103                  * the DMA_BIDIRECTIONAL mode.
104                  */
105
106                 xdpi.mode = MLX5E_XDP_XMIT_MODE_PAGE;
107
108                 dma_addr = di->addr + (xdpf->data - (void *)xdpf);
109                 dma_sync_single_for_device(sq->pdev, dma_addr, xdptxd.len,
110                                            DMA_TO_DEVICE);
111
112                 xdptxd.dma_addr = dma_addr;
113                 xdpi.page.rq    = rq;
114                 xdpi.page.di    = *di;
115         }
116
117         return sq->xmit_xdp_frame(sq, &xdptxd, &xdpi, 0);
118 }
119
120 /* returns true if packet was consumed by xdp */
121 bool mlx5e_xdp_handle(struct mlx5e_rq *rq, struct mlx5e_dma_info *di,
122                       void *va, u16 *rx_headroom, u32 *len, bool xsk)
123 {
124         struct bpf_prog *prog = READ_ONCE(rq->xdp_prog);
125         struct xdp_buff xdp;
126         u32 act;
127         int err;
128
129         if (!prog)
130                 return false;
131
132         xdp.data = va + *rx_headroom;
133         xdp_set_data_meta_invalid(&xdp);
134         xdp.data_end = xdp.data + *len;
135         xdp.data_hard_start = va;
136         if (xsk)
137                 xdp.handle = di->xsk.handle;
138         xdp.rxq = &rq->xdp_rxq;
139
140         act = bpf_prog_run_xdp(prog, &xdp);
141         if (xsk)
142                 xdp.handle += xdp.data - xdp.data_hard_start;
143         switch (act) {
144         case XDP_PASS:
145                 *rx_headroom = xdp.data - xdp.data_hard_start;
146                 *len = xdp.data_end - xdp.data;
147                 return false;
148         case XDP_TX:
149                 if (unlikely(!mlx5e_xmit_xdp_buff(rq->xdpsq, rq, di, &xdp)))
150                         goto xdp_abort;
151                 __set_bit(MLX5E_RQ_FLAG_XDP_XMIT, rq->flags); /* non-atomic */
152                 return true;
153         case XDP_REDIRECT:
154                 /* When XDP enabled then page-refcnt==1 here */
155                 err = xdp_do_redirect(rq->netdev, &xdp, prog);
156                 if (unlikely(err))
157                         goto xdp_abort;
158                 __set_bit(MLX5E_RQ_FLAG_XDP_XMIT, rq->flags);
159                 __set_bit(MLX5E_RQ_FLAG_XDP_REDIRECT, rq->flags);
160                 if (!xsk)
161                         mlx5e_page_dma_unmap(rq, di);
162                 rq->stats->xdp_redirect++;
163                 return true;
164         default:
165                 bpf_warn_invalid_xdp_action(act);
166                 /* fall through */
167         case XDP_ABORTED:
168 xdp_abort:
169                 trace_xdp_exception(rq->netdev, prog, act);
170                 /* fall through */
171         case XDP_DROP:
172                 rq->stats->xdp_drop++;
173                 return true;
174         }
175 }
176
177 static void mlx5e_xdp_mpwqe_session_start(struct mlx5e_xdpsq *sq)
178 {
179         struct mlx5e_xdp_mpwqe *session = &sq->mpwqe;
180         struct mlx5e_xdpsq_stats *stats = sq->stats;
181         struct mlx5_wq_cyc *wq = &sq->wq;
182         u8  wqebbs;
183         u16 pi;
184
185         mlx5e_xdpsq_fetch_wqe(sq, &session->wqe);
186
187         prefetchw(session->wqe->data);
188         session->ds_count  = MLX5E_XDP_TX_EMPTY_DS_COUNT;
189         session->pkt_count = 0;
190         session->complete  = 0;
191
192         pi = mlx5_wq_cyc_ctr2ix(wq, sq->pc);
193
194 /* The mult of MLX5_SEND_WQE_MAX_WQEBBS * MLX5_SEND_WQEBB_NUM_DS
195  * (16 * 4 == 64) does not fit in the 6-bit DS field of Ctrl Segment.
196  * We use a bound lower that MLX5_SEND_WQE_MAX_WQEBBS to let a
197  * full-session WQE be cache-aligned.
198  */
199 #if L1_CACHE_BYTES < 128
200 #define MLX5E_XDP_MPW_MAX_WQEBBS (MLX5_SEND_WQE_MAX_WQEBBS - 1)
201 #else
202 #define MLX5E_XDP_MPW_MAX_WQEBBS (MLX5_SEND_WQE_MAX_WQEBBS - 2)
203 #endif
204
205         wqebbs = min_t(u16, mlx5_wq_cyc_get_contig_wqebbs(wq, pi),
206                        MLX5E_XDP_MPW_MAX_WQEBBS);
207
208         session->max_ds_count = MLX5_SEND_WQEBB_NUM_DS * wqebbs;
209
210         mlx5e_xdp_update_inline_state(sq);
211
212         stats->mpwqe++;
213 }
214
215 void mlx5e_xdp_mpwqe_complete(struct mlx5e_xdpsq *sq)
216 {
217         struct mlx5_wq_cyc       *wq    = &sq->wq;
218         struct mlx5e_xdp_mpwqe *session = &sq->mpwqe;
219         struct mlx5_wqe_ctrl_seg *cseg = &session->wqe->ctrl;
220         u16 ds_count = session->ds_count;
221         u16 pi = mlx5_wq_cyc_ctr2ix(wq, sq->pc);
222         struct mlx5e_xdp_wqe_info *wi = &sq->db.wqe_info[pi];
223
224         cseg->opmod_idx_opcode =
225                 cpu_to_be32((sq->pc << 8) | MLX5_OPCODE_ENHANCED_MPSW);
226         cseg->qpn_ds = cpu_to_be32((sq->sqn << 8) | ds_count);
227
228         wi->num_wqebbs = DIV_ROUND_UP(ds_count, MLX5_SEND_WQEBB_NUM_DS);
229         wi->num_pkts   = session->pkt_count;
230
231         sq->pc += wi->num_wqebbs;
232
233         sq->doorbell_cseg = cseg;
234
235         session->wqe = NULL; /* Close session */
236 }
237
238 enum {
239         MLX5E_XDP_CHECK_OK = 1,
240         MLX5E_XDP_CHECK_START_MPWQE = 2,
241 };
242
243 static int mlx5e_xmit_xdp_frame_check_mpwqe(struct mlx5e_xdpsq *sq)
244 {
245         if (unlikely(!sq->mpwqe.wqe)) {
246                 if (unlikely(!mlx5e_wqc_has_room_for(&sq->wq, sq->cc, sq->pc,
247                                                      MLX5_SEND_WQE_MAX_WQEBBS))) {
248                         /* SQ is full, ring doorbell */
249                         mlx5e_xmit_xdp_doorbell(sq);
250                         sq->stats->full++;
251                         return -EBUSY;
252                 }
253
254                 return MLX5E_XDP_CHECK_START_MPWQE;
255         }
256
257         return MLX5E_XDP_CHECK_OK;
258 }
259
260 static bool mlx5e_xmit_xdp_frame_mpwqe(struct mlx5e_xdpsq *sq,
261                                        struct mlx5e_xdp_xmit_data *xdptxd,
262                                        struct mlx5e_xdp_info *xdpi,
263                                        int check_result)
264 {
265         struct mlx5e_xdp_mpwqe *session = &sq->mpwqe;
266         struct mlx5e_xdpsq_stats *stats = sq->stats;
267
268         if (unlikely(xdptxd->len > sq->hw_mtu)) {
269                 stats->err++;
270                 return false;
271         }
272
273         if (!check_result)
274                 check_result = mlx5e_xmit_xdp_frame_check_mpwqe(sq);
275         if (unlikely(check_result < 0))
276                 return false;
277
278         if (check_result == MLX5E_XDP_CHECK_START_MPWQE) {
279                 /* Start the session when nothing can fail, so it's guaranteed
280                  * that if there is an active session, it has at least one dseg,
281                  * and it's safe to complete it at any time.
282                  */
283                 mlx5e_xdp_mpwqe_session_start(sq);
284         }
285
286         mlx5e_xdp_mpwqe_add_dseg(sq, xdptxd, stats);
287
288         if (unlikely(session->complete ||
289                      session->ds_count == session->max_ds_count))
290                 mlx5e_xdp_mpwqe_complete(sq);
291
292         mlx5e_xdpi_fifo_push(&sq->db.xdpi_fifo, xdpi);
293         stats->xmit++;
294         return true;
295 }
296
297 static int mlx5e_xmit_xdp_frame_check(struct mlx5e_xdpsq *sq)
298 {
299         if (unlikely(!mlx5e_wqc_has_room_for(&sq->wq, sq->cc, sq->pc, 1))) {
300                 /* SQ is full, ring doorbell */
301                 mlx5e_xmit_xdp_doorbell(sq);
302                 sq->stats->full++;
303                 return -EBUSY;
304         }
305
306         return MLX5E_XDP_CHECK_OK;
307 }
308
309 static bool mlx5e_xmit_xdp_frame(struct mlx5e_xdpsq *sq,
310                                  struct mlx5e_xdp_xmit_data *xdptxd,
311                                  struct mlx5e_xdp_info *xdpi,
312                                  int check_result)
313 {
314         struct mlx5_wq_cyc       *wq   = &sq->wq;
315         u16                       pi   = mlx5_wq_cyc_ctr2ix(wq, sq->pc);
316         struct mlx5e_tx_wqe      *wqe  = mlx5_wq_cyc_get_wqe(wq, pi);
317
318         struct mlx5_wqe_ctrl_seg *cseg = &wqe->ctrl;
319         struct mlx5_wqe_eth_seg  *eseg = &wqe->eth;
320         struct mlx5_wqe_data_seg *dseg = wqe->data;
321
322         dma_addr_t dma_addr = xdptxd->dma_addr;
323         u32 dma_len = xdptxd->len;
324
325         struct mlx5e_xdpsq_stats *stats = sq->stats;
326
327         prefetchw(wqe);
328
329         if (unlikely(dma_len < MLX5E_XDP_MIN_INLINE || sq->hw_mtu < dma_len)) {
330                 stats->err++;
331                 return false;
332         }
333
334         if (!check_result)
335                 check_result = mlx5e_xmit_xdp_frame_check(sq);
336         if (unlikely(check_result < 0))
337                 return false;
338
339         cseg->fm_ce_se = 0;
340
341         /* copy the inline part if required */
342         if (sq->min_inline_mode != MLX5_INLINE_MODE_NONE) {
343                 memcpy(eseg->inline_hdr.start, xdptxd->data, MLX5E_XDP_MIN_INLINE);
344                 eseg->inline_hdr.sz = cpu_to_be16(MLX5E_XDP_MIN_INLINE);
345                 dma_len  -= MLX5E_XDP_MIN_INLINE;
346                 dma_addr += MLX5E_XDP_MIN_INLINE;
347                 dseg++;
348         }
349
350         /* write the dma part */
351         dseg->addr       = cpu_to_be64(dma_addr);
352         dseg->byte_count = cpu_to_be32(dma_len);
353
354         cseg->opmod_idx_opcode = cpu_to_be32((sq->pc << 8) | MLX5_OPCODE_SEND);
355
356         sq->pc++;
357
358         sq->doorbell_cseg = cseg;
359
360         mlx5e_xdpi_fifo_push(&sq->db.xdpi_fifo, xdpi);
361         stats->xmit++;
362         return true;
363 }
364
365 static void mlx5e_free_xdpsq_desc(struct mlx5e_xdpsq *sq,
366                                   struct mlx5e_xdp_wqe_info *wi,
367                                   u32 *xsk_frames,
368                                   bool recycle)
369 {
370         struct mlx5e_xdp_info_fifo *xdpi_fifo = &sq->db.xdpi_fifo;
371         u16 i;
372
373         for (i = 0; i < wi->num_pkts; i++) {
374                 struct mlx5e_xdp_info xdpi = mlx5e_xdpi_fifo_pop(xdpi_fifo);
375
376                 switch (xdpi.mode) {
377                 case MLX5E_XDP_XMIT_MODE_FRAME:
378                         /* XDP_TX from the XSK RQ and XDP_REDIRECT */
379                         dma_unmap_single(sq->pdev, xdpi.frame.dma_addr,
380                                          xdpi.frame.xdpf->len, DMA_TO_DEVICE);
381                         xdp_return_frame(xdpi.frame.xdpf);
382                         break;
383                 case MLX5E_XDP_XMIT_MODE_PAGE:
384                         /* XDP_TX from the regular RQ */
385                         mlx5e_page_release_dynamic(xdpi.page.rq, &xdpi.page.di, recycle);
386                         break;
387                 case MLX5E_XDP_XMIT_MODE_XSK:
388                         /* AF_XDP send */
389                         (*xsk_frames)++;
390                         break;
391                 default:
392                         WARN_ON_ONCE(true);
393                 }
394         }
395 }
396
397 bool mlx5e_poll_xdpsq_cq(struct mlx5e_cq *cq)
398 {
399         struct mlx5e_xdpsq *sq;
400         struct mlx5_cqe64 *cqe;
401         u32 xsk_frames = 0;
402         u16 sqcc;
403         int i;
404
405         sq = container_of(cq, struct mlx5e_xdpsq, cq);
406
407         if (unlikely(!test_bit(MLX5E_SQ_STATE_ENABLED, &sq->state)))
408                 return false;
409
410         cqe = mlx5_cqwq_get_cqe(&cq->wq);
411         if (!cqe)
412                 return false;
413
414         /* sq->cc must be updated only after mlx5_cqwq_update_db_record(),
415          * otherwise a cq overrun may occur
416          */
417         sqcc = sq->cc;
418
419         i = 0;
420         do {
421                 u16 wqe_counter;
422                 bool last_wqe;
423
424                 mlx5_cqwq_pop(&cq->wq);
425
426                 wqe_counter = be16_to_cpu(cqe->wqe_counter);
427
428                 if (unlikely(get_cqe_opcode(cqe) != MLX5_CQE_REQ))
429                         netdev_WARN_ONCE(sq->channel->netdev,
430                                          "Bad OP in XDPSQ CQE: 0x%x\n",
431                                          get_cqe_opcode(cqe));
432
433                 do {
434                         struct mlx5e_xdp_wqe_info *wi;
435                         u16 ci;
436
437                         last_wqe = (sqcc == wqe_counter);
438                         ci = mlx5_wq_cyc_ctr2ix(&sq->wq, sqcc);
439                         wi = &sq->db.wqe_info[ci];
440
441                         sqcc += wi->num_wqebbs;
442
443                         mlx5e_free_xdpsq_desc(sq, wi, &xsk_frames, true);
444                 } while (!last_wqe);
445         } while ((++i < MLX5E_TX_CQ_POLL_BUDGET) && (cqe = mlx5_cqwq_get_cqe(&cq->wq)));
446
447         if (xsk_frames)
448                 xsk_umem_complete_tx(sq->umem, xsk_frames);
449
450         sq->stats->cqes += i;
451
452         mlx5_cqwq_update_db_record(&cq->wq);
453
454         /* ensure cq space is freed before enabling more cqes */
455         wmb();
456
457         sq->cc = sqcc;
458         return (i == MLX5E_TX_CQ_POLL_BUDGET);
459 }
460
461 void mlx5e_free_xdpsq_descs(struct mlx5e_xdpsq *sq)
462 {
463         u32 xsk_frames = 0;
464
465         while (sq->cc != sq->pc) {
466                 struct mlx5e_xdp_wqe_info *wi;
467                 u16 ci;
468
469                 ci = mlx5_wq_cyc_ctr2ix(&sq->wq, sq->cc);
470                 wi = &sq->db.wqe_info[ci];
471
472                 sq->cc += wi->num_wqebbs;
473
474                 mlx5e_free_xdpsq_desc(sq, wi, &xsk_frames, false);
475         }
476
477         if (xsk_frames)
478                 xsk_umem_complete_tx(sq->umem, xsk_frames);
479 }
480
481 int mlx5e_xdp_xmit(struct net_device *dev, int n, struct xdp_frame **frames,
482                    u32 flags)
483 {
484         struct mlx5e_priv *priv = netdev_priv(dev);
485         struct mlx5e_xdpsq *sq;
486         int drops = 0;
487         int sq_num;
488         int i;
489
490         /* this flag is sufficient, no need to test internal sq state */
491         if (unlikely(!mlx5e_xdp_tx_is_enabled(priv)))
492                 return -ENETDOWN;
493
494         if (unlikely(flags & ~XDP_XMIT_FLAGS_MASK))
495                 return -EINVAL;
496
497         sq_num = smp_processor_id();
498
499         if (unlikely(sq_num >= priv->channels.num))
500                 return -ENXIO;
501
502         sq = &priv->channels.c[sq_num]->xdpsq;
503
504         for (i = 0; i < n; i++) {
505                 struct xdp_frame *xdpf = frames[i];
506                 struct mlx5e_xdp_xmit_data xdptxd;
507                 struct mlx5e_xdp_info xdpi;
508
509                 xdptxd.data = xdpf->data;
510                 xdptxd.len = xdpf->len;
511                 xdptxd.dma_addr = dma_map_single(sq->pdev, xdptxd.data,
512                                                  xdptxd.len, DMA_TO_DEVICE);
513
514                 if (unlikely(dma_mapping_error(sq->pdev, xdptxd.dma_addr))) {
515                         xdp_return_frame_rx_napi(xdpf);
516                         drops++;
517                         continue;
518                 }
519
520                 xdpi.mode           = MLX5E_XDP_XMIT_MODE_FRAME;
521                 xdpi.frame.xdpf     = xdpf;
522                 xdpi.frame.dma_addr = xdptxd.dma_addr;
523
524                 if (unlikely(!sq->xmit_xdp_frame(sq, &xdptxd, &xdpi, 0))) {
525                         dma_unmap_single(sq->pdev, xdptxd.dma_addr,
526                                          xdptxd.len, DMA_TO_DEVICE);
527                         xdp_return_frame_rx_napi(xdpf);
528                         drops++;
529                 }
530         }
531
532         if (flags & XDP_XMIT_FLUSH) {
533                 if (sq->mpwqe.wqe)
534                         mlx5e_xdp_mpwqe_complete(sq);
535                 mlx5e_xmit_xdp_doorbell(sq);
536         }
537
538         return n - drops;
539 }
540
541 void mlx5e_xdp_rx_poll_complete(struct mlx5e_rq *rq)
542 {
543         struct mlx5e_xdpsq *xdpsq = rq->xdpsq;
544
545         if (xdpsq->mpwqe.wqe)
546                 mlx5e_xdp_mpwqe_complete(xdpsq);
547
548         mlx5e_xmit_xdp_doorbell(xdpsq);
549
550         if (test_bit(MLX5E_RQ_FLAG_XDP_REDIRECT, rq->flags)) {
551                 xdp_do_flush_map();
552                 __clear_bit(MLX5E_RQ_FLAG_XDP_REDIRECT, rq->flags);
553         }
554 }
555
556 void mlx5e_set_xmit_fp(struct mlx5e_xdpsq *sq, bool is_mpw)
557 {
558         sq->xmit_xdp_frame_check = is_mpw ?
559                 mlx5e_xmit_xdp_frame_check_mpwqe : mlx5e_xmit_xdp_frame_check;
560         sq->xmit_xdp_frame = is_mpw ?
561                 mlx5e_xmit_xdp_frame_mpwqe : mlx5e_xmit_xdp_frame;
562 }
563