dll/3rdparty/libjpeg/jidctint.c

   1 /*
   2  * jidctint.c
   3  *
   4  * Copyright (C) 1991-1998, Thomas G. Lane.
   5  * Modification developed 2002-2015 by Guido Vollbeding.
   6  * This file is part of the Independent JPEG Group's software.
   7  * For conditions of distribution and use, see the accompanying README file.
   8  *
   9  * This file contains a slow-but-accurate integer implementation of the
  10  * inverse DCT (Discrete Cosine Transform).  In the IJG code, this routine
  11  * must also perform dequantization of the input coefficients.
  12  *
  13  * A 2-D IDCT can be done by 1-D IDCT on each column followed by 1-D IDCT
  14  * on each row (or vice versa, but it's more convenient to emit a row at
  15  * a time).  Direct algorithms are also available, but they are much more
  16  * complex and seem not to be any faster when reduced to code.
  17  *
  18  * This implementation is based on an algorithm described in
  19  *   C. Loeffler, A. Ligtenberg and G. Moschytz, "Practical Fast 1-D DCT
  20  *   Algorithms with 11 Multiplications", Proc. Int'l. Conf. on Acoustics,
  21  *   Speech, and Signal Processing 1989 (ICASSP '89), pp. 988-991.
  22  * The primary algorithm described there uses 11 multiplies and 29 adds.
  23  * We use their alternate method with 12 multiplies and 32 adds.
  24  * The advantage of this method is that no data path contains more than one
  25  * multiplication; this allows a very simple and accurate implementation in
  26  * scaled fixed-point arithmetic, with a minimal number of shifts.
  27  *
  28  * We also provide IDCT routines with various output sample block sizes for
  29  * direct resolution reduction or enlargement and for direct resolving the
  30  * common 2x1 and 1x2 subsampling cases without additional resampling: NxN
  31  * (N=1...16), 2NxN, and Nx2N (N=1...8) pixels for one 8x8 input DCT block.
  32  *
  33  * For N<8 we simply take the corresponding low-frequency coefficients of
  34  * the 8x8 input DCT block and apply an NxN point IDCT on the sub-block
  35  * to yield the downscaled outputs.
  36  * This can be seen as direct low-pass downsampling from the DCT domain
  37  * point of view rather than the usual spatial domain point of view,
  38  * yielding significant computational savings and results at least
  39  * as good as common bilinear (averaging) spatial downsampling.
  40  *
  41  * For N>8 we apply a partial NxN IDCT on the 8 input coefficients as
  42  * lower frequencies and higher frequencies assumed to be zero.
  43  * It turns out that the computational effort is similar to the 8x8 IDCT
  44  * regarding the output size.
  45  * Furthermore, the scaling and descaling is the same for all IDCT sizes.
  46  *
  47  * CAUTION: We rely on the FIX() macro except for the N=1,2,4,8 cases
  48  * since there would be too many additional constants to pre-calculate.
  49  */
  50
  51 #define JPEG_INTERNALS
  52 #include "jinclude.h"
  53 #include "jpeglib.h"
  54 #include "jdct.h"               /* Private declarations for DCT subsystem */
  55
  56 #ifdef DCT_ISLOW_SUPPORTED
  57
  58
  59 /*
  60  * This module is specialized to the case DCTSIZE = 8.
  61  */
  62
  63 #if DCTSIZE != 8
  64   Sorry, this code only copes with 8x8 DCT blocks. /* deliberate syntax err */
  65 #endif
  66
  67
  68 /*
  69  * The poop on this scaling stuff is as follows:
  70  *
  71  * Each 1-D IDCT step produces outputs which are a factor of sqrt(N)
  72  * larger than the true IDCT outputs.  The final outputs are therefore
  73  * a factor of N larger than desired; since N=8 this can be cured by
  74  * a simple right shift at the end of the algorithm.  The advantage of
  75  * this arrangement is that we save two multiplications per 1-D IDCT,
  76  * because the y0 and y4 inputs need not be divided by sqrt(N).
  77  *
  78  * We have to do addition and subtraction of the integer inputs, which
  79  * is no problem, and multiplication by fractional constants, which is
  80  * a problem to do in integer arithmetic.  We multiply all the constants
  81  * by CONST_SCALE and convert them to integer constants (thus retaining
  82  * CONST_BITS bits of precision in the constants).  After doing a
  83  * multiplication we have to divide the product by CONST_SCALE, with proper
  84  * rounding, to produce the correct output.  This division can be done
  85  * cheaply as a right shift of CONST_BITS bits.  We postpone shifting
  86  * as long as possible so that partial sums can be added together with
  87  * full fractional precision.
  88  *
  89  * The outputs of the first pass are scaled up by PASS1_BITS bits so that
  90  * they are represented to better-than-integral precision.  These outputs
  91  * require BITS_IN_JSAMPLE + PASS1_BITS + 3 bits; this fits in a 16-bit word
  92  * with the recommended scaling.  (To scale up 12-bit sample data further, an
  93  * intermediate INT32 array would be needed.)
  94  *
  95  * To avoid overflow of the 32-bit intermediate results in pass 2, we must
  96  * have BITS_IN_JSAMPLE + CONST_BITS + PASS1_BITS <= 26.  Error analysis
  97  * shows that the values given below are the most effective.
  98  */
  99
 100 #if BITS_IN_JSAMPLE == 8
 101 #define CONST_BITS  13
 102 #define PASS1_BITS  2
 103 #else
 104 #define CONST_BITS  13
 105 #define PASS1_BITS  1           /* lose a little precision to avoid overflow */
 106 #endif
 107
 108 /* Some C compilers fail to reduce "FIX(constant)" at compile time, thus
 109  * causing a lot of useless floating-point operations at run time.
 110  * To get around this we use the following pre-calculated constants.
 111  * If you change CONST_BITS you may want to add appropriate values.
 112  * (With a reasonable C compiler, you can just rely on the FIX() macro...)
 113  */
 114
 115 #if CONST_BITS == 13
 116 #define FIX_0_298631336  ((INT32)  2446)        /* FIX(0.298631336) */
 117 #define FIX_0_390180644  ((INT32)  3196)        /* FIX(0.390180644) */
 118 #define FIX_0_541196100  ((INT32)  4433)        /* FIX(0.541196100) */
 119 #define FIX_0_765366865  ((INT32)  6270)        /* FIX(0.765366865) */
 120 #define FIX_0_899976223  ((INT32)  7373)        /* FIX(0.899976223) */
 121 #define FIX_1_175875602  ((INT32)  9633)        /* FIX(1.175875602) */
 122 #define FIX_1_501321110  ((INT32)  12299)       /* FIX(1.501321110) */
 123 #define FIX_1_847759065  ((INT32)  15137)       /* FIX(1.847759065) */
 124 #define FIX_1_961570560  ((INT32)  16069)       /* FIX(1.961570560) */
 125 #define FIX_2_053119869  ((INT32)  16819)       /* FIX(2.053119869) */
 126 #define FIX_2_562915447  ((INT32)  20995)       /* FIX(2.562915447) */
 127 #define FIX_3_072711026  ((INT32)  25172)       /* FIX(3.072711026) */
 128 #else
 129 #define FIX_0_298631336  FIX(0.298631336)
 130 #define FIX_0_390180644  FIX(0.390180644)
 131 #define FIX_0_541196100  FIX(0.541196100)
 132 #define FIX_0_765366865  FIX(0.765366865)
 133 #define FIX_0_899976223  FIX(0.899976223)
 134 #define FIX_1_175875602  FIX(1.175875602)
 135 #define FIX_1_501321110  FIX(1.501321110)
 136 #define FIX_1_847759065  FIX(1.847759065)
 137 #define FIX_1_961570560  FIX(1.961570560)
 138 #define FIX_2_053119869  FIX(2.053119869)
 139 #define FIX_2_562915447  FIX(2.562915447)
 140 #define FIX_3_072711026  FIX(3.072711026)
 141 #endif
 142
 143
 144 /* Multiply an INT32 variable by an INT32 constant to yield an INT32 result.
 145  * For 8-bit samples with the recommended scaling, all the variable
 146  * and constant values involved are no more than 16 bits wide, so a
 147  * 16x16->32 bit multiply can be used instead of a full 32x32 multiply.
 148  * For 12-bit samples, a full 32-bit multiplication will be needed.
 149  */
 150
 151 #if BITS_IN_JSAMPLE == 8
 152 #define MULTIPLY(var,const)  MULTIPLY16C16(var,const)
 153 #else
 154 #define MULTIPLY(var,const)  ((var) * (const))
 155 #endif
 156
 157
 158 /* Dequantize a coefficient by multiplying it by the multiplier-table
 159  * entry; produce an int result.  In this module, both inputs and result
 160  * are 16 bits or less, so either int or short multiply will work.
 161  */
 162
 163 #define DEQUANTIZE(coef,quantval)  (((ISLOW_MULT_TYPE) (coef)) * (quantval))
 164
 165
 166 /*
 167  * Perform dequantization and inverse DCT on one block of coefficients.
 168  *
 169  * cK represents sqrt(2) * cos(K*pi/16).
 170  */
 171
 172 GLOBAL(void)
 173 jpeg_idct_islow (j_decompress_ptr cinfo, jpeg_component_info * compptr,
 174                  JCOEFPTR coef_block,
 175                  JSAMPARRAY output_buf, JDIMENSION output_col)
 176 {
 177   INT32 tmp0, tmp1, tmp2, tmp3;
 178   INT32 tmp10, tmp11, tmp12, tmp13;
 179   INT32 z1, z2, z3;
 180   JCOEFPTR inptr;
 181   ISLOW_MULT_TYPE * quantptr;
 182   int * wsptr;
 183   JSAMPROW outptr;
 184   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
 185   int ctr;
 186   int workspace[DCTSIZE2];      /* buffers data between passes */
 187   SHIFT_TEMPS
 188
 189   /* Pass 1: process columns from input, store into work array.
 190    * Note results are scaled up by sqrt(8) compared to a true IDCT;
 191    * furthermore, we scale the results by 2**PASS1_BITS.
 192    */
 193
 194   inptr = coef_block;
 195   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
 196   wsptr = workspace;
 197   for (ctr = DCTSIZE; ctr > 0; ctr--) {
 198     /* Due to quantization, we will usually find that many of the input
 199      * coefficients are zero, especially the AC terms.  We can exploit this
 200      * by short-circuiting the IDCT calculation for any column in which all
 201      * the AC terms are zero.  In that case each output is equal to the
 202      * DC coefficient (with scale factor as needed).
 203      * With typical images and quantization tables, half or more of the
 204      * column DCT calculations can be simplified this way.
 205      */
 206
 207     if (inptr[DCTSIZE*1] == 0 && inptr[DCTSIZE*2] == 0 &&
 208         inptr[DCTSIZE*3] == 0 && inptr[DCTSIZE*4] == 0 &&
 209         inptr[DCTSIZE*5] == 0 && inptr[DCTSIZE*6] == 0 &&
 210         inptr[DCTSIZE*7] == 0) {
 211       /* AC terms all zero */
 212       int dcval = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]) << PASS1_BITS;
 213
 214       wsptr[DCTSIZE*0] = dcval;
 215       wsptr[DCTSIZE*1] = dcval;
 216       wsptr[DCTSIZE*2] = dcval;
 217       wsptr[DCTSIZE*3] = dcval;
 218       wsptr[DCTSIZE*4] = dcval;
 219       wsptr[DCTSIZE*5] = dcval;
 220       wsptr[DCTSIZE*6] = dcval;
 221       wsptr[DCTSIZE*7] = dcval;
 222
 223       inptr++;                  /* advance pointers to next column */
 224       quantptr++;
 225       wsptr++;
 226       continue;
 227     }
 228
 229     /* Even part: reverse the even part of the forward DCT.
 230      * The rotator is c(-6).
 231      */
 232
 233     z2 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
 234     z3 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
 235     z2 <<= CONST_BITS;
 236     z3 <<= CONST_BITS;
 237     /* Add fudge factor here for final descale. */
 238     z2 += ONE << (CONST_BITS-PASS1_BITS-1);
 239
 240     tmp0 = z2 + z3;
 241     tmp1 = z2 - z3;
 242
 243     z2 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
 244     z3 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
 245
 246     z1 = MULTIPLY(z2 + z3, FIX_0_541196100);       /* c6 */
 247     tmp2 = z1 + MULTIPLY(z2, FIX_0_765366865);     /* c2-c6 */
 248     tmp3 = z1 - MULTIPLY(z3, FIX_1_847759065);     /* c2+c6 */
 249
 250     tmp10 = tmp0 + tmp2;
 251     tmp13 = tmp0 - tmp2;
 252     tmp11 = tmp1 + tmp3;
 253     tmp12 = tmp1 - tmp3;
 254
 255     /* Odd part per figure 8; the matrix is unitary and hence its
 256      * transpose is its inverse.  i0..i3 are y7,y5,y3,y1 respectively.
 257      */
 258
 259     tmp0 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
 260     tmp1 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
 261     tmp2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
 262     tmp3 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
 263
 264     z2 = tmp0 + tmp2;
 265     z3 = tmp1 + tmp3;
 266
 267     z1 = MULTIPLY(z2 + z3, FIX_1_175875602);       /*  c3 */
 268     z2 = MULTIPLY(z2, - FIX_1_961570560);          /* -c3-c5 */
 269     z3 = MULTIPLY(z3, - FIX_0_390180644);          /* -c3+c5 */
 270     z2 += z1;
 271     z3 += z1;
 272
 273     z1 = MULTIPLY(tmp0 + tmp3, - FIX_0_899976223); /* -c3+c7 */
 274     tmp0 = MULTIPLY(tmp0, FIX_0_298631336);        /* -c1+c3+c5-c7 */
 275     tmp3 = MULTIPLY(tmp3, FIX_1_501321110);        /*  c1+c3-c5-c7 */
 276     tmp0 += z1 + z2;
 277     tmp3 += z1 + z3;
 278
 279     z1 = MULTIPLY(tmp1 + tmp2, - FIX_2_562915447); /* -c1-c3 */
 280     tmp1 = MULTIPLY(tmp1, FIX_2_053119869);        /*  c1+c3-c5+c7 */
 281     tmp2 = MULTIPLY(tmp2, FIX_3_072711026);        /*  c1+c3+c5-c7 */
 282     tmp1 += z1 + z3;
 283     tmp2 += z1 + z2;
 284
 285     /* Final output stage: inputs are tmp10..tmp13, tmp0..tmp3 */
 286
 287     wsptr[DCTSIZE*0] = (int) RIGHT_SHIFT(tmp10 + tmp3, CONST_BITS-PASS1_BITS);
 288     wsptr[DCTSIZE*7] = (int) RIGHT_SHIFT(tmp10 - tmp3, CONST_BITS-PASS1_BITS);
 289     wsptr[DCTSIZE*1] = (int) RIGHT_SHIFT(tmp11 + tmp2, CONST_BITS-PASS1_BITS);
 290     wsptr[DCTSIZE*6] = (int) RIGHT_SHIFT(tmp11 - tmp2, CONST_BITS-PASS1_BITS);
 291     wsptr[DCTSIZE*2] = (int) RIGHT_SHIFT(tmp12 + tmp1, CONST_BITS-PASS1_BITS);
 292     wsptr[DCTSIZE*5] = (int) RIGHT_SHIFT(tmp12 - tmp1, CONST_BITS-PASS1_BITS);
 293     wsptr[DCTSIZE*3] = (int) RIGHT_SHIFT(tmp13 + tmp0, CONST_BITS-PASS1_BITS);
 294     wsptr[DCTSIZE*4] = (int) RIGHT_SHIFT(tmp13 - tmp0, CONST_BITS-PASS1_BITS);
 295
 296     inptr++;                    /* advance pointers to next column */
 297     quantptr++;
 298     wsptr++;
 299   }
 300
 301   /* Pass 2: process rows from work array, store into output array.
 302    * Note that we must descale the results by a factor of 8 == 2**3,
 303    * and also undo the PASS1_BITS scaling.
 304    */
 305
 306   wsptr = workspace;
 307   for (ctr = 0; ctr < DCTSIZE; ctr++) {
 308     outptr = output_buf[ctr] + output_col;
 309
 310     /* Add range center and fudge factor for final descale and range-limit. */
 311     z2 = (INT32) wsptr[0] +
 312            ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
 313             (ONE << (PASS1_BITS+2)));
 314
 315     /* Rows of zeroes can be exploited in the same way as we did with columns.
 316      * However, the column calculation has created many nonzero AC terms, so
 317      * the simplification applies less often (typically 5% to 10% of the time).
 318      * On machines with very fast multiplication, it's possible that the
 319      * test takes more time than it's worth.  In that case this section
 320      * may be commented out.
 321      */
 322
 323 #ifndef NO_ZERO_ROW_TEST
 324     if (wsptr[1] == 0 && wsptr[2] == 0 && wsptr[3] == 0 && wsptr[4] == 0 &&
 325         wsptr[5] == 0 && wsptr[6] == 0 && wsptr[7] == 0) {
 326       /* AC terms all zero */
 327       JSAMPLE dcval = range_limit[(int) RIGHT_SHIFT(z2, PASS1_BITS+3)
 328                                   & RANGE_MASK];
 329
 330       outptr[0] = dcval;
 331       outptr[1] = dcval;
 332       outptr[2] = dcval;
 333       outptr[3] = dcval;
 334       outptr[4] = dcval;
 335       outptr[5] = dcval;
 336       outptr[6] = dcval;
 337       outptr[7] = dcval;
 338
 339       wsptr += DCTSIZE;         /* advance pointer to next row */
 340       continue;
 341     }
 342 #endif
 343
 344     /* Even part: reverse the even part of the forward DCT.
 345      * The rotator is c(-6).
 346      */
 347
 348     z3 = (INT32) wsptr[4];
 349
 350     tmp0 = (z2 + z3) << CONST_BITS;
 351     tmp1 = (z2 - z3) << CONST_BITS;
 352
 353     z2 = (INT32) wsptr[2];
 354     z3 = (INT32) wsptr[6];
 355
 356     z1 = MULTIPLY(z2 + z3, FIX_0_541196100);       /* c6 */
 357     tmp2 = z1 + MULTIPLY(z2, FIX_0_765366865);     /* c2-c6 */
 358     tmp3 = z1 - MULTIPLY(z3, FIX_1_847759065);     /* c2+c6 */
 359
 360     tmp10 = tmp0 + tmp2;
 361     tmp13 = tmp0 - tmp2;
 362     tmp11 = tmp1 + tmp3;
 363     tmp12 = tmp1 - tmp3;
 364
 365     /* Odd part per figure 8; the matrix is unitary and hence its
 366      * transpose is its inverse.  i0..i3 are y7,y5,y3,y1 respectively.
 367      */
 368
 369     tmp0 = (INT32) wsptr[7];
 370     tmp1 = (INT32) wsptr[5];
 371     tmp2 = (INT32) wsptr[3];
 372     tmp3 = (INT32) wsptr[1];
 373
 374     z2 = tmp0 + tmp2;
 375     z3 = tmp1 + tmp3;
 376
 377     z1 = MULTIPLY(z2 + z3, FIX_1_175875602);       /*  c3 */
 378     z2 = MULTIPLY(z2, - FIX_1_961570560);          /* -c3-c5 */
 379     z3 = MULTIPLY(z3, - FIX_0_390180644);          /* -c3+c5 */
 380     z2 += z1;
 381     z3 += z1;
 382
 383     z1 = MULTIPLY(tmp0 + tmp3, - FIX_0_899976223); /* -c3+c7 */
 384     tmp0 = MULTIPLY(tmp0, FIX_0_298631336);        /* -c1+c3+c5-c7 */
 385     tmp3 = MULTIPLY(tmp3, FIX_1_501321110);        /*  c1+c3-c5-c7 */
 386     tmp0 += z1 + z2;
 387     tmp3 += z1 + z3;
 388
 389     z1 = MULTIPLY(tmp1 + tmp2, - FIX_2_562915447); /* -c1-c3 */
 390     tmp1 = MULTIPLY(tmp1, FIX_2_053119869);        /*  c1+c3-c5+c7 */
 391     tmp2 = MULTIPLY(tmp2, FIX_3_072711026);        /*  c1+c3+c5-c7 */
 392     tmp1 += z1 + z3;
 393     tmp2 += z1 + z2;
 394
 395     /* Final output stage: inputs are tmp10..tmp13, tmp0..tmp3 */
 396
 397     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp3,
 398                                               CONST_BITS+PASS1_BITS+3)
 399                             & RANGE_MASK];
 400     outptr[7] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp3,
 401                                               CONST_BITS+PASS1_BITS+3)
 402                             & RANGE_MASK];
 403     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp11 + tmp2,
 404                                               CONST_BITS+PASS1_BITS+3)
 405                             & RANGE_MASK];
 406     outptr[6] = range_limit[(int) RIGHT_SHIFT(tmp11 - tmp2,
 407                                               CONST_BITS+PASS1_BITS+3)
 408                             & RANGE_MASK];
 409     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp12 + tmp1,
 410                                               CONST_BITS+PASS1_BITS+3)
 411                             & RANGE_MASK];
 412     outptr[5] = range_limit[(int) RIGHT_SHIFT(tmp12 - tmp1,
 413                                               CONST_BITS+PASS1_BITS+3)
 414                             & RANGE_MASK];
 415     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp13 + tmp0,
 416                                               CONST_BITS+PASS1_BITS+3)
 417                             & RANGE_MASK];
 418     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp13 - tmp0,
 419                                               CONST_BITS+PASS1_BITS+3)
 420                             & RANGE_MASK];
 421
 422     wsptr += DCTSIZE;           /* advance pointer to next row */
 423   }
 424 }
 425
 426 #ifdef IDCT_SCALING_SUPPORTED
 427
 428
 429 /*
 430  * Perform dequantization and inverse DCT on one block of coefficients,
 431  * producing a 7x7 output block.
 432  *
 433  * Optimized algorithm with 12 multiplications in the 1-D kernel.
 434  * cK represents sqrt(2) * cos(K*pi/14).
 435  */
 436
 437 GLOBAL(void)
 438 jpeg_idct_7x7 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
 439                JCOEFPTR coef_block,
 440                JSAMPARRAY output_buf, JDIMENSION output_col)
 441 {
 442   INT32 tmp0, tmp1, tmp2, tmp10, tmp11, tmp12, tmp13;
 443   INT32 z1, z2, z3;
 444   JCOEFPTR inptr;
 445   ISLOW_MULT_TYPE * quantptr;
 446   int * wsptr;
 447   JSAMPROW outptr;
 448   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
 449   int ctr;
 450   int workspace[7*7];   /* buffers data between passes */
 451   SHIFT_TEMPS
 452
 453   /* Pass 1: process columns from input, store into work array. */
 454
 455   inptr = coef_block;
 456   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
 457   wsptr = workspace;
 458   for (ctr = 0; ctr < 7; ctr++, inptr++, quantptr++, wsptr++) {
 459     /* Even part */
 460
 461     tmp13 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
 462     tmp13 <<= CONST_BITS;
 463     /* Add fudge factor here for final descale. */
 464     tmp13 += ONE << (CONST_BITS-PASS1_BITS-1);
 465
 466     z1 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
 467     z2 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
 468     z3 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
 469
 470     tmp10 = MULTIPLY(z2 - z3, FIX(0.881747734));     /* c4 */
 471     tmp12 = MULTIPLY(z1 - z2, FIX(0.314692123));     /* c6 */
 472     tmp11 = tmp10 + tmp12 + tmp13 - MULTIPLY(z2, FIX(1.841218003)); /* c2+c4-c6 */
 473     tmp0 = z1 + z3;
 474     z2 -= tmp0;
 475     tmp0 = MULTIPLY(tmp0, FIX(1.274162392)) + tmp13; /* c2 */
 476     tmp10 += tmp0 - MULTIPLY(z3, FIX(0.077722536));  /* c2-c4-c6 */
 477     tmp12 += tmp0 - MULTIPLY(z1, FIX(2.470602249));  /* c2+c4+c6 */
 478     tmp13 += MULTIPLY(z2, FIX(1.414213562));         /* c0 */
 479
 480     /* Odd part */
 481
 482     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
 483     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
 484     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
 485
 486     tmp1 = MULTIPLY(z1 + z2, FIX(0.935414347));      /* (c3+c1-c5)/2 */
 487     tmp2 = MULTIPLY(z1 - z2, FIX(0.170262339));      /* (c3+c5-c1)/2 */
 488     tmp0 = tmp1 - tmp2;
 489     tmp1 += tmp2;
 490     tmp2 = MULTIPLY(z2 + z3, - FIX(1.378756276));    /* -c1 */
 491     tmp1 += tmp2;
 492     z2 = MULTIPLY(z1 + z3, FIX(0.613604268));        /* c5 */
 493     tmp0 += z2;
 494     tmp2 += z2 + MULTIPLY(z3, FIX(1.870828693));     /* c3+c1-c5 */
 495
 496     /* Final output stage */
 497
 498     wsptr[7*0] = (int) RIGHT_SHIFT(tmp10 + tmp0, CONST_BITS-PASS1_BITS);
 499     wsptr[7*6] = (int) RIGHT_SHIFT(tmp10 - tmp0, CONST_BITS-PASS1_BITS);
 500     wsptr[7*1] = (int) RIGHT_SHIFT(tmp11 + tmp1, CONST_BITS-PASS1_BITS);
 501     wsptr[7*5] = (int) RIGHT_SHIFT(tmp11 - tmp1, CONST_BITS-PASS1_BITS);
 502     wsptr[7*2] = (int) RIGHT_SHIFT(tmp12 + tmp2, CONST_BITS-PASS1_BITS);
 503     wsptr[7*4] = (int) RIGHT_SHIFT(tmp12 - tmp2, CONST_BITS-PASS1_BITS);
 504     wsptr[7*3] = (int) RIGHT_SHIFT(tmp13, CONST_BITS-PASS1_BITS);
 505   }
 506
 507   /* Pass 2: process 7 rows from work array, store into output array. */
 508
 509   wsptr = workspace;
 510   for (ctr = 0; ctr < 7; ctr++) {
 511     outptr = output_buf[ctr] + output_col;
 512
 513     /* Even part */
 514
 515     /* Add range center and fudge factor for final descale and range-limit. */
 516     tmp13 = (INT32) wsptr[0] +
 517               ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
 518                (ONE << (PASS1_BITS+2)));
 519     tmp13 <<= CONST_BITS;
 520
 521     z1 = (INT32) wsptr[2];
 522     z2 = (INT32) wsptr[4];
 523     z3 = (INT32) wsptr[6];
 524
 525     tmp10 = MULTIPLY(z2 - z3, FIX(0.881747734));     /* c4 */
 526     tmp12 = MULTIPLY(z1 - z2, FIX(0.314692123));     /* c6 */
 527     tmp11 = tmp10 + tmp12 + tmp13 - MULTIPLY(z2, FIX(1.841218003)); /* c2+c4-c6 */
 528     tmp0 = z1 + z3;
 529     z2 -= tmp0;
 530     tmp0 = MULTIPLY(tmp0, FIX(1.274162392)) + tmp13; /* c2 */
 531     tmp10 += tmp0 - MULTIPLY(z3, FIX(0.077722536));  /* c2-c4-c6 */
 532     tmp12 += tmp0 - MULTIPLY(z1, FIX(2.470602249));  /* c2+c4+c6 */
 533     tmp13 += MULTIPLY(z2, FIX(1.414213562));         /* c0 */
 534
 535     /* Odd part */
 536
 537     z1 = (INT32) wsptr[1];
 538     z2 = (INT32) wsptr[3];
 539     z3 = (INT32) wsptr[5];
 540
 541     tmp1 = MULTIPLY(z1 + z2, FIX(0.935414347));      /* (c3+c1-c5)/2 */
 542     tmp2 = MULTIPLY(z1 - z2, FIX(0.170262339));      /* (c3+c5-c1)/2 */
 543     tmp0 = tmp1 - tmp2;
 544     tmp1 += tmp2;
 545     tmp2 = MULTIPLY(z2 + z3, - FIX(1.378756276));    /* -c1 */
 546     tmp1 += tmp2;
 547     z2 = MULTIPLY(z1 + z3, FIX(0.613604268));        /* c5 */
 548     tmp0 += z2;
 549     tmp2 += z2 + MULTIPLY(z3, FIX(1.870828693));     /* c3+c1-c5 */
 550
 551     /* Final output stage */
 552
 553     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp0,
 554                                               CONST_BITS+PASS1_BITS+3)
 555                             & RANGE_MASK];
 556     outptr[6] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp0,
 557                                               CONST_BITS+PASS1_BITS+3)
 558                             & RANGE_MASK];
 559     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp11 + tmp1,
 560                                               CONST_BITS+PASS1_BITS+3)
 561                             & RANGE_MASK];
 562     outptr[5] = range_limit[(int) RIGHT_SHIFT(tmp11 - tmp1,
 563                                               CONST_BITS+PASS1_BITS+3)
 564                             & RANGE_MASK];
 565     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp12 + tmp2,
 566                                               CONST_BITS+PASS1_BITS+3)
 567                             & RANGE_MASK];
 568     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp12 - tmp2,
 569                                               CONST_BITS+PASS1_BITS+3)
 570                             & RANGE_MASK];
 571     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp13,
 572                                               CONST_BITS+PASS1_BITS+3)
 573                             & RANGE_MASK];
 574
 575     wsptr += 7;         /* advance pointer to next row */
 576   }
 577 }
 578
 579
 580 /*
 581  * Perform dequantization and inverse DCT on one block of coefficients,
 582  * producing a reduced-size 6x6 output block.
 583  *
 584  * Optimized algorithm with 3 multiplications in the 1-D kernel.
 585  * cK represents sqrt(2) * cos(K*pi/12).
 586  */
 587
 588 GLOBAL(void)
 589 jpeg_idct_6x6 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
 590                JCOEFPTR coef_block,
 591                JSAMPARRAY output_buf, JDIMENSION output_col)
 592 {
 593   INT32 tmp0, tmp1, tmp2, tmp10, tmp11, tmp12;
 594   INT32 z1, z2, z3;
 595   JCOEFPTR inptr;
 596   ISLOW_MULT_TYPE * quantptr;
 597   int * wsptr;
 598   JSAMPROW outptr;
 599   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
 600   int ctr;
 601   int workspace[6*6];   /* buffers data between passes */
 602   SHIFT_TEMPS
 603
 604   /* Pass 1: process columns from input, store into work array. */
 605
 606   inptr = coef_block;
 607   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
 608   wsptr = workspace;
 609   for (ctr = 0; ctr < 6; ctr++, inptr++, quantptr++, wsptr++) {
 610     /* Even part */
 611
 612     tmp0 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
 613     tmp0 <<= CONST_BITS;
 614     /* Add fudge factor here for final descale. */
 615     tmp0 += ONE << (CONST_BITS-PASS1_BITS-1);
 616     tmp2 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
 617     tmp10 = MULTIPLY(tmp2, FIX(0.707106781));   /* c4 */
 618     tmp1 = tmp0 + tmp10;
 619     tmp11 = RIGHT_SHIFT(tmp0 - tmp10 - tmp10, CONST_BITS-PASS1_BITS);
 620     tmp10 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
 621     tmp0 = MULTIPLY(tmp10, FIX(1.224744871));   /* c2 */
 622     tmp10 = tmp1 + tmp0;
 623     tmp12 = tmp1 - tmp0;
 624
 625     /* Odd part */
 626
 627     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
 628     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
 629     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
 630     tmp1 = MULTIPLY(z1 + z3, FIX(0.366025404)); /* c5 */
 631     tmp0 = tmp1 + ((z1 + z2) << CONST_BITS);
 632     tmp2 = tmp1 + ((z3 - z2) << CONST_BITS);
 633     tmp1 = (z1 - z2 - z3) << PASS1_BITS;
 634
 635     /* Final output stage */
 636
 637     wsptr[6*0] = (int) RIGHT_SHIFT(tmp10 + tmp0, CONST_BITS-PASS1_BITS);
 638     wsptr[6*5] = (int) RIGHT_SHIFT(tmp10 - tmp0, CONST_BITS-PASS1_BITS);
 639     wsptr[6*1] = (int) (tmp11 + tmp1);
 640     wsptr[6*4] = (int) (tmp11 - tmp1);
 641     wsptr[6*2] = (int) RIGHT_SHIFT(tmp12 + tmp2, CONST_BITS-PASS1_BITS);
 642     wsptr[6*3] = (int) RIGHT_SHIFT(tmp12 - tmp2, CONST_BITS-PASS1_BITS);
 643   }
 644
 645   /* Pass 2: process 6 rows from work array, store into output array. */
 646
 647   wsptr = workspace;
 648   for (ctr = 0; ctr < 6; ctr++) {
 649     outptr = output_buf[ctr] + output_col;
 650
 651     /* Even part */
 652
 653     /* Add range center and fudge factor for final descale and range-limit. */
 654     tmp0 = (INT32) wsptr[0] +
 655              ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
 656               (ONE << (PASS1_BITS+2)));
 657     tmp0 <<= CONST_BITS;
 658     tmp2 = (INT32) wsptr[4];
 659     tmp10 = MULTIPLY(tmp2, FIX(0.707106781));   /* c4 */
 660     tmp1 = tmp0 + tmp10;
 661     tmp11 = tmp0 - tmp10 - tmp10;
 662     tmp10 = (INT32) wsptr[2];
 663     tmp0 = MULTIPLY(tmp10, FIX(1.224744871));   /* c2 */
 664     tmp10 = tmp1 + tmp0;
 665     tmp12 = tmp1 - tmp0;
 666
 667     /* Odd part */
 668
 669     z1 = (INT32) wsptr[1];
 670     z2 = (INT32) wsptr[3];
 671     z3 = (INT32) wsptr[5];
 672     tmp1 = MULTIPLY(z1 + z3, FIX(0.366025404)); /* c5 */
 673     tmp0 = tmp1 + ((z1 + z2) << CONST_BITS);
 674     tmp2 = tmp1 + ((z3 - z2) << CONST_BITS);
 675     tmp1 = (z1 - z2 - z3) << CONST_BITS;
 676
 677     /* Final output stage */
 678
 679     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp0,
 680                                               CONST_BITS+PASS1_BITS+3)
 681                             & RANGE_MASK];
 682     outptr[5] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp0,
 683                                               CONST_BITS+PASS1_BITS+3)
 684                             & RANGE_MASK];
 685     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp11 + tmp1,
 686                                               CONST_BITS+PASS1_BITS+3)
 687                             & RANGE_MASK];
 688     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp11 - tmp1,
 689                                               CONST_BITS+PASS1_BITS+3)
 690                             & RANGE_MASK];
 691     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp12 + tmp2,
 692                                               CONST_BITS+PASS1_BITS+3)
 693                             & RANGE_MASK];
 694     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp12 - tmp2,
 695                                               CONST_BITS+PASS1_BITS+3)
 696                             & RANGE_MASK];
 697
 698     wsptr += 6;         /* advance pointer to next row */
 699   }
 700 }
 701
 702
 703 /*
 704  * Perform dequantization and inverse DCT on one block of coefficients,
 705  * producing a reduced-size 5x5 output block.
 706  *
 707  * Optimized algorithm with 5 multiplications in the 1-D kernel.
 708  * cK represents sqrt(2) * cos(K*pi/10).
 709  */
 710
 711 GLOBAL(void)
 712 jpeg_idct_5x5 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
 713                JCOEFPTR coef_block,
 714                JSAMPARRAY output_buf, JDIMENSION output_col)
 715 {
 716   INT32 tmp0, tmp1, tmp10, tmp11, tmp12;
 717   INT32 z1, z2, z3;
 718   JCOEFPTR inptr;
 719   ISLOW_MULT_TYPE * quantptr;
 720   int * wsptr;
 721   JSAMPROW outptr;
 722   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
 723   int ctr;
 724   int workspace[5*5];   /* buffers data between passes */
 725   SHIFT_TEMPS
 726
 727   /* Pass 1: process columns from input, store into work array. */
 728
 729   inptr = coef_block;
 730   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
 731   wsptr = workspace;
 732   for (ctr = 0; ctr < 5; ctr++, inptr++, quantptr++, wsptr++) {
 733     /* Even part */
 734
 735     tmp12 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
 736     tmp12 <<= CONST_BITS;
 737     /* Add fudge factor here for final descale. */
 738     tmp12 += ONE << (CONST_BITS-PASS1_BITS-1);
 739     tmp0 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
 740     tmp1 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
 741     z1 = MULTIPLY(tmp0 + tmp1, FIX(0.790569415)); /* (c2+c4)/2 */
 742     z2 = MULTIPLY(tmp0 - tmp1, FIX(0.353553391)); /* (c2-c4)/2 */
 743     z3 = tmp12 + z2;
 744     tmp10 = z3 + z1;
 745     tmp11 = z3 - z1;
 746     tmp12 -= z2 << 2;
 747
 748     /* Odd part */
 749
 750     z2 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
 751     z3 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
 752
 753     z1 = MULTIPLY(z2 + z3, FIX(0.831253876));     /* c3 */
 754     tmp0 = z1 + MULTIPLY(z2, FIX(0.513743148));   /* c1-c3 */
 755     tmp1 = z1 - MULTIPLY(z3, FIX(2.176250899));   /* c1+c3 */
 756
 757     /* Final output stage */
 758
 759     wsptr[5*0] = (int) RIGHT_SHIFT(tmp10 + tmp0, CONST_BITS-PASS1_BITS);
 760     wsptr[5*4] = (int) RIGHT_SHIFT(tmp10 - tmp0, CONST_BITS-PASS1_BITS);
 761     wsptr[5*1] = (int) RIGHT_SHIFT(tmp11 + tmp1, CONST_BITS-PASS1_BITS);
 762     wsptr[5*3] = (int) RIGHT_SHIFT(tmp11 - tmp1, CONST_BITS-PASS1_BITS);
 763     wsptr[5*2] = (int) RIGHT_SHIFT(tmp12, CONST_BITS-PASS1_BITS);
 764   }
 765
 766   /* Pass 2: process 5 rows from work array, store into output array. */
 767
 768   wsptr = workspace;
 769   for (ctr = 0; ctr < 5; ctr++) {
 770     outptr = output_buf[ctr] + output_col;
 771
 772     /* Even part */
 773
 774     /* Add range center and fudge factor for final descale and range-limit. */
 775     tmp12 = (INT32) wsptr[0] +
 776               ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
 777                (ONE << (PASS1_BITS+2)));
 778     tmp12 <<= CONST_BITS;
 779     tmp0 = (INT32) wsptr[2];
 780     tmp1 = (INT32) wsptr[4];
 781     z1 = MULTIPLY(tmp0 + tmp1, FIX(0.790569415)); /* (c2+c4)/2 */
 782     z2 = MULTIPLY(tmp0 - tmp1, FIX(0.353553391)); /* (c2-c4)/2 */
 783     z3 = tmp12 + z2;
 784     tmp10 = z3 + z1;
 785     tmp11 = z3 - z1;
 786     tmp12 -= z2 << 2;
 787
 788     /* Odd part */
 789
 790     z2 = (INT32) wsptr[1];
 791     z3 = (INT32) wsptr[3];
 792
 793     z1 = MULTIPLY(z2 + z3, FIX(0.831253876));     /* c3 */
 794     tmp0 = z1 + MULTIPLY(z2, FIX(0.513743148));   /* c1-c3 */
 795     tmp1 = z1 - MULTIPLY(z3, FIX(2.176250899));   /* c1+c3 */
 796
 797     /* Final output stage */
 798
 799     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp0,
 800                                               CONST_BITS+PASS1_BITS+3)
 801                             & RANGE_MASK];
 802     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp0,
 803                                               CONST_BITS+PASS1_BITS+3)
 804                             & RANGE_MASK];
 805     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp11 + tmp1,
 806                                               CONST_BITS+PASS1_BITS+3)
 807                             & RANGE_MASK];
 808     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp11 - tmp1,
 809                                               CONST_BITS+PASS1_BITS+3)
 810                             & RANGE_MASK];
 811     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp12,
 812                                               CONST_BITS+PASS1_BITS+3)
 813                             & RANGE_MASK];
 814
 815     wsptr += 5;         /* advance pointer to next row */
 816   }
 817 }
 818
 819
 820 /*
 821  * Perform dequantization and inverse DCT on one block of coefficients,
 822  * producing a reduced-size 4x4 output block.
 823  *
 824  * Optimized algorithm with 3 multiplications in the 1-D kernel.
 825  * cK represents sqrt(2) * cos(K*pi/16) [refers to 8-point IDCT].
 826  */
 827
 828 GLOBAL(void)
 829 jpeg_idct_4x4 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
 830                JCOEFPTR coef_block,
 831                JSAMPARRAY output_buf, JDIMENSION output_col)
 832 {
 833   INT32 tmp0, tmp2, tmp10, tmp12;
 834   INT32 z1, z2, z3;
 835   JCOEFPTR inptr;
 836   ISLOW_MULT_TYPE * quantptr;
 837   int * wsptr;
 838   JSAMPROW outptr;
 839   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
 840   int ctr;
 841   int workspace[4*4];   /* buffers data between passes */
 842   SHIFT_TEMPS
 843
 844   /* Pass 1: process columns from input, store into work array. */
 845
 846   inptr = coef_block;
 847   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
 848   wsptr = workspace;
 849   for (ctr = 0; ctr < 4; ctr++, inptr++, quantptr++, wsptr++) {
 850     /* Even part */
 851
 852     tmp0 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
 853     tmp2 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
 854
 855     tmp10 = (tmp0 + tmp2) << PASS1_BITS;
 856     tmp12 = (tmp0 - tmp2) << PASS1_BITS;
 857
 858     /* Odd part */
 859     /* Same rotation as in the even part of the 8x8 LL&M IDCT */
 860
 861     z2 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
 862     z3 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
 863
 864     z1 = MULTIPLY(z2 + z3, FIX_0_541196100);               /* c6 */
 865     /* Add fudge factor here for final descale. */
 866     z1 += ONE << (CONST_BITS-PASS1_BITS-1);
 867     tmp0 = RIGHT_SHIFT(z1 + MULTIPLY(z2, FIX_0_765366865), /* c2-c6 */
 868                        CONST_BITS-PASS1_BITS);
 869     tmp2 = RIGHT_SHIFT(z1 - MULTIPLY(z3, FIX_1_847759065), /* c2+c6 */
 870                        CONST_BITS-PASS1_BITS);
 871
 872     /* Final output stage */
 873
 874     wsptr[4*0] = (int) (tmp10 + tmp0);
 875     wsptr[4*3] = (int) (tmp10 - tmp0);
 876     wsptr[4*1] = (int) (tmp12 + tmp2);
 877     wsptr[4*2] = (int) (tmp12 - tmp2);
 878   }
 879
 880   /* Pass 2: process 4 rows from work array, store into output array. */
 881
 882   wsptr = workspace;
 883   for (ctr = 0; ctr < 4; ctr++) {
 884     outptr = output_buf[ctr] + output_col;
 885
 886     /* Even part */
 887
 888     /* Add range center and fudge factor for final descale and range-limit. */
 889     tmp0 = (INT32) wsptr[0] +
 890              ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
 891               (ONE << (PASS1_BITS+2)));
 892     tmp2 = (INT32) wsptr[2];
 893
 894     tmp10 = (tmp0 + tmp2) << CONST_BITS;
 895     tmp12 = (tmp0 - tmp2) << CONST_BITS;
 896
 897     /* Odd part */
 898     /* Same rotation as in the even part of the 8x8 LL&M IDCT */
 899
 900     z2 = (INT32) wsptr[1];
 901     z3 = (INT32) wsptr[3];
 902
 903     z1 = MULTIPLY(z2 + z3, FIX_0_541196100);   /* c6 */
 904     tmp0 = z1 + MULTIPLY(z2, FIX_0_765366865); /* c2-c6 */
 905     tmp2 = z1 - MULTIPLY(z3, FIX_1_847759065); /* c2+c6 */
 906
 907     /* Final output stage */
 908
 909     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp0,
 910                                               CONST_BITS+PASS1_BITS+3)
 911                             & RANGE_MASK];
 912     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp0,
 913                                               CONST_BITS+PASS1_BITS+3)
 914                             & RANGE_MASK];
 915     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp12 + tmp2,
 916                                               CONST_BITS+PASS1_BITS+3)
 917                             & RANGE_MASK];
 918     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp12 - tmp2,
 919                                               CONST_BITS+PASS1_BITS+3)
 920                             & RANGE_MASK];
 921
 922     wsptr += 4;         /* advance pointer to next row */
 923   }
 924 }
 925
 926
 927 /*
 928  * Perform dequantization and inverse DCT on one block of coefficients,
 929  * producing a reduced-size 3x3 output block.
 930  *
 931  * Optimized algorithm with 2 multiplications in the 1-D kernel.
 932  * cK represents sqrt(2) * cos(K*pi/6).
 933  */
 934
 935 GLOBAL(void)
 936 jpeg_idct_3x3 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
 937                JCOEFPTR coef_block,
 938                JSAMPARRAY output_buf, JDIMENSION output_col)
 939 {
 940   INT32 tmp0, tmp2, tmp10, tmp12;
 941   JCOEFPTR inptr;
 942   ISLOW_MULT_TYPE * quantptr;
 943   int * wsptr;
 944   JSAMPROW outptr;
 945   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
 946   int ctr;
 947   int workspace[3*3];   /* buffers data between passes */
 948   SHIFT_TEMPS
 949
 950   /* Pass 1: process columns from input, store into work array. */
 951
 952   inptr = coef_block;
 953   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
 954   wsptr = workspace;
 955   for (ctr = 0; ctr < 3; ctr++, inptr++, quantptr++, wsptr++) {
 956     /* Even part */
 957
 958     tmp0 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
 959     tmp0 <<= CONST_BITS;
 960     /* Add fudge factor here for final descale. */
 961     tmp0 += ONE << (CONST_BITS-PASS1_BITS-1);
 962     tmp2 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
 963     tmp12 = MULTIPLY(tmp2, FIX(0.707106781)); /* c2 */
 964     tmp10 = tmp0 + tmp12;
 965     tmp2 = tmp0 - tmp12 - tmp12;
 966
 967     /* Odd part */
 968
 969     tmp12 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
 970     tmp0 = MULTIPLY(tmp12, FIX(1.224744871)); /* c1 */
 971
 972     /* Final output stage */
 973
 974     wsptr[3*0] = (int) RIGHT_SHIFT(tmp10 + tmp0, CONST_BITS-PASS1_BITS);
 975     wsptr[3*2] = (int) RIGHT_SHIFT(tmp10 - tmp0, CONST_BITS-PASS1_BITS);
 976     wsptr[3*1] = (int) RIGHT_SHIFT(tmp2, CONST_BITS-PASS1_BITS);
 977   }
 978
 979   /* Pass 2: process 3 rows from work array, store into output array. */
 980
 981   wsptr = workspace;
 982   for (ctr = 0; ctr < 3; ctr++) {
 983     outptr = output_buf[ctr] + output_col;
 984
 985     /* Even part */
 986
 987     /* Add range center and fudge factor for final descale and range-limit. */
 988     tmp0 = (INT32) wsptr[0] +
 989              ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
 990               (ONE << (PASS1_BITS+2)));
 991     tmp0 <<= CONST_BITS;
 992     tmp2 = (INT32) wsptr[2];
 993     tmp12 = MULTIPLY(tmp2, FIX(0.707106781)); /* c2 */
 994     tmp10 = tmp0 + tmp12;
 995     tmp2 = tmp0 - tmp12 - tmp12;
 996
 997     /* Odd part */
 998
 999     tmp12 = (INT32) wsptr[1];
1000     tmp0 = MULTIPLY(tmp12, FIX(1.224744871)); /* c1 */
1001
1002     /* Final output stage */
1003
1004     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp0,
1005                                               CONST_BITS+PASS1_BITS+3)
1006                             & RANGE_MASK];
1007     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp0,
1008                                               CONST_BITS+PASS1_BITS+3)
1009                             & RANGE_MASK];
1010     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp2,
1011                                               CONST_BITS+PASS1_BITS+3)
1012                             & RANGE_MASK];
1013
1014     wsptr += 3;         /* advance pointer to next row */
1015   }
1016 }
1017
1018
1019 /*
1020  * Perform dequantization and inverse DCT on one block of coefficients,
1021  * producing a reduced-size 2x2 output block.
1022  *
1023  * Multiplication-less algorithm.
1024  */
1025
1026 GLOBAL(void)
1027 jpeg_idct_2x2 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
1028                JCOEFPTR coef_block,
1029                JSAMPARRAY output_buf, JDIMENSION output_col)
1030 {
1031   DCTELEM tmp0, tmp1, tmp2, tmp3, tmp4, tmp5;
1032   ISLOW_MULT_TYPE * quantptr;
1033   JSAMPROW outptr;
1034   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
1035   ISHIFT_TEMPS
1036
1037   /* Pass 1: process columns from input. */
1038
1039   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
1040
1041   /* Column 0 */
1042   tmp4 = DEQUANTIZE(coef_block[DCTSIZE*0], quantptr[DCTSIZE*0]);
1043   tmp5 = DEQUANTIZE(coef_block[DCTSIZE*1], quantptr[DCTSIZE*1]);
1044   /* Add range center and fudge factor for final descale and range-limit. */
1045   tmp4 += (((DCTELEM) RANGE_CENTER) << 3) + (1 << 2);
1046
1047   tmp0 = tmp4 + tmp5;
1048   tmp2 = tmp4 - tmp5;
1049
1050   /* Column 1 */
1051   tmp4 = DEQUANTIZE(coef_block[DCTSIZE*0+1], quantptr[DCTSIZE*0+1]);
1052   tmp5 = DEQUANTIZE(coef_block[DCTSIZE*1+1], quantptr[DCTSIZE*1+1]);
1053
1054   tmp1 = tmp4 + tmp5;
1055   tmp3 = tmp4 - tmp5;
1056
1057   /* Pass 2: process 2 rows, store into output array. */
1058
1059   /* Row 0 */
1060   outptr = output_buf[0] + output_col;
1061
1062   outptr[0] = range_limit[(int) IRIGHT_SHIFT(tmp0 + tmp1, 3) & RANGE_MASK];
1063   outptr[1] = range_limit[(int) IRIGHT_SHIFT(tmp0 - tmp1, 3) & RANGE_MASK];
1064
1065   /* Row 1 */
1066   outptr = output_buf[1] + output_col;
1067
1068   outptr[0] = range_limit[(int) IRIGHT_SHIFT(tmp2 + tmp3, 3) & RANGE_MASK];
1069   outptr[1] = range_limit[(int) IRIGHT_SHIFT(tmp2 - tmp3, 3) & RANGE_MASK];
1070 }
1071
1072
1073 /*
1074  * Perform dequantization and inverse DCT on one block of coefficients,
1075  * producing a reduced-size 1x1 output block.
1076  *
1077  * We hardly need an inverse DCT routine for this: just take the
1078  * average pixel value, which is one-eighth of the DC coefficient.
1079  */
1080
1081 GLOBAL(void)
1082 jpeg_idct_1x1 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
1083                JCOEFPTR coef_block,
1084                JSAMPARRAY output_buf, JDIMENSION output_col)
1085 {
1086   DCTELEM dcval;
1087   ISLOW_MULT_TYPE * quantptr;
1088   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
1089   ISHIFT_TEMPS
1090
1091   /* 1x1 is trivial: just take the DC coefficient divided by 8. */
1092
1093   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
1094
1095   dcval = DEQUANTIZE(coef_block[0], quantptr[0]);
1096   /* Add range center and fudge factor for descale and range-limit. */
1097   dcval += (((DCTELEM) RANGE_CENTER) << 3) + (1 << 2);
1098
1099   output_buf[0][output_col] =
1100     range_limit[(int) IRIGHT_SHIFT(dcval, 3) & RANGE_MASK];
1101 }
1102
1103
1104 /*
1105  * Perform dequantization and inverse DCT on one block of coefficients,
1106  * producing a 9x9 output block.
1107  *
1108  * Optimized algorithm with 10 multiplications in the 1-D kernel.
1109  * cK represents sqrt(2) * cos(K*pi/18).
1110  */
1111
1112 GLOBAL(void)
1113 jpeg_idct_9x9 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
1114                JCOEFPTR coef_block,
1115                JSAMPARRAY output_buf, JDIMENSION output_col)
1116 {
1117   INT32 tmp0, tmp1, tmp2, tmp3, tmp10, tmp11, tmp12, tmp13, tmp14;
1118   INT32 z1, z2, z3, z4;
1119   JCOEFPTR inptr;
1120   ISLOW_MULT_TYPE * quantptr;
1121   int * wsptr;
1122   JSAMPROW outptr;
1123   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
1124   int ctr;
1125   int workspace[8*9];   /* buffers data between passes */
1126   SHIFT_TEMPS
1127
1128   /* Pass 1: process columns from input, store into work array. */
1129
1130   inptr = coef_block;
1131   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
1132   wsptr = workspace;
1133   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
1134     /* Even part */
1135
1136     tmp0 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
1137     tmp0 <<= CONST_BITS;
1138     /* Add fudge factor here for final descale. */
1139     tmp0 += ONE << (CONST_BITS-PASS1_BITS-1);
1140
1141     z1 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
1142     z2 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
1143     z3 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
1144
1145     tmp3 = MULTIPLY(z3, FIX(0.707106781));      /* c6 */
1146     tmp1 = tmp0 + tmp3;
1147     tmp2 = tmp0 - tmp3 - tmp3;
1148
1149     tmp0 = MULTIPLY(z1 - z2, FIX(0.707106781)); /* c6 */
1150     tmp11 = tmp2 + tmp0;
1151     tmp14 = tmp2 - tmp0 - tmp0;
1152
1153     tmp0 = MULTIPLY(z1 + z2, FIX(1.328926049)); /* c2 */
1154     tmp2 = MULTIPLY(z1, FIX(1.083350441));      /* c4 */
1155     tmp3 = MULTIPLY(z2, FIX(0.245575608));      /* c8 */
1156
1157     tmp10 = tmp1 + tmp0 - tmp3;
1158     tmp12 = tmp1 - tmp0 + tmp2;
1159     tmp13 = tmp1 - tmp2 + tmp3;
1160
1161     /* Odd part */
1162
1163     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
1164     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
1165     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
1166     z4 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
1167
1168     z2 = MULTIPLY(z2, - FIX(1.224744871));           /* -c3 */
1169
1170     tmp2 = MULTIPLY(z1 + z3, FIX(0.909038955));      /* c5 */
1171     tmp3 = MULTIPLY(z1 + z4, FIX(0.483689525));      /* c7 */
1172     tmp0 = tmp2 + tmp3 - z2;
1173     tmp1 = MULTIPLY(z3 - z4, FIX(1.392728481));      /* c1 */
1174     tmp2 += z2 - tmp1;
1175     tmp3 += z2 + tmp1;
1176     tmp1 = MULTIPLY(z1 - z3 - z4, FIX(1.224744871)); /* c3 */
1177
1178     /* Final output stage */
1179
1180     wsptr[8*0] = (int) RIGHT_SHIFT(tmp10 + tmp0, CONST_BITS-PASS1_BITS);
1181     wsptr[8*8] = (int) RIGHT_SHIFT(tmp10 - tmp0, CONST_BITS-PASS1_BITS);
1182     wsptr[8*1] = (int) RIGHT_SHIFT(tmp11 + tmp1, CONST_BITS-PASS1_BITS);
1183     wsptr[8*7] = (int) RIGHT_SHIFT(tmp11 - tmp1, CONST_BITS-PASS1_BITS);
1184     wsptr[8*2] = (int) RIGHT_SHIFT(tmp12 + tmp2, CONST_BITS-PASS1_BITS);
1185     wsptr[8*6] = (int) RIGHT_SHIFT(tmp12 - tmp2, CONST_BITS-PASS1_BITS);
1186     wsptr[8*3] = (int) RIGHT_SHIFT(tmp13 + tmp3, CONST_BITS-PASS1_BITS);
1187     wsptr[8*5] = (int) RIGHT_SHIFT(tmp13 - tmp3, CONST_BITS-PASS1_BITS);
1188     wsptr[8*4] = (int) RIGHT_SHIFT(tmp14, CONST_BITS-PASS1_BITS);
1189   }
1190
1191   /* Pass 2: process 9 rows from work array, store into output array. */
1192
1193   wsptr = workspace;
1194   for (ctr = 0; ctr < 9; ctr++) {
1195     outptr = output_buf[ctr] + output_col;
1196
1197     /* Even part */
1198
1199     /* Add range center and fudge factor for final descale and range-limit. */
1200     tmp0 = (INT32) wsptr[0] +
1201              ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
1202               (ONE << (PASS1_BITS+2)));
1203     tmp0 <<= CONST_BITS;
1204
1205     z1 = (INT32) wsptr[2];
1206     z2 = (INT32) wsptr[4];
1207     z3 = (INT32) wsptr[6];
1208
1209     tmp3 = MULTIPLY(z3, FIX(0.707106781));      /* c6 */
1210     tmp1 = tmp0 + tmp3;
1211     tmp2 = tmp0 - tmp3 - tmp3;
1212
1213     tmp0 = MULTIPLY(z1 - z2, FIX(0.707106781)); /* c6 */
1214     tmp11 = tmp2 + tmp0;
1215     tmp14 = tmp2 - tmp0 - tmp0;
1216
1217     tmp0 = MULTIPLY(z1 + z2, FIX(1.328926049)); /* c2 */
1218     tmp2 = MULTIPLY(z1, FIX(1.083350441));      /* c4 */
1219     tmp3 = MULTIPLY(z2, FIX(0.245575608));      /* c8 */
1220
1221     tmp10 = tmp1 + tmp0 - tmp3;
1222     tmp12 = tmp1 - tmp0 + tmp2;
1223     tmp13 = tmp1 - tmp2 + tmp3;
1224
1225     /* Odd part */
1226
1227     z1 = (INT32) wsptr[1];
1228     z2 = (INT32) wsptr[3];
1229     z3 = (INT32) wsptr[5];
1230     z4 = (INT32) wsptr[7];
1231
1232     z2 = MULTIPLY(z2, - FIX(1.224744871));           /* -c3 */
1233
1234     tmp2 = MULTIPLY(z1 + z3, FIX(0.909038955));      /* c5 */
1235     tmp3 = MULTIPLY(z1 + z4, FIX(0.483689525));      /* c7 */
1236     tmp0 = tmp2 + tmp3 - z2;
1237     tmp1 = MULTIPLY(z3 - z4, FIX(1.392728481));      /* c1 */
1238     tmp2 += z2 - tmp1;
1239     tmp3 += z2 + tmp1;
1240     tmp1 = MULTIPLY(z1 - z3 - z4, FIX(1.224744871)); /* c3 */
1241
1242     /* Final output stage */
1243
1244     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp0,
1245                                               CONST_BITS+PASS1_BITS+3)
1246                             & RANGE_MASK];
1247     outptr[8] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp0,
1248                                               CONST_BITS+PASS1_BITS+3)
1249                             & RANGE_MASK];
1250     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp11 + tmp1,
1251                                               CONST_BITS+PASS1_BITS+3)
1252                             & RANGE_MASK];
1253     outptr[7] = range_limit[(int) RIGHT_SHIFT(tmp11 - tmp1,
1254                                               CONST_BITS+PASS1_BITS+3)
1255                             & RANGE_MASK];
1256     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp12 + tmp2,
1257                                               CONST_BITS+PASS1_BITS+3)
1258                             & RANGE_MASK];
1259     outptr[6] = range_limit[(int) RIGHT_SHIFT(tmp12 - tmp2,
1260                                               CONST_BITS+PASS1_BITS+3)
1261                             & RANGE_MASK];
1262     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp13 + tmp3,
1263                                               CONST_BITS+PASS1_BITS+3)
1264                             & RANGE_MASK];
1265     outptr[5] = range_limit[(int) RIGHT_SHIFT(tmp13 - tmp3,
1266                                               CONST_BITS+PASS1_BITS+3)
1267                             & RANGE_MASK];
1268     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp14,
1269                                               CONST_BITS+PASS1_BITS+3)
1270                             & RANGE_MASK];
1271
1272     wsptr += 8;         /* advance pointer to next row */
1273   }
1274 }
1275
1276
1277 /*
1278  * Perform dequantization and inverse DCT on one block of coefficients,
1279  * producing a 10x10 output block.
1280  *
1281  * Optimized algorithm with 12 multiplications in the 1-D kernel.
1282  * cK represents sqrt(2) * cos(K*pi/20).
1283  */
1284
1285 GLOBAL(void)
1286 jpeg_idct_10x10 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
1287                  JCOEFPTR coef_block,
1288                  JSAMPARRAY output_buf, JDIMENSION output_col)
1289 {
1290   INT32 tmp10, tmp11, tmp12, tmp13, tmp14;
1291   INT32 tmp20, tmp21, tmp22, tmp23, tmp24;
1292   INT32 z1, z2, z3, z4, z5;
1293   JCOEFPTR inptr;
1294   ISLOW_MULT_TYPE * quantptr;
1295   int * wsptr;
1296   JSAMPROW outptr;
1297   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
1298   int ctr;
1299   int workspace[8*10];  /* buffers data between passes */
1300   SHIFT_TEMPS
1301
1302   /* Pass 1: process columns from input, store into work array. */
1303
1304   inptr = coef_block;
1305   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
1306   wsptr = workspace;
1307   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
1308     /* Even part */
1309
1310     z3 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
1311     z3 <<= CONST_BITS;
1312     /* Add fudge factor here for final descale. */
1313     z3 += ONE << (CONST_BITS-PASS1_BITS-1);
1314     z4 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
1315     z1 = MULTIPLY(z4, FIX(1.144122806));         /* c4 */
1316     z2 = MULTIPLY(z4, FIX(0.437016024));         /* c8 */
1317     tmp10 = z3 + z1;
1318     tmp11 = z3 - z2;
1319
1320     tmp22 = RIGHT_SHIFT(z3 - ((z1 - z2) << 1),   /* c0 = (c4-c8)*2 */
1321                         CONST_BITS-PASS1_BITS);
1322
1323     z2 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
1324     z3 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
1325
1326     z1 = MULTIPLY(z2 + z3, FIX(0.831253876));    /* c6 */
1327     tmp12 = z1 + MULTIPLY(z2, FIX(0.513743148)); /* c2-c6 */
1328     tmp13 = z1 - MULTIPLY(z3, FIX(2.176250899)); /* c2+c6 */
1329
1330     tmp20 = tmp10 + tmp12;
1331     tmp24 = tmp10 - tmp12;
1332     tmp21 = tmp11 + tmp13;
1333     tmp23 = tmp11 - tmp13;
1334
1335     /* Odd part */
1336
1337     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
1338     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
1339     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
1340     z4 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
1341
1342     tmp11 = z2 + z4;
1343     tmp13 = z2 - z4;
1344
1345     tmp12 = MULTIPLY(tmp13, FIX(0.309016994));        /* (c3-c7)/2 */
1346     z5 = z3 << CONST_BITS;
1347
1348     z2 = MULTIPLY(tmp11, FIX(0.951056516));           /* (c3+c7)/2 */
1349     z4 = z5 + tmp12;
1350
1351     tmp10 = MULTIPLY(z1, FIX(1.396802247)) + z2 + z4; /* c1 */
1352     tmp14 = MULTIPLY(z1, FIX(0.221231742)) - z2 + z4; /* c9 */
1353
1354     z2 = MULTIPLY(tmp11, FIX(0.587785252));           /* (c1-c9)/2 */
1355     z4 = z5 - tmp12 - (tmp13 << (CONST_BITS - 1));
1356
1357     tmp12 = (z1 - tmp13 - z3) << PASS1_BITS;
1358
1359     tmp11 = MULTIPLY(z1, FIX(1.260073511)) - z2 - z4; /* c3 */
1360     tmp13 = MULTIPLY(z1, FIX(0.642039522)) - z2 + z4; /* c7 */
1361
1362     /* Final output stage */
1363
1364     wsptr[8*0] = (int) RIGHT_SHIFT(tmp20 + tmp10, CONST_BITS-PASS1_BITS);
1365     wsptr[8*9] = (int) RIGHT_SHIFT(tmp20 - tmp10, CONST_BITS-PASS1_BITS);
1366     wsptr[8*1] = (int) RIGHT_SHIFT(tmp21 + tmp11, CONST_BITS-PASS1_BITS);
1367     wsptr[8*8] = (int) RIGHT_SHIFT(tmp21 - tmp11, CONST_BITS-PASS1_BITS);
1368     wsptr[8*2] = (int) (tmp22 + tmp12);
1369     wsptr[8*7] = (int) (tmp22 - tmp12);
1370     wsptr[8*3] = (int) RIGHT_SHIFT(tmp23 + tmp13, CONST_BITS-PASS1_BITS);
1371     wsptr[8*6] = (int) RIGHT_SHIFT(tmp23 - tmp13, CONST_BITS-PASS1_BITS);
1372     wsptr[8*4] = (int) RIGHT_SHIFT(tmp24 + tmp14, CONST_BITS-PASS1_BITS);
1373     wsptr[8*5] = (int) RIGHT_SHIFT(tmp24 - tmp14, CONST_BITS-PASS1_BITS);
1374   }
1375
1376   /* Pass 2: process 10 rows from work array, store into output array. */
1377
1378   wsptr = workspace;
1379   for (ctr = 0; ctr < 10; ctr++) {
1380     outptr = output_buf[ctr] + output_col;
1381
1382     /* Even part */
1383
1384     /* Add range center and fudge factor for final descale and range-limit. */
1385     z3 = (INT32) wsptr[0] +
1386            ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
1387             (ONE << (PASS1_BITS+2)));
1388     z3 <<= CONST_BITS;
1389     z4 = (INT32) wsptr[4];
1390     z1 = MULTIPLY(z4, FIX(1.144122806));         /* c4 */
1391     z2 = MULTIPLY(z4, FIX(0.437016024));         /* c8 */
1392     tmp10 = z3 + z1;
1393     tmp11 = z3 - z2;
1394
1395     tmp22 = z3 - ((z1 - z2) << 1);               /* c0 = (c4-c8)*2 */
1396
1397     z2 = (INT32) wsptr[2];
1398     z3 = (INT32) wsptr[6];
1399
1400     z1 = MULTIPLY(z2 + z3, FIX(0.831253876));    /* c6 */
1401     tmp12 = z1 + MULTIPLY(z2, FIX(0.513743148)); /* c2-c6 */
1402     tmp13 = z1 - MULTIPLY(z3, FIX(2.176250899)); /* c2+c6 */
1403
1404     tmp20 = tmp10 + tmp12;
1405     tmp24 = tmp10 - tmp12;
1406     tmp21 = tmp11 + tmp13;
1407     tmp23 = tmp11 - tmp13;
1408
1409     /* Odd part */
1410
1411     z1 = (INT32) wsptr[1];
1412     z2 = (INT32) wsptr[3];
1413     z3 = (INT32) wsptr[5];
1414     z3 <<= CONST_BITS;
1415     z4 = (INT32) wsptr[7];
1416
1417     tmp11 = z2 + z4;
1418     tmp13 = z2 - z4;
1419
1420     tmp12 = MULTIPLY(tmp13, FIX(0.309016994));        /* (c3-c7)/2 */
1421
1422     z2 = MULTIPLY(tmp11, FIX(0.951056516));           /* (c3+c7)/2 */
1423     z4 = z3 + tmp12;
1424
1425     tmp10 = MULTIPLY(z1, FIX(1.396802247)) + z2 + z4; /* c1 */
1426     tmp14 = MULTIPLY(z1, FIX(0.221231742)) - z2 + z4; /* c9 */
1427
1428     z2 = MULTIPLY(tmp11, FIX(0.587785252));           /* (c1-c9)/2 */
1429     z4 = z3 - tmp12 - (tmp13 << (CONST_BITS - 1));
1430
1431     tmp12 = ((z1 - tmp13) << CONST_BITS) - z3;
1432
1433     tmp11 = MULTIPLY(z1, FIX(1.260073511)) - z2 - z4; /* c3 */
1434     tmp13 = MULTIPLY(z1, FIX(0.642039522)) - z2 + z4; /* c7 */
1435
1436     /* Final output stage */
1437
1438     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp10,
1439                                               CONST_BITS+PASS1_BITS+3)
1440                             & RANGE_MASK];
1441     outptr[9] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp10,
1442                                               CONST_BITS+PASS1_BITS+3)
1443                             & RANGE_MASK];
1444     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp11,
1445                                               CONST_BITS+PASS1_BITS+3)
1446                             & RANGE_MASK];
1447     outptr[8] = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp11,
1448                                               CONST_BITS+PASS1_BITS+3)
1449                             & RANGE_MASK];
1450     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp12,
1451                                               CONST_BITS+PASS1_BITS+3)
1452                             & RANGE_MASK];
1453     outptr[7] = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp12,
1454                                               CONST_BITS+PASS1_BITS+3)
1455                             & RANGE_MASK];
1456     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp23 + tmp13,
1457                                               CONST_BITS+PASS1_BITS+3)
1458                             & RANGE_MASK];
1459     outptr[6] = range_limit[(int) RIGHT_SHIFT(tmp23 - tmp13,
1460                                               CONST_BITS+PASS1_BITS+3)
1461                             & RANGE_MASK];
1462     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp24 + tmp14,
1463                                               CONST_BITS+PASS1_BITS+3)
1464                             & RANGE_MASK];
1465     outptr[5] = range_limit[(int) RIGHT_SHIFT(tmp24 - tmp14,
1466                                               CONST_BITS+PASS1_BITS+3)
1467                             & RANGE_MASK];
1468
1469     wsptr += 8;         /* advance pointer to next row */
1470   }
1471 }
1472
1473
1474 /*
1475  * Perform dequantization and inverse DCT on one block of coefficients,
1476  * producing a 11x11 output block.
1477  *
1478  * Optimized algorithm with 24 multiplications in the 1-D kernel.
1479  * cK represents sqrt(2) * cos(K*pi/22).
1480  */
1481
1482 GLOBAL(void)
1483 jpeg_idct_11x11 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
1484                  JCOEFPTR coef_block,
1485                  JSAMPARRAY output_buf, JDIMENSION output_col)
1486 {
1487   INT32 tmp10, tmp11, tmp12, tmp13, tmp14;
1488   INT32 tmp20, tmp21, tmp22, tmp23, tmp24, tmp25;
1489   INT32 z1, z2, z3, z4;
1490   JCOEFPTR inptr;
1491   ISLOW_MULT_TYPE * quantptr;
1492   int * wsptr;
1493   JSAMPROW outptr;
1494   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
1495   int ctr;
1496   int workspace[8*11];  /* buffers data between passes */
1497   SHIFT_TEMPS
1498
1499   /* Pass 1: process columns from input, store into work array. */
1500
1501   inptr = coef_block;
1502   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
1503   wsptr = workspace;
1504   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
1505     /* Even part */
1506
1507     tmp10 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
1508     tmp10 <<= CONST_BITS;
1509     /* Add fudge factor here for final descale. */
1510     tmp10 += ONE << (CONST_BITS-PASS1_BITS-1);
1511
1512     z1 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
1513     z2 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
1514     z3 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
1515
1516     tmp20 = MULTIPLY(z2 - z3, FIX(2.546640132));     /* c2+c4 */
1517     tmp23 = MULTIPLY(z2 - z1, FIX(0.430815045));     /* c2-c6 */
1518     z4 = z1 + z3;
1519     tmp24 = MULTIPLY(z4, - FIX(1.155664402));        /* -(c2-c10) */
1520     z4 -= z2;
1521     tmp25 = tmp10 + MULTIPLY(z4, FIX(1.356927976));  /* c2 */
1522     tmp21 = tmp20 + tmp23 + tmp25 -
1523             MULTIPLY(z2, FIX(1.821790775));          /* c2+c4+c10-c6 */
1524     tmp20 += tmp25 + MULTIPLY(z3, FIX(2.115825087)); /* c4+c6 */
1525     tmp23 += tmp25 - MULTIPLY(z1, FIX(1.513598477)); /* c6+c8 */
1526     tmp24 += tmp25;
1527     tmp22 = tmp24 - MULTIPLY(z3, FIX(0.788749120));  /* c8+c10 */
1528     tmp24 += MULTIPLY(z2, FIX(1.944413522)) -        /* c2+c8 */
1529              MULTIPLY(z1, FIX(1.390975730));         /* c4+c10 */
1530     tmp25 = tmp10 - MULTIPLY(z4, FIX(1.414213562));  /* c0 */
1531
1532     /* Odd part */
1533
1534     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
1535     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
1536     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
1537     z4 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
1538
1539     tmp11 = z1 + z2;
1540     tmp14 = MULTIPLY(tmp11 + z3 + z4, FIX(0.398430003)); /* c9 */
1541     tmp11 = MULTIPLY(tmp11, FIX(0.887983902));           /* c3-c9 */
1542     tmp12 = MULTIPLY(z1 + z3, FIX(0.670361295));         /* c5-c9 */
1543     tmp13 = tmp14 + MULTIPLY(z1 + z4, FIX(0.366151574)); /* c7-c9 */
1544     tmp10 = tmp11 + tmp12 + tmp13 -
1545             MULTIPLY(z1, FIX(0.923107866));              /* c7+c5+c3-c1-2*c9 */
1546     z1    = tmp14 - MULTIPLY(z2 + z3, FIX(1.163011579)); /* c7+c9 */
1547     tmp11 += z1 + MULTIPLY(z2, FIX(2.073276588));        /* c1+c7+3*c9-c3 */
1548     tmp12 += z1 - MULTIPLY(z3, FIX(1.192193623));        /* c3+c5-c7-c9 */
1549     z1    = MULTIPLY(z2 + z4, - FIX(1.798248910));       /* -(c1+c9) */
1550     tmp11 += z1;
1551     tmp13 += z1 + MULTIPLY(z4, FIX(2.102458632));        /* c1+c5+c9-c7 */
1552     tmp14 += MULTIPLY(z2, - FIX(1.467221301)) +          /* -(c5+c9) */
1553              MULTIPLY(z3, FIX(1.001388905)) -            /* c1-c9 */
1554              MULTIPLY(z4, FIX(1.684843907));             /* c3+c9 */
1555
1556     /* Final output stage */
1557
1558     wsptr[8*0]  = (int) RIGHT_SHIFT(tmp20 + tmp10, CONST_BITS-PASS1_BITS);
1559     wsptr[8*10] = (int) RIGHT_SHIFT(tmp20 - tmp10, CONST_BITS-PASS1_BITS);
1560     wsptr[8*1]  = (int) RIGHT_SHIFT(tmp21 + tmp11, CONST_BITS-PASS1_BITS);
1561     wsptr[8*9]  = (int) RIGHT_SHIFT(tmp21 - tmp11, CONST_BITS-PASS1_BITS);
1562     wsptr[8*2]  = (int) RIGHT_SHIFT(tmp22 + tmp12, CONST_BITS-PASS1_BITS);
1563     wsptr[8*8]  = (int) RIGHT_SHIFT(tmp22 - tmp12, CONST_BITS-PASS1_BITS);
1564     wsptr[8*3]  = (int) RIGHT_SHIFT(tmp23 + tmp13, CONST_BITS-PASS1_BITS);
1565     wsptr[8*7]  = (int) RIGHT_SHIFT(tmp23 - tmp13, CONST_BITS-PASS1_BITS);
1566     wsptr[8*4]  = (int) RIGHT_SHIFT(tmp24 + tmp14, CONST_BITS-PASS1_BITS);
1567     wsptr[8*6]  = (int) RIGHT_SHIFT(tmp24 - tmp14, CONST_BITS-PASS1_BITS);
1568     wsptr[8*5]  = (int) RIGHT_SHIFT(tmp25, CONST_BITS-PASS1_BITS);
1569   }
1570
1571   /* Pass 2: process 11 rows from work array, store into output array. */
1572
1573   wsptr = workspace;
1574   for (ctr = 0; ctr < 11; ctr++) {
1575     outptr = output_buf[ctr] + output_col;
1576
1577     /* Even part */
1578
1579     /* Add range center and fudge factor for final descale and range-limit. */
1580     tmp10 = (INT32) wsptr[0] +
1581               ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
1582                (ONE << (PASS1_BITS+2)));
1583     tmp10 <<= CONST_BITS;
1584
1585     z1 = (INT32) wsptr[2];
1586     z2 = (INT32) wsptr[4];
1587     z3 = (INT32) wsptr[6];
1588
1589     tmp20 = MULTIPLY(z2 - z3, FIX(2.546640132));     /* c2+c4 */
1590     tmp23 = MULTIPLY(z2 - z1, FIX(0.430815045));     /* c2-c6 */
1591     z4 = z1 + z3;
1592     tmp24 = MULTIPLY(z4, - FIX(1.155664402));        /* -(c2-c10) */
1593     z4 -= z2;
1594     tmp25 = tmp10 + MULTIPLY(z4, FIX(1.356927976));  /* c2 */
1595     tmp21 = tmp20 + tmp23 + tmp25 -
1596             MULTIPLY(z2, FIX(1.821790775));          /* c2+c4+c10-c6 */
1597     tmp20 += tmp25 + MULTIPLY(z3, FIX(2.115825087)); /* c4+c6 */
1598     tmp23 += tmp25 - MULTIPLY(z1, FIX(1.513598477)); /* c6+c8 */
1599     tmp24 += tmp25;
1600     tmp22 = tmp24 - MULTIPLY(z3, FIX(0.788749120));  /* c8+c10 */
1601     tmp24 += MULTIPLY(z2, FIX(1.944413522)) -        /* c2+c8 */
1602              MULTIPLY(z1, FIX(1.390975730));         /* c4+c10 */
1603     tmp25 = tmp10 - MULTIPLY(z4, FIX(1.414213562));  /* c0 */
1604
1605     /* Odd part */
1606
1607     z1 = (INT32) wsptr[1];
1608     z2 = (INT32) wsptr[3];
1609     z3 = (INT32) wsptr[5];
1610     z4 = (INT32) wsptr[7];
1611
1612     tmp11 = z1 + z2;
1613     tmp14 = MULTIPLY(tmp11 + z3 + z4, FIX(0.398430003)); /* c9 */
1614     tmp11 = MULTIPLY(tmp11, FIX(0.887983902));           /* c3-c9 */
1615     tmp12 = MULTIPLY(z1 + z3, FIX(0.670361295));         /* c5-c9 */
1616     tmp13 = tmp14 + MULTIPLY(z1 + z4, FIX(0.366151574)); /* c7-c9 */
1617     tmp10 = tmp11 + tmp12 + tmp13 -
1618             MULTIPLY(z1, FIX(0.923107866));              /* c7+c5+c3-c1-2*c9 */
1619     z1    = tmp14 - MULTIPLY(z2 + z3, FIX(1.163011579)); /* c7+c9 */
1620     tmp11 += z1 + MULTIPLY(z2, FIX(2.073276588));        /* c1+c7+3*c9-c3 */
1621     tmp12 += z1 - MULTIPLY(z3, FIX(1.192193623));        /* c3+c5-c7-c9 */
1622     z1    = MULTIPLY(z2 + z4, - FIX(1.798248910));       /* -(c1+c9) */
1623     tmp11 += z1;
1624     tmp13 += z1 + MULTIPLY(z4, FIX(2.102458632));        /* c1+c5+c9-c7 */
1625     tmp14 += MULTIPLY(z2, - FIX(1.467221301)) +          /* -(c5+c9) */
1626              MULTIPLY(z3, FIX(1.001388905)) -            /* c1-c9 */
1627              MULTIPLY(z4, FIX(1.684843907));             /* c3+c9 */
1628
1629     /* Final output stage */
1630
1631     outptr[0]  = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp10,
1632                                                CONST_BITS+PASS1_BITS+3)
1633                              & RANGE_MASK];
1634     outptr[10] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp10,
1635                                                CONST_BITS+PASS1_BITS+3)
1636                              & RANGE_MASK];
1637     outptr[1]  = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp11,
1638                                                CONST_BITS+PASS1_BITS+3)
1639                              & RANGE_MASK];
1640     outptr[9]  = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp11,
1641                                                CONST_BITS+PASS1_BITS+3)
1642                              & RANGE_MASK];
1643     outptr[2]  = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp12,
1644                                                CONST_BITS+PASS1_BITS+3)
1645                              & RANGE_MASK];
1646     outptr[8]  = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp12,
1647                                                CONST_BITS+PASS1_BITS+3)
1648                              & RANGE_MASK];
1649     outptr[3]  = range_limit[(int) RIGHT_SHIFT(tmp23 + tmp13,
1650                                                CONST_BITS+PASS1_BITS+3)
1651                              & RANGE_MASK];
1652     outptr[7]  = range_limit[(int) RIGHT_SHIFT(tmp23 - tmp13,
1653                                                CONST_BITS+PASS1_BITS+3)
1654                              & RANGE_MASK];
1655     outptr[4]  = range_limit[(int) RIGHT_SHIFT(tmp24 + tmp14,
1656                                                CONST_BITS+PASS1_BITS+3)
1657                              & RANGE_MASK];
1658     outptr[6]  = range_limit[(int) RIGHT_SHIFT(tmp24 - tmp14,
1659                                                CONST_BITS+PASS1_BITS+3)
1660                              & RANGE_MASK];
1661     outptr[5]  = range_limit[(int) RIGHT_SHIFT(tmp25,
1662                                                CONST_BITS+PASS1_BITS+3)
1663                              & RANGE_MASK];
1664
1665     wsptr += 8;         /* advance pointer to next row */
1666   }
1667 }
1668
1669
1670 /*
1671  * Perform dequantization and inverse DCT on one block of coefficients,
1672  * producing a 12x12 output block.
1673  *
1674  * Optimized algorithm with 15 multiplications in the 1-D kernel.
1675  * cK represents sqrt(2) * cos(K*pi/24).
1676  */
1677
1678 GLOBAL(void)
1679 jpeg_idct_12x12 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
1680                  JCOEFPTR coef_block,
1681                  JSAMPARRAY output_buf, JDIMENSION output_col)
1682 {
1683   INT32 tmp10, tmp11, tmp12, tmp13, tmp14, tmp15;
1684   INT32 tmp20, tmp21, tmp22, tmp23, tmp24, tmp25;
1685   INT32 z1, z2, z3, z4;
1686   JCOEFPTR inptr;
1687   ISLOW_MULT_TYPE * quantptr;
1688   int * wsptr;
1689   JSAMPROW outptr;
1690   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
1691   int ctr;
1692   int workspace[8*12];  /* buffers data between passes */
1693   SHIFT_TEMPS
1694
1695   /* Pass 1: process columns from input, store into work array. */
1696
1697   inptr = coef_block;
1698   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
1699   wsptr = workspace;
1700   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
1701     /* Even part */
1702
1703     z3 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
1704     z3 <<= CONST_BITS;
1705     /* Add fudge factor here for final descale. */
1706     z3 += ONE << (CONST_BITS-PASS1_BITS-1);
1707
1708     z4 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
1709     z4 = MULTIPLY(z4, FIX(1.224744871)); /* c4 */
1710
1711     tmp10 = z3 + z4;
1712     tmp11 = z3 - z4;
1713
1714     z1 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
1715     z4 = MULTIPLY(z1, FIX(1.366025404)); /* c2 */
1716     z1 <<= CONST_BITS;
1717     z2 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
1718     z2 <<= CONST_BITS;
1719
1720     tmp12 = z1 - z2;
1721
1722     tmp21 = z3 + tmp12;
1723     tmp24 = z3 - tmp12;
1724
1725     tmp12 = z4 + z2;
1726
1727     tmp20 = tmp10 + tmp12;
1728     tmp25 = tmp10 - tmp12;
1729
1730     tmp12 = z4 - z1 - z2;
1731
1732     tmp22 = tmp11 + tmp12;
1733     tmp23 = tmp11 - tmp12;
1734
1735     /* Odd part */
1736
1737     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
1738     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
1739     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
1740     z4 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
1741
1742     tmp11 = MULTIPLY(z2, FIX(1.306562965));                  /* c3 */
1743     tmp14 = MULTIPLY(z2, - FIX_0_541196100);                 /* -c9 */
1744
1745     tmp10 = z1 + z3;
1746     tmp15 = MULTIPLY(tmp10 + z4, FIX(0.860918669));          /* c7 */
1747     tmp12 = tmp15 + MULTIPLY(tmp10, FIX(0.261052384));       /* c5-c7 */
1748     tmp10 = tmp12 + tmp11 + MULTIPLY(z1, FIX(0.280143716));  /* c1-c5 */
1749     tmp13 = MULTIPLY(z3 + z4, - FIX(1.045510580));           /* -(c7+c11) */
1750     tmp12 += tmp13 + tmp14 - MULTIPLY(z3, FIX(1.478575242)); /* c1+c5-c7-c11 */
1751     tmp13 += tmp15 - tmp11 + MULTIPLY(z4, FIX(1.586706681)); /* c1+c11 */
1752     tmp15 += tmp14 - MULTIPLY(z1, FIX(0.676326758)) -        /* c7-c11 */
1753              MULTIPLY(z4, FIX(1.982889723));                 /* c5+c7 */
1754
1755     z1 -= z4;
1756     z2 -= z3;
1757     z3 = MULTIPLY(z1 + z2, FIX_0_541196100);                 /* c9 */
1758     tmp11 = z3 + MULTIPLY(z1, FIX_0_765366865);              /* c3-c9 */
1759     tmp14 = z3 - MULTIPLY(z2, FIX_1_847759065);              /* c3+c9 */
1760
1761     /* Final output stage */
1762
1763     wsptr[8*0]  = (int) RIGHT_SHIFT(tmp20 + tmp10, CONST_BITS-PASS1_BITS);
1764     wsptr[8*11] = (int) RIGHT_SHIFT(tmp20 - tmp10, CONST_BITS-PASS1_BITS);
1765     wsptr[8*1]  = (int) RIGHT_SHIFT(tmp21 + tmp11, CONST_BITS-PASS1_BITS);
1766     wsptr[8*10] = (int) RIGHT_SHIFT(tmp21 - tmp11, CONST_BITS-PASS1_BITS);
1767     wsptr[8*2]  = (int) RIGHT_SHIFT(tmp22 + tmp12, CONST_BITS-PASS1_BITS);
1768     wsptr[8*9]  = (int) RIGHT_SHIFT(tmp22 - tmp12, CONST_BITS-PASS1_BITS);
1769     wsptr[8*3]  = (int) RIGHT_SHIFT(tmp23 + tmp13, CONST_BITS-PASS1_BITS);
1770     wsptr[8*8]  = (int) RIGHT_SHIFT(tmp23 - tmp13, CONST_BITS-PASS1_BITS);
1771     wsptr[8*4]  = (int) RIGHT_SHIFT(tmp24 + tmp14, CONST_BITS-PASS1_BITS);
1772     wsptr[8*7]  = (int) RIGHT_SHIFT(tmp24 - tmp14, CONST_BITS-PASS1_BITS);
1773     wsptr[8*5]  = (int) RIGHT_SHIFT(tmp25 + tmp15, CONST_BITS-PASS1_BITS);
1774     wsptr[8*6]  = (int) RIGHT_SHIFT(tmp25 - tmp15, CONST_BITS-PASS1_BITS);
1775   }
1776
1777   /* Pass 2: process 12 rows from work array, store into output array. */
1778
1779   wsptr = workspace;
1780   for (ctr = 0; ctr < 12; ctr++) {
1781     outptr = output_buf[ctr] + output_col;
1782
1783     /* Even part */
1784
1785     /* Add range center and fudge factor for final descale and range-limit. */
1786     z3 = (INT32) wsptr[0] +
1787            ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
1788             (ONE << (PASS1_BITS+2)));
1789     z3 <<= CONST_BITS;
1790
1791     z4 = (INT32) wsptr[4];
1792     z4 = MULTIPLY(z4, FIX(1.224744871)); /* c4 */
1793
1794     tmp10 = z3 + z4;
1795     tmp11 = z3 - z4;
1796
1797     z1 = (INT32) wsptr[2];
1798     z4 = MULTIPLY(z1, FIX(1.366025404)); /* c2 */
1799     z1 <<= CONST_BITS;
1800     z2 = (INT32) wsptr[6];
1801     z2 <<= CONST_BITS;
1802
1803     tmp12 = z1 - z2;
1804
1805     tmp21 = z3 + tmp12;
1806     tmp24 = z3 - tmp12;
1807
1808     tmp12 = z4 + z2;
1809
1810     tmp20 = tmp10 + tmp12;
1811     tmp25 = tmp10 - tmp12;
1812
1813     tmp12 = z4 - z1 - z2;
1814
1815     tmp22 = tmp11 + tmp12;
1816     tmp23 = tmp11 - tmp12;
1817
1818     /* Odd part */
1819
1820     z1 = (INT32) wsptr[1];
1821     z2 = (INT32) wsptr[3];
1822     z3 = (INT32) wsptr[5];
1823     z4 = (INT32) wsptr[7];
1824
1825     tmp11 = MULTIPLY(z2, FIX(1.306562965));                  /* c3 */
1826     tmp14 = MULTIPLY(z2, - FIX_0_541196100);                 /* -c9 */
1827
1828     tmp10 = z1 + z3;
1829     tmp15 = MULTIPLY(tmp10 + z4, FIX(0.860918669));          /* c7 */
1830     tmp12 = tmp15 + MULTIPLY(tmp10, FIX(0.261052384));       /* c5-c7 */
1831     tmp10 = tmp12 + tmp11 + MULTIPLY(z1, FIX(0.280143716));  /* c1-c5 */
1832     tmp13 = MULTIPLY(z3 + z4, - FIX(1.045510580));           /* -(c7+c11) */
1833     tmp12 += tmp13 + tmp14 - MULTIPLY(z3, FIX(1.478575242)); /* c1+c5-c7-c11 */
1834     tmp13 += tmp15 - tmp11 + MULTIPLY(z4, FIX(1.586706681)); /* c1+c11 */
1835     tmp15 += tmp14 - MULTIPLY(z1, FIX(0.676326758)) -        /* c7-c11 */
1836              MULTIPLY(z4, FIX(1.982889723));                 /* c5+c7 */
1837
1838     z1 -= z4;
1839     z2 -= z3;
1840     z3 = MULTIPLY(z1 + z2, FIX_0_541196100);                 /* c9 */
1841     tmp11 = z3 + MULTIPLY(z1, FIX_0_765366865);              /* c3-c9 */
1842     tmp14 = z3 - MULTIPLY(z2, FIX_1_847759065);              /* c3+c9 */
1843
1844     /* Final output stage */
1845
1846     outptr[0]  = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp10,
1847                                                CONST_BITS+PASS1_BITS+3)
1848                              & RANGE_MASK];
1849     outptr[11] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp10,
1850                                                CONST_BITS+PASS1_BITS+3)
1851                              & RANGE_MASK];
1852     outptr[1]  = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp11,
1853                                                CONST_BITS+PASS1_BITS+3)
1854                              & RANGE_MASK];
1855     outptr[10] = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp11,
1856                                                CONST_BITS+PASS1_BITS+3)
1857                              & RANGE_MASK];
1858     outptr[2]  = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp12,
1859                                                CONST_BITS+PASS1_BITS+3)
1860                              & RANGE_MASK];
1861     outptr[9]  = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp12,
1862                                                CONST_BITS+PASS1_BITS+3)
1863                              & RANGE_MASK];
1864     outptr[3]  = range_limit[(int) RIGHT_SHIFT(tmp23 + tmp13,
1865                                                CONST_BITS+PASS1_BITS+3)
1866                              & RANGE_MASK];
1867     outptr[8]  = range_limit[(int) RIGHT_SHIFT(tmp23 - tmp13,
1868                                                CONST_BITS+PASS1_BITS+3)
1869                              & RANGE_MASK];
1870     outptr[4]  = range_limit[(int) RIGHT_SHIFT(tmp24 + tmp14,
1871                                                CONST_BITS+PASS1_BITS+3)
1872                              & RANGE_MASK];
1873     outptr[7]  = range_limit[(int) RIGHT_SHIFT(tmp24 - tmp14,
1874                                                CONST_BITS+PASS1_BITS+3)
1875                              & RANGE_MASK];
1876     outptr[5]  = range_limit[(int) RIGHT_SHIFT(tmp25 + tmp15,
1877                                                CONST_BITS+PASS1_BITS+3)
1878                              & RANGE_MASK];
1879     outptr[6]  = range_limit[(int) RIGHT_SHIFT(tmp25 - tmp15,
1880                                                CONST_BITS+PASS1_BITS+3)
1881                              & RANGE_MASK];
1882
1883     wsptr += 8;         /* advance pointer to next row */
1884   }
1885 }
1886
1887
1888 /*
1889  * Perform dequantization and inverse DCT on one block of coefficients,
1890  * producing a 13x13 output block.
1891  *
1892  * Optimized algorithm with 29 multiplications in the 1-D kernel.
1893  * cK represents sqrt(2) * cos(K*pi/26).
1894  */
1895
1896 GLOBAL(void)
1897 jpeg_idct_13x13 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
1898                  JCOEFPTR coef_block,
1899                  JSAMPARRAY output_buf, JDIMENSION output_col)
1900 {
1901   INT32 tmp10, tmp11, tmp12, tmp13, tmp14, tmp15;
1902   INT32 tmp20, tmp21, tmp22, tmp23, tmp24, tmp25, tmp26;
1903   INT32 z1, z2, z3, z4;
1904   JCOEFPTR inptr;
1905   ISLOW_MULT_TYPE * quantptr;
1906   int * wsptr;
1907   JSAMPROW outptr;
1908   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
1909   int ctr;
1910   int workspace[8*13];  /* buffers data between passes */
1911   SHIFT_TEMPS
1912
1913   /* Pass 1: process columns from input, store into work array. */
1914
1915   inptr = coef_block;
1916   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
1917   wsptr = workspace;
1918   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
1919     /* Even part */
1920
1921     z1 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
1922     z1 <<= CONST_BITS;
1923     /* Add fudge factor here for final descale. */
1924     z1 += ONE << (CONST_BITS-PASS1_BITS-1);
1925
1926     z2 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
1927     z3 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
1928     z4 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
1929
1930     tmp10 = z3 + z4;
1931     tmp11 = z3 - z4;
1932
1933     tmp12 = MULTIPLY(tmp10, FIX(1.155388986));                /* (c4+c6)/2 */
1934     tmp13 = MULTIPLY(tmp11, FIX(0.096834934)) + z1;           /* (c4-c6)/2 */
1935
1936     tmp20 = MULTIPLY(z2, FIX(1.373119086)) + tmp12 + tmp13;   /* c2 */
1937     tmp22 = MULTIPLY(z2, FIX(0.501487041)) - tmp12 + tmp13;   /* c10 */
1938
1939     tmp12 = MULTIPLY(tmp10, FIX(0.316450131));                /* (c8-c12)/2 */
1940     tmp13 = MULTIPLY(tmp11, FIX(0.486914739)) + z1;           /* (c8+c12)/2 */
1941
1942     tmp21 = MULTIPLY(z2, FIX(1.058554052)) - tmp12 + tmp13;   /* c6 */
1943     tmp25 = MULTIPLY(z2, - FIX(1.252223920)) + tmp12 + tmp13; /* c4 */
1944
1945     tmp12 = MULTIPLY(tmp10, FIX(0.435816023));                /* (c2-c10)/2 */
1946     tmp13 = MULTIPLY(tmp11, FIX(0.937303064)) - z1;           /* (c2+c10)/2 */
1947
1948     tmp23 = MULTIPLY(z2, - FIX(0.170464608)) - tmp12 - tmp13; /* c12 */
1949     tmp24 = MULTIPLY(z2, - FIX(0.803364869)) + tmp12 - tmp13; /* c8 */
1950
1951     tmp26 = MULTIPLY(tmp11 - z2, FIX(1.414213562)) + z1;      /* c0 */
1952
1953     /* Odd part */
1954
1955     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
1956     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
1957     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
1958     z4 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
1959
1960     tmp11 = MULTIPLY(z1 + z2, FIX(1.322312651));     /* c3 */
1961     tmp12 = MULTIPLY(z1 + z3, FIX(1.163874945));     /* c5 */
1962     tmp15 = z1 + z4;
1963     tmp13 = MULTIPLY(tmp15, FIX(0.937797057));       /* c7 */
1964     tmp10 = tmp11 + tmp12 + tmp13 -
1965             MULTIPLY(z1, FIX(2.020082300));          /* c7+c5+c3-c1 */
1966     tmp14 = MULTIPLY(z2 + z3, - FIX(0.338443458));   /* -c11 */
1967     tmp11 += tmp14 + MULTIPLY(z2, FIX(0.837223564)); /* c5+c9+c11-c3 */
1968     tmp12 += tmp14 - MULTIPLY(z3, FIX(1.572116027)); /* c1+c5-c9-c11 */
1969     tmp14 = MULTIPLY(z2 + z4, - FIX(1.163874945));   /* -c5 */
1970     tmp11 += tmp14;
1971     tmp13 += tmp14 + MULTIPLY(z4, FIX(2.205608352)); /* c3+c5+c9-c7 */
1972     tmp14 = MULTIPLY(z3 + z4, - FIX(0.657217813));   /* -c9 */
1973     tmp12 += tmp14;
1974     tmp13 += tmp14;
1975     tmp15 = MULTIPLY(tmp15, FIX(0.338443458));       /* c11 */
1976     tmp14 = tmp15 + MULTIPLY(z1, FIX(0.318774355)) - /* c9-c11 */
1977             MULTIPLY(z2, FIX(0.466105296));          /* c1-c7 */
1978     z1    = MULTIPLY(z3 - z2, FIX(0.937797057));     /* c7 */
1979     tmp14 += z1;
1980     tmp15 += z1 + MULTIPLY(z3, FIX(0.384515595)) -   /* c3-c7 */
1981              MULTIPLY(z4, FIX(1.742345811));         /* c1+c11 */
1982
1983     /* Final output stage */
1984
1985     wsptr[8*0]  = (int) RIGHT_SHIFT(tmp20 + tmp10, CONST_BITS-PASS1_BITS);
1986     wsptr[8*12] = (int) RIGHT_SHIFT(tmp20 - tmp10, CONST_BITS-PASS1_BITS);
1987     wsptr[8*1]  = (int) RIGHT_SHIFT(tmp21 + tmp11, CONST_BITS-PASS1_BITS);
1988     wsptr[8*11] = (int) RIGHT_SHIFT(tmp21 - tmp11, CONST_BITS-PASS1_BITS);
1989     wsptr[8*2]  = (int) RIGHT_SHIFT(tmp22 + tmp12, CONST_BITS-PASS1_BITS);
1990     wsptr[8*10] = (int) RIGHT_SHIFT(tmp22 - tmp12, CONST_BITS-PASS1_BITS);
1991     wsptr[8*3]  = (int) RIGHT_SHIFT(tmp23 + tmp13, CONST_BITS-PASS1_BITS);
1992     wsptr[8*9]  = (int) RIGHT_SHIFT(tmp23 - tmp13, CONST_BITS-PASS1_BITS);
1993     wsptr[8*4]  = (int) RIGHT_SHIFT(tmp24 + tmp14, CONST_BITS-PASS1_BITS);
1994     wsptr[8*8]  = (int) RIGHT_SHIFT(tmp24 - tmp14, CONST_BITS-PASS1_BITS);
1995     wsptr[8*5]  = (int) RIGHT_SHIFT(tmp25 + tmp15, CONST_BITS-PASS1_BITS);
1996     wsptr[8*7]  = (int) RIGHT_SHIFT(tmp25 - tmp15, CONST_BITS-PASS1_BITS);
1997     wsptr[8*6]  = (int) RIGHT_SHIFT(tmp26, CONST_BITS-PASS1_BITS);
1998   }
1999
2000   /* Pass 2: process 13 rows from work array, store into output array. */
2001
2002   wsptr = workspace;
2003   for (ctr = 0; ctr < 13; ctr++) {
2004     outptr = output_buf[ctr] + output_col;
2005
2006     /* Even part */
2007
2008     /* Add range center and fudge factor for final descale and range-limit. */
2009     z1 = (INT32) wsptr[0] +
2010            ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
2011             (ONE << (PASS1_BITS+2)));
2012     z1 <<= CONST_BITS;
2013
2014     z2 = (INT32) wsptr[2];
2015     z3 = (INT32) wsptr[4];
2016     z4 = (INT32) wsptr[6];
2017
2018     tmp10 = z3 + z4;
2019     tmp11 = z3 - z4;
2020
2021     tmp12 = MULTIPLY(tmp10, FIX(1.155388986));                /* (c4+c6)/2 */
2022     tmp13 = MULTIPLY(tmp11, FIX(0.096834934)) + z1;           /* (c4-c6)/2 */
2023
2024     tmp20 = MULTIPLY(z2, FIX(1.373119086)) + tmp12 + tmp13;   /* c2 */
2025     tmp22 = MULTIPLY(z2, FIX(0.501487041)) - tmp12 + tmp13;   /* c10 */
2026
2027     tmp12 = MULTIPLY(tmp10, FIX(0.316450131));                /* (c8-c12)/2 */
2028     tmp13 = MULTIPLY(tmp11, FIX(0.486914739)) + z1;           /* (c8+c12)/2 */
2029
2030     tmp21 = MULTIPLY(z2, FIX(1.058554052)) - tmp12 + tmp13;   /* c6 */
2031     tmp25 = MULTIPLY(z2, - FIX(1.252223920)) + tmp12 + tmp13; /* c4 */
2032
2033     tmp12 = MULTIPLY(tmp10, FIX(0.435816023));                /* (c2-c10)/2 */
2034     tmp13 = MULTIPLY(tmp11, FIX(0.937303064)) - z1;           /* (c2+c10)/2 */
2035
2036     tmp23 = MULTIPLY(z2, - FIX(0.170464608)) - tmp12 - tmp13; /* c12 */
2037     tmp24 = MULTIPLY(z2, - FIX(0.803364869)) + tmp12 - tmp13; /* c8 */
2038
2039     tmp26 = MULTIPLY(tmp11 - z2, FIX(1.414213562)) + z1;      /* c0 */
2040
2041     /* Odd part */
2042
2043     z1 = (INT32) wsptr[1];
2044     z2 = (INT32) wsptr[3];
2045     z3 = (INT32) wsptr[5];
2046     z4 = (INT32) wsptr[7];
2047
2048     tmp11 = MULTIPLY(z1 + z2, FIX(1.322312651));     /* c3 */
2049     tmp12 = MULTIPLY(z1 + z3, FIX(1.163874945));     /* c5 */
2050     tmp15 = z1 + z4;
2051     tmp13 = MULTIPLY(tmp15, FIX(0.937797057));       /* c7 */
2052     tmp10 = tmp11 + tmp12 + tmp13 -
2053             MULTIPLY(z1, FIX(2.020082300));          /* c7+c5+c3-c1 */
2054     tmp14 = MULTIPLY(z2 + z3, - FIX(0.338443458));   /* -c11 */
2055     tmp11 += tmp14 + MULTIPLY(z2, FIX(0.837223564)); /* c5+c9+c11-c3 */
2056     tmp12 += tmp14 - MULTIPLY(z3, FIX(1.572116027)); /* c1+c5-c9-c11 */
2057     tmp14 = MULTIPLY(z2 + z4, - FIX(1.163874945));   /* -c5 */
2058     tmp11 += tmp14;
2059     tmp13 += tmp14 + MULTIPLY(z4, FIX(2.205608352)); /* c3+c5+c9-c7 */
2060     tmp14 = MULTIPLY(z3 + z4, - FIX(0.657217813));   /* -c9 */
2061     tmp12 += tmp14;
2062     tmp13 += tmp14;
2063     tmp15 = MULTIPLY(tmp15, FIX(0.338443458));       /* c11 */
2064     tmp14 = tmp15 + MULTIPLY(z1, FIX(0.318774355)) - /* c9-c11 */
2065             MULTIPLY(z2, FIX(0.466105296));          /* c1-c7 */
2066     z1    = MULTIPLY(z3 - z2, FIX(0.937797057));     /* c7 */
2067     tmp14 += z1;
2068     tmp15 += z1 + MULTIPLY(z3, FIX(0.384515595)) -   /* c3-c7 */
2069              MULTIPLY(z4, FIX(1.742345811));         /* c1+c11 */
2070
2071     /* Final output stage */
2072
2073     outptr[0]  = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp10,
2074                                                CONST_BITS+PASS1_BITS+3)
2075                              & RANGE_MASK];
2076     outptr[12] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp10,
2077                                                CONST_BITS+PASS1_BITS+3)
2078                              & RANGE_MASK];
2079     outptr[1]  = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp11,
2080                                                CONST_BITS+PASS1_BITS+3)
2081                              & RANGE_MASK];
2082     outptr[11] = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp11,
2083                                                CONST_BITS+PASS1_BITS+3)
2084                              & RANGE_MASK];
2085     outptr[2]  = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp12,
2086                                                CONST_BITS+PASS1_BITS+3)
2087                              & RANGE_MASK];
2088     outptr[10] = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp12,
2089                                                CONST_BITS+PASS1_BITS+3)
2090                              & RANGE_MASK];
2091     outptr[3]  = range_limit[(int) RIGHT_SHIFT(tmp23 + tmp13,
2092                                                CONST_BITS+PASS1_BITS+3)
2093                              & RANGE_MASK];
2094     outptr[9]  = range_limit[(int) RIGHT_SHIFT(tmp23 - tmp13,
2095                                                CONST_BITS+PASS1_BITS+3)
2096                              & RANGE_MASK];
2097     outptr[4]  = range_limit[(int) RIGHT_SHIFT(tmp24 + tmp14,
2098                                                CONST_BITS+PASS1_BITS+3)
2099                              & RANGE_MASK];
2100     outptr[8]  = range_limit[(int) RIGHT_SHIFT(tmp24 - tmp14,
2101                                                CONST_BITS+PASS1_BITS+3)
2102                              & RANGE_MASK];
2103     outptr[5]  = range_limit[(int) RIGHT_SHIFT(tmp25 + tmp15,
2104                                                CONST_BITS+PASS1_BITS+3)
2105                              & RANGE_MASK];
2106     outptr[7]  = range_limit[(int) RIGHT_SHIFT(tmp25 - tmp15,
2107                                                CONST_BITS+PASS1_BITS+3)
2108                              & RANGE_MASK];
2109     outptr[6]  = range_limit[(int) RIGHT_SHIFT(tmp26,
2110                                                CONST_BITS+PASS1_BITS+3)
2111                              & RANGE_MASK];
2112
2113     wsptr += 8;         /* advance pointer to next row */
2114   }
2115 }
2116
2117
2118 /*
2119  * Perform dequantization and inverse DCT on one block of coefficients,
2120  * producing a 14x14 output block.
2121  *
2122  * Optimized algorithm with 20 multiplications in the 1-D kernel.
2123  * cK represents sqrt(2) * cos(K*pi/28).
2124  */
2125
2126 GLOBAL(void)
2127 jpeg_idct_14x14 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
2128                  JCOEFPTR coef_block,
2129                  JSAMPARRAY output_buf, JDIMENSION output_col)
2130 {
2131   INT32 tmp10, tmp11, tmp12, tmp13, tmp14, tmp15, tmp16;
2132   INT32 tmp20, tmp21, tmp22, tmp23, tmp24, tmp25, tmp26;
2133   INT32 z1, z2, z3, z4;
2134   JCOEFPTR inptr;
2135   ISLOW_MULT_TYPE * quantptr;
2136   int * wsptr;
2137   JSAMPROW outptr;
2138   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
2139   int ctr;
2140   int workspace[8*14];  /* buffers data between passes */
2141   SHIFT_TEMPS
2142
2143   /* Pass 1: process columns from input, store into work array. */
2144
2145   inptr = coef_block;
2146   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
2147   wsptr = workspace;
2148   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
2149     /* Even part */
2150
2151     z1 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
2152     z1 <<= CONST_BITS;
2153     /* Add fudge factor here for final descale. */
2154     z1 += ONE << (CONST_BITS-PASS1_BITS-1);
2155     z4 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
2156     z2 = MULTIPLY(z4, FIX(1.274162392));         /* c4 */
2157     z3 = MULTIPLY(z4, FIX(0.314692123));         /* c12 */
2158     z4 = MULTIPLY(z4, FIX(0.881747734));         /* c8 */
2159
2160     tmp10 = z1 + z2;
2161     tmp11 = z1 + z3;
2162     tmp12 = z1 - z4;
2163
2164     tmp23 = RIGHT_SHIFT(z1 - ((z2 + z3 - z4) << 1), /* c0 = (c4+c12-c8)*2 */
2165                         CONST_BITS-PASS1_BITS);
2166
2167     z1 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
2168     z2 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
2169
2170     z3 = MULTIPLY(z1 + z2, FIX(1.105676686));    /* c6 */
2171
2172     tmp13 = z3 + MULTIPLY(z1, FIX(0.273079590)); /* c2-c6 */
2173     tmp14 = z3 - MULTIPLY(z2, FIX(1.719280954)); /* c6+c10 */
2174     tmp15 = MULTIPLY(z1, FIX(0.613604268)) -     /* c10 */
2175             MULTIPLY(z2, FIX(1.378756276));      /* c2 */
2176
2177     tmp20 = tmp10 + tmp13;
2178     tmp26 = tmp10 - tmp13;
2179     tmp21 = tmp11 + tmp14;
2180     tmp25 = tmp11 - tmp14;
2181     tmp22 = tmp12 + tmp15;
2182     tmp24 = tmp12 - tmp15;
2183
2184     /* Odd part */
2185
2186     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
2187     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
2188     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
2189     z4 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
2190     tmp13 = z4 << CONST_BITS;
2191
2192     tmp14 = z1 + z3;
2193     tmp11 = MULTIPLY(z1 + z2, FIX(1.334852607));           /* c3 */
2194     tmp12 = MULTIPLY(tmp14, FIX(1.197448846));             /* c5 */
2195     tmp10 = tmp11 + tmp12 + tmp13 - MULTIPLY(z1, FIX(1.126980169)); /* c3+c5-c1 */
2196     tmp14 = MULTIPLY(tmp14, FIX(0.752406978));             /* c9 */
2197     tmp16 = tmp14 - MULTIPLY(z1, FIX(1.061150426));        /* c9+c11-c13 */
2198     z1    -= z2;
2199     tmp15 = MULTIPLY(z1, FIX(0.467085129)) - tmp13;        /* c11 */
2200     tmp16 += tmp15;
2201     z1    += z4;
2202     z4    = MULTIPLY(z2 + z3, - FIX(0.158341681)) - tmp13; /* -c13 */
2203     tmp11 += z4 - MULTIPLY(z2, FIX(0.424103948));          /* c3-c9-c13 */
2204     tmp12 += z4 - MULTIPLY(z3, FIX(2.373959773));          /* c3+c5-c13 */
2205     z4    = MULTIPLY(z3 - z2, FIX(1.405321284));           /* c1 */
2206     tmp14 += z4 + tmp13 - MULTIPLY(z3, FIX(1.6906431334)); /* c1+c9-c11 */
2207     tmp15 += z4 + MULTIPLY(z2, FIX(0.674957567));          /* c1+c11-c5 */
2208
2209     tmp13 = (z1 - z3) << PASS1_BITS;
2210
2211     /* Final output stage */
2212
2213     wsptr[8*0]  = (int) RIGHT_SHIFT(tmp20 + tmp10, CONST_BITS-PASS1_BITS);
2214     wsptr[8*13] = (int) RIGHT_SHIFT(tmp20 - tmp10, CONST_BITS-PASS1_BITS);
2215     wsptr[8*1]  = (int) RIGHT_SHIFT(tmp21 + tmp11, CONST_BITS-PASS1_BITS);
2216     wsptr[8*12] = (int) RIGHT_SHIFT(tmp21 - tmp11, CONST_BITS-PASS1_BITS);
2217     wsptr[8*2]  = (int) RIGHT_SHIFT(tmp22 + tmp12, CONST_BITS-PASS1_BITS);
2218     wsptr[8*11] = (int) RIGHT_SHIFT(tmp22 - tmp12, CONST_BITS-PASS1_BITS);
2219     wsptr[8*3]  = (int) (tmp23 + tmp13);
2220     wsptr[8*10] = (int) (tmp23 - tmp13);
2221     wsptr[8*4]  = (int) RIGHT_SHIFT(tmp24 + tmp14, CONST_BITS-PASS1_BITS);
2222     wsptr[8*9]  = (int) RIGHT_SHIFT(tmp24 - tmp14, CONST_BITS-PASS1_BITS);
2223     wsptr[8*5]  = (int) RIGHT_SHIFT(tmp25 + tmp15, CONST_BITS-PASS1_BITS);
2224     wsptr[8*8]  = (int) RIGHT_SHIFT(tmp25 - tmp15, CONST_BITS-PASS1_BITS);
2225     wsptr[8*6]  = (int) RIGHT_SHIFT(tmp26 + tmp16, CONST_BITS-PASS1_BITS);
2226     wsptr[8*7]  = (int) RIGHT_SHIFT(tmp26 - tmp16, CONST_BITS-PASS1_BITS);
2227   }
2228
2229   /* Pass 2: process 14 rows from work array, store into output array. */
2230
2231   wsptr = workspace;
2232   for (ctr = 0; ctr < 14; ctr++) {
2233     outptr = output_buf[ctr] + output_col;
2234
2235     /* Even part */
2236
2237     /* Add range center and fudge factor for final descale and range-limit. */
2238     z1 = (INT32) wsptr[0] +
2239            ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
2240             (ONE << (PASS1_BITS+2)));
2241     z1 <<= CONST_BITS;
2242     z4 = (INT32) wsptr[4];
2243     z2 = MULTIPLY(z4, FIX(1.274162392));         /* c4 */
2244     z3 = MULTIPLY(z4, FIX(0.314692123));         /* c12 */
2245     z4 = MULTIPLY(z4, FIX(0.881747734));         /* c8 */
2246
2247     tmp10 = z1 + z2;
2248     tmp11 = z1 + z3;
2249     tmp12 = z1 - z4;
2250
2251     tmp23 = z1 - ((z2 + z3 - z4) << 1);          /* c0 = (c4+c12-c8)*2 */
2252
2253     z1 = (INT32) wsptr[2];
2254     z2 = (INT32) wsptr[6];
2255
2256     z3 = MULTIPLY(z1 + z2, FIX(1.105676686));    /* c6 */
2257
2258     tmp13 = z3 + MULTIPLY(z1, FIX(0.273079590)); /* c2-c6 */
2259     tmp14 = z3 - MULTIPLY(z2, FIX(1.719280954)); /* c6+c10 */
2260     tmp15 = MULTIPLY(z1, FIX(0.613604268)) -     /* c10 */
2261             MULTIPLY(z2, FIX(1.378756276));      /* c2 */
2262
2263     tmp20 = tmp10 + tmp13;
2264     tmp26 = tmp10 - tmp13;
2265     tmp21 = tmp11 + tmp14;
2266     tmp25 = tmp11 - tmp14;
2267     tmp22 = tmp12 + tmp15;
2268     tmp24 = tmp12 - tmp15;
2269
2270     /* Odd part */
2271
2272     z1 = (INT32) wsptr[1];
2273     z2 = (INT32) wsptr[3];
2274     z3 = (INT32) wsptr[5];
2275     z4 = (INT32) wsptr[7];
2276     z4 <<= CONST_BITS;
2277
2278     tmp14 = z1 + z3;
2279     tmp11 = MULTIPLY(z1 + z2, FIX(1.334852607));           /* c3 */
2280     tmp12 = MULTIPLY(tmp14, FIX(1.197448846));             /* c5 */
2281     tmp10 = tmp11 + tmp12 + z4 - MULTIPLY(z1, FIX(1.126980169)); /* c3+c5-c1 */
2282     tmp14 = MULTIPLY(tmp14, FIX(0.752406978));             /* c9 */
2283     tmp16 = tmp14 - MULTIPLY(z1, FIX(1.061150426));        /* c9+c11-c13 */
2284     z1    -= z2;
2285     tmp15 = MULTIPLY(z1, FIX(0.467085129)) - z4;           /* c11 */
2286     tmp16 += tmp15;
2287     tmp13 = MULTIPLY(z2 + z3, - FIX(0.158341681)) - z4;    /* -c13 */
2288     tmp11 += tmp13 - MULTIPLY(z2, FIX(0.424103948));       /* c3-c9-c13 */
2289     tmp12 += tmp13 - MULTIPLY(z3, FIX(2.373959773));       /* c3+c5-c13 */
2290     tmp13 = MULTIPLY(z3 - z2, FIX(1.405321284));           /* c1 */
2291     tmp14 += tmp13 + z4 - MULTIPLY(z3, FIX(1.6906431334)); /* c1+c9-c11 */
2292     tmp15 += tmp13 + MULTIPLY(z2, FIX(0.674957567));       /* c1+c11-c5 */
2293
2294     tmp13 = ((z1 - z3) << CONST_BITS) + z4;
2295
2296     /* Final output stage */
2297
2298     outptr[0]  = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp10,
2299                                                CONST_BITS+PASS1_BITS+3)
2300                              & RANGE_MASK];
2301     outptr[13] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp10,
2302                                                CONST_BITS+PASS1_BITS+3)
2303                              & RANGE_MASK];
2304     outptr[1]  = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp11,
2305                                                CONST_BITS+PASS1_BITS+3)
2306                              & RANGE_MASK];
2307     outptr[12] = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp11,
2308                                                CONST_BITS+PASS1_BITS+3)
2309                              & RANGE_MASK];
2310     outptr[2]  = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp12,
2311                                                CONST_BITS+PASS1_BITS+3)
2312                              & RANGE_MASK];
2313     outptr[11] = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp12,
2314                                                CONST_BITS+PASS1_BITS+3)
2315                              & RANGE_MASK];
2316     outptr[3]  = range_limit[(int) RIGHT_SHIFT(tmp23 + tmp13,
2317                                                CONST_BITS+PASS1_BITS+3)
2318                              & RANGE_MASK];
2319     outptr[10] = range_limit[(int) RIGHT_SHIFT(tmp23 - tmp13,
2320                                                CONST_BITS+PASS1_BITS+3)
2321                              & RANGE_MASK];
2322     outptr[4]  = range_limit[(int) RIGHT_SHIFT(tmp24 + tmp14,
2323                                                CONST_BITS+PASS1_BITS+3)
2324                              & RANGE_MASK];
2325     outptr[9]  = range_limit[(int) RIGHT_SHIFT(tmp24 - tmp14,
2326                                                CONST_BITS+PASS1_BITS+3)
2327                              & RANGE_MASK];
2328     outptr[5]  = range_limit[(int) RIGHT_SHIFT(tmp25 + tmp15,
2329                                                CONST_BITS+PASS1_BITS+3)
2330                              & RANGE_MASK];
2331     outptr[8]  = range_limit[(int) RIGHT_SHIFT(tmp25 - tmp15,
2332                                                CONST_BITS+PASS1_BITS+3)
2333                              & RANGE_MASK];
2334     outptr[6]  = range_limit[(int) RIGHT_SHIFT(tmp26 + tmp16,
2335                                                CONST_BITS+PASS1_BITS+3)
2336                              & RANGE_MASK];
2337     outptr[7]  = range_limit[(int) RIGHT_SHIFT(tmp26 - tmp16,
2338                                                CONST_BITS+PASS1_BITS+3)
2339                              & RANGE_MASK];
2340
2341     wsptr += 8;         /* advance pointer to next row */
2342   }
2343 }
2344
2345
2346 /*
2347  * Perform dequantization and inverse DCT on one block of coefficients,
2348  * producing a 15x15 output block.
2349  *
2350  * Optimized algorithm with 22 multiplications in the 1-D kernel.
2351  * cK represents sqrt(2) * cos(K*pi/30).
2352  */
2353
2354 GLOBAL(void)
2355 jpeg_idct_15x15 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
2356                  JCOEFPTR coef_block,
2357                  JSAMPARRAY output_buf, JDIMENSION output_col)
2358 {
2359   INT32 tmp10, tmp11, tmp12, tmp13, tmp14, tmp15, tmp16;
2360   INT32 tmp20, tmp21, tmp22, tmp23, tmp24, tmp25, tmp26, tmp27;
2361   INT32 z1, z2, z3, z4;
2362   JCOEFPTR inptr;
2363   ISLOW_MULT_TYPE * quantptr;
2364   int * wsptr;
2365   JSAMPROW outptr;
2366   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
2367   int ctr;
2368   int workspace[8*15];  /* buffers data between passes */
2369   SHIFT_TEMPS
2370
2371   /* Pass 1: process columns from input, store into work array. */
2372
2373   inptr = coef_block;
2374   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
2375   wsptr = workspace;
2376   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
2377     /* Even part */
2378
2379     z1 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
2380     z1 <<= CONST_BITS;
2381     /* Add fudge factor here for final descale. */
2382     z1 += ONE << (CONST_BITS-PASS1_BITS-1);
2383
2384     z2 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
2385     z3 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
2386     z4 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
2387
2388     tmp10 = MULTIPLY(z4, FIX(0.437016024)); /* c12 */
2389     tmp11 = MULTIPLY(z4, FIX(1.144122806)); /* c6 */
2390
2391     tmp12 = z1 - tmp10;
2392     tmp13 = z1 + tmp11;
2393     z1 -= (tmp11 - tmp10) << 1;             /* c0 = (c6-c12)*2 */
2394
2395     z4 = z2 - z3;
2396     z3 += z2;
2397     tmp10 = MULTIPLY(z3, FIX(1.337628990)); /* (c2+c4)/2 */
2398     tmp11 = MULTIPLY(z4, FIX(0.045680613)); /* (c2-c4)/2 */
2399     z2 = MULTIPLY(z2, FIX(1.439773946));    /* c4+c14 */
2400
2401     tmp20 = tmp13 + tmp10 + tmp11;
2402     tmp23 = tmp12 - tmp10 + tmp11 + z2;
2403
2404     tmp10 = MULTIPLY(z3, FIX(0.547059574)); /* (c8+c14)/2 */
2405     tmp11 = MULTIPLY(z4, FIX(0.399234004)); /* (c8-c14)/2 */
2406
2407     tmp25 = tmp13 - tmp10 - tmp11;
2408     tmp26 = tmp12 + tmp10 - tmp11 - z2;
2409
2410     tmp10 = MULTIPLY(z3, FIX(0.790569415)); /* (c6+c12)/2 */
2411     tmp11 = MULTIPLY(z4, FIX(0.353553391)); /* (c6-c12)/2 */
2412
2413     tmp21 = tmp12 + tmp10 + tmp11;
2414     tmp24 = tmp13 - tmp10 + tmp11;
2415     tmp11 += tmp11;
2416     tmp22 = z1 + tmp11;                     /* c10 = c6-c12 */
2417     tmp27 = z1 - tmp11 - tmp11;             /* c0 = (c6-c12)*2 */
2418
2419     /* Odd part */
2420
2421     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
2422     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
2423     z4 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
2424     z3 = MULTIPLY(z4, FIX(1.224744871));                    /* c5 */
2425     z4 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
2426
2427     tmp13 = z2 - z4;
2428     tmp15 = MULTIPLY(z1 + tmp13, FIX(0.831253876));         /* c9 */
2429     tmp11 = tmp15 + MULTIPLY(z1, FIX(0.513743148));         /* c3-c9 */
2430     tmp14 = tmp15 - MULTIPLY(tmp13, FIX(2.176250899));      /* c3+c9 */
2431
2432     tmp13 = MULTIPLY(z2, - FIX(0.831253876));               /* -c9 */
2433     tmp15 = MULTIPLY(z2, - FIX(1.344997024));               /* -c3 */
2434     z2 = z1 - z4;
2435     tmp12 = z3 + MULTIPLY(z2, FIX(1.406466353));            /* c1 */
2436
2437     tmp10 = tmp12 + MULTIPLY(z4, FIX(2.457431844)) - tmp15; /* c1+c7 */
2438     tmp16 = tmp12 - MULTIPLY(z1, FIX(1.112434820)) + tmp13; /* c1-c13 */
2439     tmp12 = MULTIPLY(z2, FIX(1.224744871)) - z3;            /* c5 */
2440     z2 = MULTIPLY(z1 + z4, FIX(0.575212477));               /* c11 */
2441     tmp13 += z2 + MULTIPLY(z1, FIX(0.475753014)) - z3;      /* c7-c11 */
2442     tmp15 += z2 - MULTIPLY(z4, FIX(0.869244010)) + z3;      /* c11+c13 */
2443
2444     /* Final output stage */
2445
2446     wsptr[8*0]  = (int) RIGHT_SHIFT(tmp20 + tmp10, CONST_BITS-PASS1_BITS);
2447     wsptr[8*14] = (int) RIGHT_SHIFT(tmp20 - tmp10, CONST_BITS-PASS1_BITS);
2448     wsptr[8*1]  = (int) RIGHT_SHIFT(tmp21 + tmp11, CONST_BITS-PASS1_BITS);
2449     wsptr[8*13] = (int) RIGHT_SHIFT(tmp21 - tmp11, CONST_BITS-PASS1_BITS);
2450     wsptr[8*2]  = (int) RIGHT_SHIFT(tmp22 + tmp12, CONST_BITS-PASS1_BITS);
2451     wsptr[8*12] = (int) RIGHT_SHIFT(tmp22 - tmp12, CONST_BITS-PASS1_BITS);
2452     wsptr[8*3]  = (int) RIGHT_SHIFT(tmp23 + tmp13, CONST_BITS-PASS1_BITS);
2453     wsptr[8*11] = (int) RIGHT_SHIFT(tmp23 - tmp13, CONST_BITS-PASS1_BITS);
2454     wsptr[8*4]  = (int) RIGHT_SHIFT(tmp24 + tmp14, CONST_BITS-PASS1_BITS);
2455     wsptr[8*10] = (int) RIGHT_SHIFT(tmp24 - tmp14, CONST_BITS-PASS1_BITS);
2456     wsptr[8*5]  = (int) RIGHT_SHIFT(tmp25 + tmp15, CONST_BITS-PASS1_BITS);
2457     wsptr[8*9]  = (int) RIGHT_SHIFT(tmp25 - tmp15, CONST_BITS-PASS1_BITS);
2458     wsptr[8*6]  = (int) RIGHT_SHIFT(tmp26 + tmp16, CONST_BITS-PASS1_BITS);
2459     wsptr[8*8]  = (int) RIGHT_SHIFT(tmp26 - tmp16, CONST_BITS-PASS1_BITS);
2460     wsptr[8*7]  = (int) RIGHT_SHIFT(tmp27, CONST_BITS-PASS1_BITS);
2461   }
2462
2463   /* Pass 2: process 15 rows from work array, store into output array. */
2464
2465   wsptr = workspace;
2466   for (ctr = 0; ctr < 15; ctr++) {
2467     outptr = output_buf[ctr] + output_col;
2468
2469     /* Even part */
2470
2471     /* Add range center and fudge factor for final descale and range-limit. */
2472     z1 = (INT32) wsptr[0] +
2473            ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
2474             (ONE << (PASS1_BITS+2)));
2475     z1 <<= CONST_BITS;
2476
2477     z2 = (INT32) wsptr[2];
2478     z3 = (INT32) wsptr[4];
2479     z4 = (INT32) wsptr[6];
2480
2481     tmp10 = MULTIPLY(z4, FIX(0.437016024)); /* c12 */
2482     tmp11 = MULTIPLY(z4, FIX(1.144122806)); /* c6 */
2483
2484     tmp12 = z1 - tmp10;
2485     tmp13 = z1 + tmp11;
2486     z1 -= (tmp11 - tmp10) << 1;             /* c0 = (c6-c12)*2 */
2487
2488     z4 = z2 - z3;
2489     z3 += z2;
2490     tmp10 = MULTIPLY(z3, FIX(1.337628990)); /* (c2+c4)/2 */
2491     tmp11 = MULTIPLY(z4, FIX(0.045680613)); /* (c2-c4)/2 */
2492     z2 = MULTIPLY(z2, FIX(1.439773946));    /* c4+c14 */
2493
2494     tmp20 = tmp13 + tmp10 + tmp11;
2495     tmp23 = tmp12 - tmp10 + tmp11 + z2;
2496
2497     tmp10 = MULTIPLY(z3, FIX(0.547059574)); /* (c8+c14)/2 */
2498     tmp11 = MULTIPLY(z4, FIX(0.399234004)); /* (c8-c14)/2 */
2499
2500     tmp25 = tmp13 - tmp10 - tmp11;
2501     tmp26 = tmp12 + tmp10 - tmp11 - z2;
2502
2503     tmp10 = MULTIPLY(z3, FIX(0.790569415)); /* (c6+c12)/2 */
2504     tmp11 = MULTIPLY(z4, FIX(0.353553391)); /* (c6-c12)/2 */
2505
2506     tmp21 = tmp12 + tmp10 + tmp11;
2507     tmp24 = tmp13 - tmp10 + tmp11;
2508     tmp11 += tmp11;
2509     tmp22 = z1 + tmp11;                     /* c10 = c6-c12 */
2510     tmp27 = z1 - tmp11 - tmp11;             /* c0 = (c6-c12)*2 */
2511
2512     /* Odd part */
2513
2514     z1 = (INT32) wsptr[1];
2515     z2 = (INT32) wsptr[3];
2516     z4 = (INT32) wsptr[5];
2517     z3 = MULTIPLY(z4, FIX(1.224744871));                    /* c5 */
2518     z4 = (INT32) wsptr[7];
2519
2520     tmp13 = z2 - z4;
2521     tmp15 = MULTIPLY(z1 + tmp13, FIX(0.831253876));         /* c9 */
2522     tmp11 = tmp15 + MULTIPLY(z1, FIX(0.513743148));         /* c3-c9 */
2523     tmp14 = tmp15 - MULTIPLY(tmp13, FIX(2.176250899));      /* c3+c9 */
2524
2525     tmp13 = MULTIPLY(z2, - FIX(0.831253876));               /* -c9 */
2526     tmp15 = MULTIPLY(z2, - FIX(1.344997024));               /* -c3 */
2527     z2 = z1 - z4;
2528     tmp12 = z3 + MULTIPLY(z2, FIX(1.406466353));            /* c1 */
2529
2530     tmp10 = tmp12 + MULTIPLY(z4, FIX(2.457431844)) - tmp15; /* c1+c7 */
2531     tmp16 = tmp12 - MULTIPLY(z1, FIX(1.112434820)) + tmp13; /* c1-c13 */
2532     tmp12 = MULTIPLY(z2, FIX(1.224744871)) - z3;            /* c5 */
2533     z2 = MULTIPLY(z1 + z4, FIX(0.575212477));               /* c11 */
2534     tmp13 += z2 + MULTIPLY(z1, FIX(0.475753014)) - z3;      /* c7-c11 */
2535     tmp15 += z2 - MULTIPLY(z4, FIX(0.869244010)) + z3;      /* c11+c13 */
2536
2537     /* Final output stage */
2538
2539     outptr[0]  = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp10,
2540                                                CONST_BITS+PASS1_BITS+3)
2541                              & RANGE_MASK];
2542     outptr[14] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp10,
2543                                                CONST_BITS+PASS1_BITS+3)
2544                              & RANGE_MASK];
2545     outptr[1]  = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp11,
2546                                                CONST_BITS+PASS1_BITS+3)
2547                              & RANGE_MASK];
2548     outptr[13] = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp11,
2549                                                CONST_BITS+PASS1_BITS+3)
2550                              & RANGE_MASK];
2551     outptr[2]  = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp12,
2552                                                CONST_BITS+PASS1_BITS+3)
2553                              & RANGE_MASK];
2554     outptr[12] = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp12,
2555                                                CONST_BITS+PASS1_BITS+3)
2556                              & RANGE_MASK];
2557     outptr[3]  = range_limit[(int) RIGHT_SHIFT(tmp23 + tmp13,
2558                                                CONST_BITS+PASS1_BITS+3)
2559                              & RANGE_MASK];
2560     outptr[11] = range_limit[(int) RIGHT_SHIFT(tmp23 - tmp13,
2561                                                CONST_BITS+PASS1_BITS+3)
2562                              & RANGE_MASK];
2563     outptr[4]  = range_limit[(int) RIGHT_SHIFT(tmp24 + tmp14,
2564                                                CONST_BITS+PASS1_BITS+3)
2565                              & RANGE_MASK];
2566     outptr[10] = range_limit[(int) RIGHT_SHIFT(tmp24 - tmp14,
2567                                                CONST_BITS+PASS1_BITS+3)
2568                              & RANGE_MASK];
2569     outptr[5]  = range_limit[(int) RIGHT_SHIFT(tmp25 + tmp15,
2570                                                CONST_BITS+PASS1_BITS+3)
2571                              & RANGE_MASK];
2572     outptr[9]  = range_limit[(int) RIGHT_SHIFT(tmp25 - tmp15,
2573                                                CONST_BITS+PASS1_BITS+3)
2574                              & RANGE_MASK];
2575     outptr[6]  = range_limit[(int) RIGHT_SHIFT(tmp26 + tmp16,
2576                                                CONST_BITS+PASS1_BITS+3)
2577                              & RANGE_MASK];
2578     outptr[8]  = range_limit[(int) RIGHT_SHIFT(tmp26 - tmp16,
2579                                                CONST_BITS+PASS1_BITS+3)
2580                              & RANGE_MASK];
2581     outptr[7]  = range_limit[(int) RIGHT_SHIFT(tmp27,
2582                                                CONST_BITS+PASS1_BITS+3)
2583                              & RANGE_MASK];
2584
2585     wsptr += 8;         /* advance pointer to next row */
2586   }
2587 }
2588
2589
2590 /*
2591  * Perform dequantization and inverse DCT on one block of coefficients,
2592  * producing a 16x16 output block.
2593  *
2594  * Optimized algorithm with 28 multiplications in the 1-D kernel.
2595  * cK represents sqrt(2) * cos(K*pi/32).
2596  */
2597
2598 GLOBAL(void)
2599 jpeg_idct_16x16 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
2600                  JCOEFPTR coef_block,
2601                  JSAMPARRAY output_buf, JDIMENSION output_col)
2602 {
2603   INT32 tmp0, tmp1, tmp2, tmp3, tmp10, tmp11, tmp12, tmp13;
2604   INT32 tmp20, tmp21, tmp22, tmp23, tmp24, tmp25, tmp26, tmp27;
2605   INT32 z1, z2, z3, z4;
2606   JCOEFPTR inptr;
2607   ISLOW_MULT_TYPE * quantptr;
2608   int * wsptr;
2609   JSAMPROW outptr;
2610   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
2611   int ctr;
2612   int workspace[8*16];  /* buffers data between passes */
2613   SHIFT_TEMPS
2614
2615   /* Pass 1: process columns from input, store into work array. */
2616
2617   inptr = coef_block;
2618   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
2619   wsptr = workspace;
2620   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
2621     /* Even part */
2622
2623     tmp0 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
2624     tmp0 <<= CONST_BITS;
2625     /* Add fudge factor here for final descale. */
2626     tmp0 += 1 << (CONST_BITS-PASS1_BITS-1);
2627
2628     z1 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
2629     tmp1 = MULTIPLY(z1, FIX(1.306562965));      /* c4[16] = c2[8] */
2630     tmp2 = MULTIPLY(z1, FIX_0_541196100);       /* c12[16] = c6[8] */
2631
2632     tmp10 = tmp0 + tmp1;
2633     tmp11 = tmp0 - tmp1;
2634     tmp12 = tmp0 + tmp2;
2635     tmp13 = tmp0 - tmp2;
2636
2637     z1 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
2638     z2 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
2639     z3 = z1 - z2;
2640     z4 = MULTIPLY(z3, FIX(0.275899379));        /* c14[16] = c7[8] */
2641     z3 = MULTIPLY(z3, FIX(1.387039845));        /* c2[16] = c1[8] */
2642
2643     tmp0 = z3 + MULTIPLY(z2, FIX_2_562915447);  /* (c6+c2)[16] = (c3+c1)[8] */
2644     tmp1 = z4 + MULTIPLY(z1, FIX_0_899976223);  /* (c6-c14)[16] = (c3-c7)[8] */
2645     tmp2 = z3 - MULTIPLY(z1, FIX(0.601344887)); /* (c2-c10)[16] = (c1-c5)[8] */
2646     tmp3 = z4 - MULTIPLY(z2, FIX(0.509795579)); /* (c10-c14)[16] = (c5-c7)[8] */
2647
2648     tmp20 = tmp10 + tmp0;
2649     tmp27 = tmp10 - tmp0;
2650     tmp21 = tmp12 + tmp1;
2651     tmp26 = tmp12 - tmp1;
2652     tmp22 = tmp13 + tmp2;
2653     tmp25 = tmp13 - tmp2;
2654     tmp23 = tmp11 + tmp3;
2655     tmp24 = tmp11 - tmp3;
2656
2657     /* Odd part */
2658
2659     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
2660     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
2661     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
2662     z4 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
2663
2664     tmp11 = z1 + z3;
2665
2666     tmp1  = MULTIPLY(z1 + z2, FIX(1.353318001));   /* c3 */
2667     tmp2  = MULTIPLY(tmp11,   FIX(1.247225013));   /* c5 */
2668     tmp3  = MULTIPLY(z1 + z4, FIX(1.093201867));   /* c7 */
2669     tmp10 = MULTIPLY(z1 - z4, FIX(0.897167586));   /* c9 */
2670     tmp11 = MULTIPLY(tmp11,   FIX(0.666655658));   /* c11 */
2671     tmp12 = MULTIPLY(z1 - z2, FIX(0.410524528));   /* c13 */
2672     tmp0  = tmp1 + tmp2 + tmp3 -
2673             MULTIPLY(z1, FIX(2.286341144));        /* c7+c5+c3-c1 */
2674     tmp13 = tmp10 + tmp11 + tmp12 -
2675             MULTIPLY(z1, FIX(1.835730603));        /* c9+c11+c13-c15 */
2676     z1    = MULTIPLY(z2 + z3, FIX(0.138617169));   /* c15 */
2677     tmp1  += z1 + MULTIPLY(z2, FIX(0.071888074));  /* c9+c11-c3-c15 */
2678     tmp2  += z1 - MULTIPLY(z3, FIX(1.125726048));  /* c5+c7+c15-c3 */
2679     z1    = MULTIPLY(z3 - z2, FIX(1.407403738));   /* c1 */
2680     tmp11 += z1 - MULTIPLY(z3, FIX(0.766367282));  /* c1+c11-c9-c13 */
2681     tmp12 += z1 + MULTIPLY(z2, FIX(1.971951411));  /* c1+c5+c13-c7 */
2682     z2    += z4;
2683     z1    = MULTIPLY(z2, - FIX(0.666655658));      /* -c11 */
2684     tmp1  += z1;
2685     tmp3  += z1 + MULTIPLY(z4, FIX(1.065388962));  /* c3+c11+c15-c7 */
2686     z2    = MULTIPLY(z2, - FIX(1.247225013));      /* -c5 */
2687     tmp10 += z2 + MULTIPLY(z4, FIX(3.141271809));  /* c1+c5+c9-c13 */
2688     tmp12 += z2;
2689     z2    = MULTIPLY(z3 + z4, - FIX(1.353318001)); /* -c3 */
2690     tmp2  += z2;
2691     tmp3  += z2;
2692     z2    = MULTIPLY(z4 - z3, FIX(0.410524528));   /* c13 */
2693     tmp10 += z2;
2694     tmp11 += z2;
2695
2696     /* Final output stage */
2697
2698     wsptr[8*0]  = (int) RIGHT_SHIFT(tmp20 + tmp0,  CONST_BITS-PASS1_BITS);
2699     wsptr[8*15] = (int) RIGHT_SHIFT(tmp20 - tmp0,  CONST_BITS-PASS1_BITS);
2700     wsptr[8*1]  = (int) RIGHT_SHIFT(tmp21 + tmp1,  CONST_BITS-PASS1_BITS);
2701     wsptr[8*14] = (int) RIGHT_SHIFT(tmp21 - tmp1,  CONST_BITS-PASS1_BITS);
2702     wsptr[8*2]  = (int) RIGHT_SHIFT(tmp22 + tmp2,  CONST_BITS-PASS1_BITS);
2703     wsptr[8*13] = (int) RIGHT_SHIFT(tmp22 - tmp2,  CONST_BITS-PASS1_BITS);
2704     wsptr[8*3]  = (int) RIGHT_SHIFT(tmp23 + tmp3,  CONST_BITS-PASS1_BITS);
2705     wsptr[8*12] = (int) RIGHT_SHIFT(tmp23 - tmp3,  CONST_BITS-PASS1_BITS);
2706     wsptr[8*4]  = (int) RIGHT_SHIFT(tmp24 + tmp10, CONST_BITS-PASS1_BITS);
2707     wsptr[8*11] = (int) RIGHT_SHIFT(tmp24 - tmp10, CONST_BITS-PASS1_BITS);
2708     wsptr[8*5]  = (int) RIGHT_SHIFT(tmp25 + tmp11, CONST_BITS-PASS1_BITS);
2709     wsptr[8*10] = (int) RIGHT_SHIFT(tmp25 - tmp11, CONST_BITS-PASS1_BITS);
2710     wsptr[8*6]  = (int) RIGHT_SHIFT(tmp26 + tmp12, CONST_BITS-PASS1_BITS);
2711     wsptr[8*9]  = (int) RIGHT_SHIFT(tmp26 - tmp12, CONST_BITS-PASS1_BITS);
2712     wsptr[8*7]  = (int) RIGHT_SHIFT(tmp27 + tmp13, CONST_BITS-PASS1_BITS);
2713     wsptr[8*8]  = (int) RIGHT_SHIFT(tmp27 - tmp13, CONST_BITS-PASS1_BITS);
2714   }
2715
2716   /* Pass 2: process 16 rows from work array, store into output array. */
2717
2718   wsptr = workspace;
2719   for (ctr = 0; ctr < 16; ctr++) {
2720     outptr = output_buf[ctr] + output_col;
2721
2722     /* Even part */
2723
2724     /* Add range center and fudge factor for final descale and range-limit. */
2725     tmp0 = (INT32) wsptr[0] +
2726              ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
2727               (ONE << (PASS1_BITS+2)));
2728     tmp0 <<= CONST_BITS;
2729
2730     z1 = (INT32) wsptr[4];
2731     tmp1 = MULTIPLY(z1, FIX(1.306562965));      /* c4[16] = c2[8] */
2732     tmp2 = MULTIPLY(z1, FIX_0_541196100);       /* c12[16] = c6[8] */
2733
2734     tmp10 = tmp0 + tmp1;
2735     tmp11 = tmp0 - tmp1;
2736     tmp12 = tmp0 + tmp2;
2737     tmp13 = tmp0 - tmp2;
2738
2739     z1 = (INT32) wsptr[2];
2740     z2 = (INT32) wsptr[6];
2741     z3 = z1 - z2;
2742     z4 = MULTIPLY(z3, FIX(0.275899379));        /* c14[16] = c7[8] */
2743     z3 = MULTIPLY(z3, FIX(1.387039845));        /* c2[16] = c1[8] */
2744
2745     tmp0 = z3 + MULTIPLY(z2, FIX_2_562915447);  /* (c6+c2)[16] = (c3+c1)[8] */
2746     tmp1 = z4 + MULTIPLY(z1, FIX_0_899976223);  /* (c6-c14)[16] = (c3-c7)[8] */
2747     tmp2 = z3 - MULTIPLY(z1, FIX(0.601344887)); /* (c2-c10)[16] = (c1-c5)[8] */
2748     tmp3 = z4 - MULTIPLY(z2, FIX(0.509795579)); /* (c10-c14)[16] = (c5-c7)[8] */
2749
2750     tmp20 = tmp10 + tmp0;
2751     tmp27 = tmp10 - tmp0;
2752     tmp21 = tmp12 + tmp1;
2753     tmp26 = tmp12 - tmp1;
2754     tmp22 = tmp13 + tmp2;
2755     tmp25 = tmp13 - tmp2;
2756     tmp23 = tmp11 + tmp3;
2757     tmp24 = tmp11 - tmp3;
2758
2759     /* Odd part */
2760
2761     z1 = (INT32) wsptr[1];
2762     z2 = (INT32) wsptr[3];
2763     z3 = (INT32) wsptr[5];
2764     z4 = (INT32) wsptr[7];
2765
2766     tmp11 = z1 + z3;
2767
2768     tmp1  = MULTIPLY(z1 + z2, FIX(1.353318001));   /* c3 */
2769     tmp2  = MULTIPLY(tmp11,   FIX(1.247225013));   /* c5 */
2770     tmp3  = MULTIPLY(z1 + z4, FIX(1.093201867));   /* c7 */
2771     tmp10 = MULTIPLY(z1 - z4, FIX(0.897167586));   /* c9 */
2772     tmp11 = MULTIPLY(tmp11,   FIX(0.666655658));   /* c11 */
2773     tmp12 = MULTIPLY(z1 - z2, FIX(0.410524528));   /* c13 */
2774     tmp0  = tmp1 + tmp2 + tmp3 -
2775             MULTIPLY(z1, FIX(2.286341144));        /* c7+c5+c3-c1 */
2776     tmp13 = tmp10 + tmp11 + tmp12 -
2777             MULTIPLY(z1, FIX(1.835730603));        /* c9+c11+c13-c15 */
2778     z1    = MULTIPLY(z2 + z3, FIX(0.138617169));   /* c15 */
2779     tmp1  += z1 + MULTIPLY(z2, FIX(0.071888074));  /* c9+c11-c3-c15 */
2780     tmp2  += z1 - MULTIPLY(z3, FIX(1.125726048));  /* c5+c7+c15-c3 */
2781     z1    = MULTIPLY(z3 - z2, FIX(1.407403738));   /* c1 */
2782     tmp11 += z1 - MULTIPLY(z3, FIX(0.766367282));  /* c1+c11-c9-c13 */
2783     tmp12 += z1 + MULTIPLY(z2, FIX(1.971951411));  /* c1+c5+c13-c7 */
2784     z2    += z4;
2785     z1    = MULTIPLY(z2, - FIX(0.666655658));      /* -c11 */
2786     tmp1  += z1;
2787     tmp3  += z1 + MULTIPLY(z4, FIX(1.065388962));  /* c3+c11+c15-c7 */
2788     z2    = MULTIPLY(z2, - FIX(1.247225013));      /* -c5 */
2789     tmp10 += z2 + MULTIPLY(z4, FIX(3.141271809));  /* c1+c5+c9-c13 */
2790     tmp12 += z2;
2791     z2    = MULTIPLY(z3 + z4, - FIX(1.353318001)); /* -c3 */
2792     tmp2  += z2;
2793     tmp3  += z2;
2794     z2    = MULTIPLY(z4 - z3, FIX(0.410524528));   /* c13 */
2795     tmp10 += z2;
2796     tmp11 += z2;
2797
2798     /* Final output stage */
2799
2800     outptr[0]  = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp0,
2801                                                CONST_BITS+PASS1_BITS+3)
2802                              & RANGE_MASK];
2803     outptr[15] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp0,
2804                                                CONST_BITS+PASS1_BITS+3)
2805                              & RANGE_MASK];
2806     outptr[1]  = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp1,
2807                                                CONST_BITS+PASS1_BITS+3)
2808                              & RANGE_MASK];
2809     outptr[14] = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp1,
2810                                                CONST_BITS+PASS1_BITS+3)
2811                              & RANGE_MASK];
2812     outptr[2]  = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp2,
2813                                                CONST_BITS+PASS1_BITS+3)
2814                              & RANGE_MASK];
2815     outptr[13] = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp2,
2816                                                CONST_BITS+PASS1_BITS+3)
2817                              & RANGE_MASK];
2818     outptr[3]  = range_limit[(int) RIGHT_SHIFT(tmp23 + tmp3,
2819                                                CONST_BITS+PASS1_BITS+3)
2820                              & RANGE_MASK];
2821     outptr[12] = range_limit[(int) RIGHT_SHIFT(tmp23 - tmp3,
2822                                                CONST_BITS+PASS1_BITS+3)
2823                              & RANGE_MASK];
2824     outptr[4]  = range_limit[(int) RIGHT_SHIFT(tmp24 + tmp10,
2825                                                CONST_BITS+PASS1_BITS+3)
2826                              & RANGE_MASK];
2827     outptr[11] = range_limit[(int) RIGHT_SHIFT(tmp24 - tmp10,
2828                                                CONST_BITS+PASS1_BITS+3)
2829                              & RANGE_MASK];
2830     outptr[5]  = range_limit[(int) RIGHT_SHIFT(tmp25 + tmp11,
2831                                                CONST_BITS+PASS1_BITS+3)
2832                              & RANGE_MASK];
2833     outptr[10] = range_limit[(int) RIGHT_SHIFT(tmp25 - tmp11,
2834                                                CONST_BITS+PASS1_BITS+3)
2835                              & RANGE_MASK];
2836     outptr[6]  = range_limit[(int) RIGHT_SHIFT(tmp26 + tmp12,
2837                                                CONST_BITS+PASS1_BITS+3)
2838                              & RANGE_MASK];
2839     outptr[9]  = range_limit[(int) RIGHT_SHIFT(tmp26 - tmp12,
2840                                                CONST_BITS+PASS1_BITS+3)
2841                              & RANGE_MASK];
2842     outptr[7]  = range_limit[(int) RIGHT_SHIFT(tmp27 + tmp13,
2843                                                CONST_BITS+PASS1_BITS+3)
2844                              & RANGE_MASK];
2845     outptr[8]  = range_limit[(int) RIGHT_SHIFT(tmp27 - tmp13,
2846                                                CONST_BITS+PASS1_BITS+3)
2847                              & RANGE_MASK];
2848
2849     wsptr += 8;         /* advance pointer to next row */
2850   }
2851 }
2852
2853
2854 /*
2855  * Perform dequantization and inverse DCT on one block of coefficients,
2856  * producing a 16x8 output block.
2857  *
2858  * 8-point IDCT in pass 1 (columns), 16-point in pass 2 (rows).
2859  */
2860
2861 GLOBAL(void)
2862 jpeg_idct_16x8 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
2863                 JCOEFPTR coef_block,
2864                 JSAMPARRAY output_buf, JDIMENSION output_col)
2865 {
2866   INT32 tmp0, tmp1, tmp2, tmp3, tmp10, tmp11, tmp12, tmp13;
2867   INT32 tmp20, tmp21, tmp22, tmp23, tmp24, tmp25, tmp26, tmp27;
2868   INT32 z1, z2, z3, z4;
2869   JCOEFPTR inptr;
2870   ISLOW_MULT_TYPE * quantptr;
2871   int * wsptr;
2872   JSAMPROW outptr;
2873   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
2874   int ctr;
2875   int workspace[8*8];   /* buffers data between passes */
2876   SHIFT_TEMPS
2877
2878   /* Pass 1: process columns from input, store into work array.
2879    * Note results are scaled up by sqrt(8) compared to a true IDCT;
2880    * furthermore, we scale the results by 2**PASS1_BITS.
2881    * 8-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/16).
2882    */
2883
2884   inptr = coef_block;
2885   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
2886   wsptr = workspace;
2887   for (ctr = DCTSIZE; ctr > 0; ctr--) {
2888     /* Due to quantization, we will usually find that many of the input
2889      * coefficients are zero, especially the AC terms.  We can exploit this
2890      * by short-circuiting the IDCT calculation for any column in which all
2891      * the AC terms are zero.  In that case each output is equal to the
2892      * DC coefficient (with scale factor as needed).
2893      * With typical images and quantization tables, half or more of the
2894      * column DCT calculations can be simplified this way.
2895      */
2896
2897     if (inptr[DCTSIZE*1] == 0 && inptr[DCTSIZE*2] == 0 &&
2898         inptr[DCTSIZE*3] == 0 && inptr[DCTSIZE*4] == 0 &&
2899         inptr[DCTSIZE*5] == 0 && inptr[DCTSIZE*6] == 0 &&
2900         inptr[DCTSIZE*7] == 0) {
2901       /* AC terms all zero */
2902       int dcval = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]) << PASS1_BITS;
2903
2904       wsptr[DCTSIZE*0] = dcval;
2905       wsptr[DCTSIZE*1] = dcval;
2906       wsptr[DCTSIZE*2] = dcval;
2907       wsptr[DCTSIZE*3] = dcval;
2908       wsptr[DCTSIZE*4] = dcval;
2909       wsptr[DCTSIZE*5] = dcval;
2910       wsptr[DCTSIZE*6] = dcval;
2911       wsptr[DCTSIZE*7] = dcval;
2912
2913       inptr++;                  /* advance pointers to next column */
2914       quantptr++;
2915       wsptr++;
2916       continue;
2917     }
2918
2919     /* Even part: reverse the even part of the forward DCT.
2920      * The rotator is c(-6).
2921      */
2922
2923     z2 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
2924     z3 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
2925
2926     z1 = MULTIPLY(z2 + z3, FIX_0_541196100);       /* c6 */
2927     tmp2 = z1 + MULTIPLY(z2, FIX_0_765366865);     /* c2-c6 */
2928     tmp3 = z1 - MULTIPLY(z3, FIX_1_847759065);     /* c2+c6 */
2929
2930     z2 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
2931     z3 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
2932     z2 <<= CONST_BITS;
2933     z3 <<= CONST_BITS;
2934     /* Add fudge factor here for final descale. */
2935     z2 += ONE << (CONST_BITS-PASS1_BITS-1);
2936
2937     tmp0 = z2 + z3;
2938     tmp1 = z2 - z3;
2939
2940     tmp10 = tmp0 + tmp2;
2941     tmp13 = tmp0 - tmp2;
2942     tmp11 = tmp1 + tmp3;
2943     tmp12 = tmp1 - tmp3;
2944
2945     /* Odd part per figure 8; the matrix is unitary and hence its
2946      * transpose is its inverse.  i0..i3 are y7,y5,y3,y1 respectively.
2947      */
2948
2949     tmp0 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
2950     tmp1 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
2951     tmp2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
2952     tmp3 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
2953
2954     z2 = tmp0 + tmp2;
2955     z3 = tmp1 + tmp3;
2956
2957     z1 = MULTIPLY(z2 + z3, FIX_1_175875602);       /*  c3 */
2958     z2 = MULTIPLY(z2, - FIX_1_961570560);          /* -c3-c5 */
2959     z3 = MULTIPLY(z3, - FIX_0_390180644);          /* -c3+c5 */
2960     z2 += z1;
2961     z3 += z1;
2962
2963     z1 = MULTIPLY(tmp0 + tmp3, - FIX_0_899976223); /* -c3+c7 */
2964     tmp0 = MULTIPLY(tmp0, FIX_0_298631336);        /* -c1+c3+c5-c7 */
2965     tmp3 = MULTIPLY(tmp3, FIX_1_501321110);        /*  c1+c3-c5-c7 */
2966     tmp0 += z1 + z2;
2967     tmp3 += z1 + z3;
2968
2969     z1 = MULTIPLY(tmp1 + tmp2, - FIX_2_562915447); /* -c1-c3 */
2970     tmp1 = MULTIPLY(tmp1, FIX_2_053119869);        /*  c1+c3-c5+c7 */
2971     tmp2 = MULTIPLY(tmp2, FIX_3_072711026);        /*  c1+c3+c5-c7 */
2972     tmp1 += z1 + z3;
2973     tmp2 += z1 + z2;
2974
2975     /* Final output stage: inputs are tmp10..tmp13, tmp0..tmp3 */
2976
2977     wsptr[DCTSIZE*0] = (int) RIGHT_SHIFT(tmp10 + tmp3, CONST_BITS-PASS1_BITS);
2978     wsptr[DCTSIZE*7] = (int) RIGHT_SHIFT(tmp10 - tmp3, CONST_BITS-PASS1_BITS);
2979     wsptr[DCTSIZE*1] = (int) RIGHT_SHIFT(tmp11 + tmp2, CONST_BITS-PASS1_BITS);
2980     wsptr[DCTSIZE*6] = (int) RIGHT_SHIFT(tmp11 - tmp2, CONST_BITS-PASS1_BITS);
2981     wsptr[DCTSIZE*2] = (int) RIGHT_SHIFT(tmp12 + tmp1, CONST_BITS-PASS1_BITS);
2982     wsptr[DCTSIZE*5] = (int) RIGHT_SHIFT(tmp12 - tmp1, CONST_BITS-PASS1_BITS);
2983     wsptr[DCTSIZE*3] = (int) RIGHT_SHIFT(tmp13 + tmp0, CONST_BITS-PASS1_BITS);
2984     wsptr[DCTSIZE*4] = (int) RIGHT_SHIFT(tmp13 - tmp0, CONST_BITS-PASS1_BITS);
2985
2986     inptr++;                    /* advance pointers to next column */
2987     quantptr++;
2988     wsptr++;
2989   }
2990
2991   /* Pass 2: process 8 rows from work array, store into output array.
2992    * 16-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/32).
2993    */
2994
2995   wsptr = workspace;
2996   for (ctr = 0; ctr < 8; ctr++) {
2997     outptr = output_buf[ctr] + output_col;
2998
2999     /* Even part */
3000
3001     /* Add range center and fudge factor for final descale and range-limit. */
3002     tmp0 = (INT32) wsptr[0] +
3003              ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
3004               (ONE << (PASS1_BITS+2)));
3005     tmp0 <<= CONST_BITS;
3006
3007     z1 = (INT32) wsptr[4];
3008     tmp1 = MULTIPLY(z1, FIX(1.306562965));      /* c4[16] = c2[8] */
3009     tmp2 = MULTIPLY(z1, FIX_0_541196100);       /* c12[16] = c6[8] */
3010
3011     tmp10 = tmp0 + tmp1;
3012     tmp11 = tmp0 - tmp1;
3013     tmp12 = tmp0 + tmp2;
3014     tmp13 = tmp0 - tmp2;
3015
3016     z1 = (INT32) wsptr[2];
3017     z2 = (INT32) wsptr[6];
3018     z3 = z1 - z2;
3019     z4 = MULTIPLY(z3, FIX(0.275899379));        /* c14[16] = c7[8] */
3020     z3 = MULTIPLY(z3, FIX(1.387039845));        /* c2[16] = c1[8] */
3021
3022     tmp0 = z3 + MULTIPLY(z2, FIX_2_562915447);  /* (c6+c2)[16] = (c3+c1)[8] */
3023     tmp1 = z4 + MULTIPLY(z1, FIX_0_899976223);  /* (c6-c14)[16] = (c3-c7)[8] */
3024     tmp2 = z3 - MULTIPLY(z1, FIX(0.601344887)); /* (c2-c10)[16] = (c1-c5)[8] */
3025     tmp3 = z4 - MULTIPLY(z2, FIX(0.509795579)); /* (c10-c14)[16] = (c5-c7)[8] */
3026
3027     tmp20 = tmp10 + tmp0;
3028     tmp27 = tmp10 - tmp0;
3029     tmp21 = tmp12 + tmp1;
3030     tmp26 = tmp12 - tmp1;
3031     tmp22 = tmp13 + tmp2;
3032     tmp25 = tmp13 - tmp2;
3033     tmp23 = tmp11 + tmp3;
3034     tmp24 = tmp11 - tmp3;
3035
3036     /* Odd part */
3037
3038     z1 = (INT32) wsptr[1];
3039     z2 = (INT32) wsptr[3];
3040     z3 = (INT32) wsptr[5];
3041     z4 = (INT32) wsptr[7];
3042
3043     tmp11 = z1 + z3;
3044
3045     tmp1  = MULTIPLY(z1 + z2, FIX(1.353318001));   /* c3 */
3046     tmp2  = MULTIPLY(tmp11,   FIX(1.247225013));   /* c5 */
3047     tmp3  = MULTIPLY(z1 + z4, FIX(1.093201867));   /* c7 */
3048     tmp10 = MULTIPLY(z1 - z4, FIX(0.897167586));   /* c9 */
3049     tmp11 = MULTIPLY(tmp11,   FIX(0.666655658));   /* c11 */
3050     tmp12 = MULTIPLY(z1 - z2, FIX(0.410524528));   /* c13 */
3051     tmp0  = tmp1 + tmp2 + tmp3 -
3052             MULTIPLY(z1, FIX(2.286341144));        /* c7+c5+c3-c1 */
3053     tmp13 = tmp10 + tmp11 + tmp12 -
3054             MULTIPLY(z1, FIX(1.835730603));        /* c9+c11+c13-c15 */
3055     z1    = MULTIPLY(z2 + z3, FIX(0.138617169));   /* c15 */
3056     tmp1  += z1 + MULTIPLY(z2, FIX(0.071888074));  /* c9+c11-c3-c15 */
3057     tmp2  += z1 - MULTIPLY(z3, FIX(1.125726048));  /* c5+c7+c15-c3 */
3058     z1    = MULTIPLY(z3 - z2, FIX(1.407403738));   /* c1 */
3059     tmp11 += z1 - MULTIPLY(z3, FIX(0.766367282));  /* c1+c11-c9-c13 */
3060     tmp12 += z1 + MULTIPLY(z2, FIX(1.971951411));  /* c1+c5+c13-c7 */
3061     z2    += z4;
3062     z1    = MULTIPLY(z2, - FIX(0.666655658));      /* -c11 */
3063     tmp1  += z1;
3064     tmp3  += z1 + MULTIPLY(z4, FIX(1.065388962));  /* c3+c11+c15-c7 */
3065     z2    = MULTIPLY(z2, - FIX(1.247225013));      /* -c5 */
3066     tmp10 += z2 + MULTIPLY(z4, FIX(3.141271809));  /* c1+c5+c9-c13 */
3067     tmp12 += z2;
3068     z2    = MULTIPLY(z3 + z4, - FIX(1.353318001)); /* -c3 */
3069     tmp2  += z2;
3070     tmp3  += z2;
3071     z2    = MULTIPLY(z4 - z3, FIX(0.410524528));   /* c13 */
3072     tmp10 += z2;
3073     tmp11 += z2;
3074
3075     /* Final output stage */
3076
3077     outptr[0]  = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp0,
3078                                                CONST_BITS+PASS1_BITS+3)
3079                              & RANGE_MASK];
3080     outptr[15] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp0,
3081                                                CONST_BITS+PASS1_BITS+3)
3082                              & RANGE_MASK];
3083     outptr[1]  = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp1,
3084                                                CONST_BITS+PASS1_BITS+3)
3085                              & RANGE_MASK];
3086     outptr[14] = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp1,
3087                                                CONST_BITS+PASS1_BITS+3)
3088                              & RANGE_MASK];
3089     outptr[2]  = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp2,
3090                                                CONST_BITS+PASS1_BITS+3)
3091                              & RANGE_MASK];
3092     outptr[13] = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp2,
3093                                                CONST_BITS+PASS1_BITS+3)
3094                              & RANGE_MASK];
3095     outptr[3]  = range_limit[(int) RIGHT_SHIFT(tmp23 + tmp3,
3096                                                CONST_BITS+PASS1_BITS+3)
3097                              & RANGE_MASK];
3098     outptr[12] = range_limit[(int) RIGHT_SHIFT(tmp23 - tmp3,
3099                                                CONST_BITS+PASS1_BITS+3)
3100                              & RANGE_MASK];
3101     outptr[4]  = range_limit[(int) RIGHT_SHIFT(tmp24 + tmp10,
3102                                                CONST_BITS+PASS1_BITS+3)
3103                              & RANGE_MASK];
3104     outptr[11] = range_limit[(int) RIGHT_SHIFT(tmp24 - tmp10,
3105                                                CONST_BITS+PASS1_BITS+3)
3106                              & RANGE_MASK];
3107     outptr[5]  = range_limit[(int) RIGHT_SHIFT(tmp25 + tmp11,
3108                                                CONST_BITS+PASS1_BITS+3)
3109                              & RANGE_MASK];
3110     outptr[10] = range_limit[(int) RIGHT_SHIFT(tmp25 - tmp11,
3111                                                CONST_BITS+PASS1_BITS+3)
3112                              & RANGE_MASK];
3113     outptr[6]  = range_limit[(int) RIGHT_SHIFT(tmp26 + tmp12,
3114                                                CONST_BITS+PASS1_BITS+3)
3115                              & RANGE_MASK];
3116     outptr[9]  = range_limit[(int) RIGHT_SHIFT(tmp26 - tmp12,
3117                                                CONST_BITS+PASS1_BITS+3)
3118                              & RANGE_MASK];
3119     outptr[7]  = range_limit[(int) RIGHT_SHIFT(tmp27 + tmp13,
3120                                                CONST_BITS+PASS1_BITS+3)
3121                              & RANGE_MASK];
3122     outptr[8]  = range_limit[(int) RIGHT_SHIFT(tmp27 - tmp13,
3123                                                CONST_BITS+PASS1_BITS+3)
3124                              & RANGE_MASK];
3125
3126     wsptr += 8;         /* advance pointer to next row */
3127   }
3128 }
3129
3130
3131 /*
3132  * Perform dequantization and inverse DCT on one block of coefficients,
3133  * producing a 14x7 output block.
3134  *
3135  * 7-point IDCT in pass 1 (columns), 14-point in pass 2 (rows).
3136  */
3137
3138 GLOBAL(void)
3139 jpeg_idct_14x7 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
3140                 JCOEFPTR coef_block,
3141                 JSAMPARRAY output_buf, JDIMENSION output_col)
3142 {
3143   INT32 tmp10, tmp11, tmp12, tmp13, tmp14, tmp15, tmp16;
3144   INT32 tmp20, tmp21, tmp22, tmp23, tmp24, tmp25, tmp26;
3145   INT32 z1, z2, z3, z4;
3146   JCOEFPTR inptr;
3147   ISLOW_MULT_TYPE * quantptr;
3148   int * wsptr;
3149   JSAMPROW outptr;
3150   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
3151   int ctr;
3152   int workspace[8*7];   /* buffers data between passes */
3153   SHIFT_TEMPS
3154
3155   /* Pass 1: process columns from input, store into work array.
3156    * 7-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/14).
3157    */
3158
3159   inptr = coef_block;
3160   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
3161   wsptr = workspace;
3162   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
3163     /* Even part */
3164
3165     tmp23 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
3166     tmp23 <<= CONST_BITS;
3167     /* Add fudge factor here for final descale. */
3168     tmp23 += ONE << (CONST_BITS-PASS1_BITS-1);
3169
3170     z1 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
3171     z2 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
3172     z3 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
3173
3174     tmp20 = MULTIPLY(z2 - z3, FIX(0.881747734));       /* c4 */
3175     tmp22 = MULTIPLY(z1 - z2, FIX(0.314692123));       /* c6 */
3176     tmp21 = tmp20 + tmp22 + tmp23 - MULTIPLY(z2, FIX(1.841218003)); /* c2+c4-c6 */
3177     tmp10 = z1 + z3;
3178     z2 -= tmp10;
3179     tmp10 = MULTIPLY(tmp10, FIX(1.274162392)) + tmp23; /* c2 */
3180     tmp20 += tmp10 - MULTIPLY(z3, FIX(0.077722536));   /* c2-c4-c6 */
3181     tmp22 += tmp10 - MULTIPLY(z1, FIX(2.470602249));   /* c2+c4+c6 */
3182     tmp23 += MULTIPLY(z2, FIX(1.414213562));           /* c0 */
3183
3184     /* Odd part */
3185
3186     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
3187     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
3188     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
3189
3190     tmp11 = MULTIPLY(z1 + z2, FIX(0.935414347));       /* (c3+c1-c5)/2 */
3191     tmp12 = MULTIPLY(z1 - z2, FIX(0.170262339));       /* (c3+c5-c1)/2 */
3192     tmp10 = tmp11 - tmp12;
3193     tmp11 += tmp12;
3194     tmp12 = MULTIPLY(z2 + z3, - FIX(1.378756276));     /* -c1 */
3195     tmp11 += tmp12;
3196     z2 = MULTIPLY(z1 + z3, FIX(0.613604268));          /* c5 */
3197     tmp10 += z2;
3198     tmp12 += z2 + MULTIPLY(z3, FIX(1.870828693));      /* c3+c1-c5 */
3199
3200     /* Final output stage */
3201
3202     wsptr[8*0] = (int) RIGHT_SHIFT(tmp20 + tmp10, CONST_BITS-PASS1_BITS);
3203     wsptr[8*6] = (int) RIGHT_SHIFT(tmp20 - tmp10, CONST_BITS-PASS1_BITS);
3204     wsptr[8*1] = (int) RIGHT_SHIFT(tmp21 + tmp11, CONST_BITS-PASS1_BITS);
3205     wsptr[8*5] = (int) RIGHT_SHIFT(tmp21 - tmp11, CONST_BITS-PASS1_BITS);
3206     wsptr[8*2] = (int) RIGHT_SHIFT(tmp22 + tmp12, CONST_BITS-PASS1_BITS);
3207     wsptr[8*4] = (int) RIGHT_SHIFT(tmp22 - tmp12, CONST_BITS-PASS1_BITS);
3208     wsptr[8*3] = (int) RIGHT_SHIFT(tmp23, CONST_BITS-PASS1_BITS);
3209   }
3210
3211   /* Pass 2: process 7 rows from work array, store into output array.
3212    * 14-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/28).
3213    */
3214
3215   wsptr = workspace;
3216   for (ctr = 0; ctr < 7; ctr++) {
3217     outptr = output_buf[ctr] + output_col;
3218
3219     /* Even part */
3220
3221     /* Add range center and fudge factor for final descale and range-limit. */
3222     z1 = (INT32) wsptr[0] +
3223            ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
3224             (ONE << (PASS1_BITS+2)));
3225     z1 <<= CONST_BITS;
3226     z4 = (INT32) wsptr[4];
3227     z2 = MULTIPLY(z4, FIX(1.274162392));         /* c4 */
3228     z3 = MULTIPLY(z4, FIX(0.314692123));         /* c12 */
3229     z4 = MULTIPLY(z4, FIX(0.881747734));         /* c8 */
3230
3231     tmp10 = z1 + z2;
3232     tmp11 = z1 + z3;
3233     tmp12 = z1 - z4;
3234
3235     tmp23 = z1 - ((z2 + z3 - z4) << 1);          /* c0 = (c4+c12-c8)*2 */
3236
3237     z1 = (INT32) wsptr[2];
3238     z2 = (INT32) wsptr[6];
3239
3240     z3 = MULTIPLY(z1 + z2, FIX(1.105676686));    /* c6 */
3241
3242     tmp13 = z3 + MULTIPLY(z1, FIX(0.273079590)); /* c2-c6 */
3243     tmp14 = z3 - MULTIPLY(z2, FIX(1.719280954)); /* c6+c10 */
3244     tmp15 = MULTIPLY(z1, FIX(0.613604268)) -     /* c10 */
3245             MULTIPLY(z2, FIX(1.378756276));      /* c2 */
3246
3247     tmp20 = tmp10 + tmp13;
3248     tmp26 = tmp10 - tmp13;
3249     tmp21 = tmp11 + tmp14;
3250     tmp25 = tmp11 - tmp14;
3251     tmp22 = tmp12 + tmp15;
3252     tmp24 = tmp12 - tmp15;
3253
3254     /* Odd part */
3255
3256     z1 = (INT32) wsptr[1];
3257     z2 = (INT32) wsptr[3];
3258     z3 = (INT32) wsptr[5];
3259     z4 = (INT32) wsptr[7];
3260     z4 <<= CONST_BITS;
3261
3262     tmp14 = z1 + z3;
3263     tmp11 = MULTIPLY(z1 + z2, FIX(1.334852607));           /* c3 */
3264     tmp12 = MULTIPLY(tmp14, FIX(1.197448846));             /* c5 */
3265     tmp10 = tmp11 + tmp12 + z4 - MULTIPLY(z1, FIX(1.126980169)); /* c3+c5-c1 */
3266     tmp14 = MULTIPLY(tmp14, FIX(0.752406978));             /* c9 */
3267     tmp16 = tmp14 - MULTIPLY(z1, FIX(1.061150426));        /* c9+c11-c13 */
3268     z1    -= z2;
3269     tmp15 = MULTIPLY(z1, FIX(0.467085129)) - z4;           /* c11 */
3270     tmp16 += tmp15;
3271     tmp13 = MULTIPLY(z2 + z3, - FIX(0.158341681)) - z4;    /* -c13 */
3272     tmp11 += tmp13 - MULTIPLY(z2, FIX(0.424103948));       /* c3-c9-c13 */
3273     tmp12 += tmp13 - MULTIPLY(z3, FIX(2.373959773));       /* c3+c5-c13 */
3274     tmp13 = MULTIPLY(z3 - z2, FIX(1.405321284));           /* c1 */
3275     tmp14 += tmp13 + z4 - MULTIPLY(z3, FIX(1.6906431334)); /* c1+c9-c11 */
3276     tmp15 += tmp13 + MULTIPLY(z2, FIX(0.674957567));       /* c1+c11-c5 */
3277
3278     tmp13 = ((z1 - z3) << CONST_BITS) + z4;
3279
3280     /* Final output stage */
3281
3282     outptr[0]  = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp10,
3283                                                CONST_BITS+PASS1_BITS+3)
3284                              & RANGE_MASK];
3285     outptr[13] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp10,
3286                                                CONST_BITS+PASS1_BITS+3)
3287                              & RANGE_MASK];
3288     outptr[1]  = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp11,
3289                                                CONST_BITS+PASS1_BITS+3)
3290                              & RANGE_MASK];
3291     outptr[12] = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp11,
3292                                                CONST_BITS+PASS1_BITS+3)
3293                              & RANGE_MASK];
3294     outptr[2]  = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp12,
3295                                                CONST_BITS+PASS1_BITS+3)
3296                              & RANGE_MASK];
3297     outptr[11] = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp12,
3298                                                CONST_BITS+PASS1_BITS+3)
3299                              & RANGE_MASK];
3300     outptr[3]  = range_limit[(int) RIGHT_SHIFT(tmp23 + tmp13,
3301                                                CONST_BITS+PASS1_BITS+3)
3302                              & RANGE_MASK];
3303     outptr[10] = range_limit[(int) RIGHT_SHIFT(tmp23 - tmp13,
3304                                                CONST_BITS+PASS1_BITS+3)
3305                              & RANGE_MASK];
3306     outptr[4]  = range_limit[(int) RIGHT_SHIFT(tmp24 + tmp14,
3307                                                CONST_BITS+PASS1_BITS+3)
3308                              & RANGE_MASK];
3309     outptr[9]  = range_limit[(int) RIGHT_SHIFT(tmp24 - tmp14,
3310                                                CONST_BITS+PASS1_BITS+3)
3311                              & RANGE_MASK];
3312     outptr[5]  = range_limit[(int) RIGHT_SHIFT(tmp25 + tmp15,
3313                                                CONST_BITS+PASS1_BITS+3)
3314                              & RANGE_MASK];
3315     outptr[8]  = range_limit[(int) RIGHT_SHIFT(tmp25 - tmp15,
3316                                                CONST_BITS+PASS1_BITS+3)
3317                              & RANGE_MASK];
3318     outptr[6]  = range_limit[(int) RIGHT_SHIFT(tmp26 + tmp16,
3319                                                CONST_BITS+PASS1_BITS+3)
3320                              & RANGE_MASK];
3321     outptr[7]  = range_limit[(int) RIGHT_SHIFT(tmp26 - tmp16,
3322                                                CONST_BITS+PASS1_BITS+3)
3323                              & RANGE_MASK];
3324
3325     wsptr += 8;         /* advance pointer to next row */
3326   }
3327 }
3328
3329
3330 /*
3331  * Perform dequantization and inverse DCT on one block of coefficients,
3332  * producing a 12x6 output block.
3333  *
3334  * 6-point IDCT in pass 1 (columns), 12-point in pass 2 (rows).
3335  */
3336
3337 GLOBAL(void)
3338 jpeg_idct_12x6 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
3339                 JCOEFPTR coef_block,
3340                 JSAMPARRAY output_buf, JDIMENSION output_col)
3341 {
3342   INT32 tmp10, tmp11, tmp12, tmp13, tmp14, tmp15;
3343   INT32 tmp20, tmp21, tmp22, tmp23, tmp24, tmp25;
3344   INT32 z1, z2, z3, z4;
3345   JCOEFPTR inptr;
3346   ISLOW_MULT_TYPE * quantptr;
3347   int * wsptr;
3348   JSAMPROW outptr;
3349   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
3350   int ctr;
3351   int workspace[8*6];   /* buffers data between passes */
3352   SHIFT_TEMPS
3353
3354   /* Pass 1: process columns from input, store into work array.
3355    * 6-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/12).
3356    */
3357
3358   inptr = coef_block;
3359   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
3360   wsptr = workspace;
3361   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
3362     /* Even part */
3363
3364     tmp10 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
3365     tmp10 <<= CONST_BITS;
3366     /* Add fudge factor here for final descale. */
3367     tmp10 += ONE << (CONST_BITS-PASS1_BITS-1);
3368     tmp12 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
3369     tmp20 = MULTIPLY(tmp12, FIX(0.707106781));   /* c4 */
3370     tmp11 = tmp10 + tmp20;
3371     tmp21 = RIGHT_SHIFT(tmp10 - tmp20 - tmp20, CONST_BITS-PASS1_BITS);
3372     tmp20 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
3373     tmp10 = MULTIPLY(tmp20, FIX(1.224744871));   /* c2 */
3374     tmp20 = tmp11 + tmp10;
3375     tmp22 = tmp11 - tmp10;
3376
3377     /* Odd part */
3378
3379     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
3380     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
3381     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
3382     tmp11 = MULTIPLY(z1 + z3, FIX(0.366025404)); /* c5 */
3383     tmp10 = tmp11 + ((z1 + z2) << CONST_BITS);
3384     tmp12 = tmp11 + ((z3 - z2) << CONST_BITS);
3385     tmp11 = (z1 - z2 - z3) << PASS1_BITS;
3386
3387     /* Final output stage */
3388
3389     wsptr[8*0] = (int) RIGHT_SHIFT(tmp20 + tmp10, CONST_BITS-PASS1_BITS);
3390     wsptr[8*5] = (int) RIGHT_SHIFT(tmp20 - tmp10, CONST_BITS-PASS1_BITS);
3391     wsptr[8*1] = (int) (tmp21 + tmp11);
3392     wsptr[8*4] = (int) (tmp21 - tmp11);
3393     wsptr[8*2] = (int) RIGHT_SHIFT(tmp22 + tmp12, CONST_BITS-PASS1_BITS);
3394     wsptr[8*3] = (int) RIGHT_SHIFT(tmp22 - tmp12, CONST_BITS-PASS1_BITS);
3395   }
3396
3397   /* Pass 2: process 6 rows from work array, store into output array.
3398    * 12-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/24).
3399    */
3400
3401   wsptr = workspace;
3402   for (ctr = 0; ctr < 6; ctr++) {
3403     outptr = output_buf[ctr] + output_col;
3404
3405     /* Even part */
3406
3407     /* Add range center and fudge factor for final descale and range-limit. */
3408     z3 = (INT32) wsptr[0] +
3409            ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
3410             (ONE << (PASS1_BITS+2)));
3411     z3 <<= CONST_BITS;
3412
3413     z4 = (INT32) wsptr[4];
3414     z4 = MULTIPLY(z4, FIX(1.224744871)); /* c4 */
3415
3416     tmp10 = z3 + z4;
3417     tmp11 = z3 - z4;
3418
3419     z1 = (INT32) wsptr[2];
3420     z4 = MULTIPLY(z1, FIX(1.366025404)); /* c2 */
3421     z1 <<= CONST_BITS;
3422     z2 = (INT32) wsptr[6];
3423     z2 <<= CONST_BITS;
3424
3425     tmp12 = z1 - z2;
3426
3427     tmp21 = z3 + tmp12;
3428     tmp24 = z3 - tmp12;
3429
3430     tmp12 = z4 + z2;
3431
3432     tmp20 = tmp10 + tmp12;
3433     tmp25 = tmp10 - tmp12;
3434
3435     tmp12 = z4 - z1 - z2;
3436
3437     tmp22 = tmp11 + tmp12;
3438     tmp23 = tmp11 - tmp12;
3439
3440     /* Odd part */
3441
3442     z1 = (INT32) wsptr[1];
3443     z2 = (INT32) wsptr[3];
3444     z3 = (INT32) wsptr[5];
3445     z4 = (INT32) wsptr[7];
3446
3447     tmp11 = MULTIPLY(z2, FIX(1.306562965));                  /* c3 */
3448     tmp14 = MULTIPLY(z2, - FIX_0_541196100);                 /* -c9 */
3449
3450     tmp10 = z1 + z3;
3451     tmp15 = MULTIPLY(tmp10 + z4, FIX(0.860918669));          /* c7 */
3452     tmp12 = tmp15 + MULTIPLY(tmp10, FIX(0.261052384));       /* c5-c7 */
3453     tmp10 = tmp12 + tmp11 + MULTIPLY(z1, FIX(0.280143716));  /* c1-c5 */
3454     tmp13 = MULTIPLY(z3 + z4, - FIX(1.045510580));           /* -(c7+c11) */
3455     tmp12 += tmp13 + tmp14 - MULTIPLY(z3, FIX(1.478575242)); /* c1+c5-c7-c11 */
3456     tmp13 += tmp15 - tmp11 + MULTIPLY(z4, FIX(1.586706681)); /* c1+c11 */
3457     tmp15 += tmp14 - MULTIPLY(z1, FIX(0.676326758)) -        /* c7-c11 */
3458              MULTIPLY(z4, FIX(1.982889723));                 /* c5+c7 */
3459
3460     z1 -= z4;
3461     z2 -= z3;
3462     z3 = MULTIPLY(z1 + z2, FIX_0_541196100);                 /* c9 */
3463     tmp11 = z3 + MULTIPLY(z1, FIX_0_765366865);              /* c3-c9 */
3464     tmp14 = z3 - MULTIPLY(z2, FIX_1_847759065);              /* c3+c9 */
3465
3466     /* Final output stage */
3467
3468     outptr[0]  = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp10,
3469                                                CONST_BITS+PASS1_BITS+3)
3470                              & RANGE_MASK];
3471     outptr[11] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp10,
3472                                                CONST_BITS+PASS1_BITS+3)
3473                              & RANGE_MASK];
3474     outptr[1]  = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp11,
3475                                                CONST_BITS+PASS1_BITS+3)
3476                              & RANGE_MASK];
3477     outptr[10] = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp11,
3478                                                CONST_BITS+PASS1_BITS+3)
3479                              & RANGE_MASK];
3480     outptr[2]  = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp12,
3481                                                CONST_BITS+PASS1_BITS+3)
3482                              & RANGE_MASK];
3483     outptr[9]  = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp12,
3484                                                CONST_BITS+PASS1_BITS+3)
3485                              & RANGE_MASK];
3486     outptr[3]  = range_limit[(int) RIGHT_SHIFT(tmp23 + tmp13,
3487                                                CONST_BITS+PASS1_BITS+3)
3488                              & RANGE_MASK];
3489     outptr[8]  = range_limit[(int) RIGHT_SHIFT(tmp23 - tmp13,
3490                                                CONST_BITS+PASS1_BITS+3)
3491                              & RANGE_MASK];
3492     outptr[4]  = range_limit[(int) RIGHT_SHIFT(tmp24 + tmp14,
3493                                                CONST_BITS+PASS1_BITS+3)
3494                              & RANGE_MASK];
3495     outptr[7]  = range_limit[(int) RIGHT_SHIFT(tmp24 - tmp14,
3496                                                CONST_BITS+PASS1_BITS+3)
3497                              & RANGE_MASK];
3498     outptr[5]  = range_limit[(int) RIGHT_SHIFT(tmp25 + tmp15,
3499                                                CONST_BITS+PASS1_BITS+3)
3500                              & RANGE_MASK];
3501     outptr[6]  = range_limit[(int) RIGHT_SHIFT(tmp25 - tmp15,
3502                                                CONST_BITS+PASS1_BITS+3)
3503                              & RANGE_MASK];
3504
3505     wsptr += 8;         /* advance pointer to next row */
3506   }
3507 }
3508
3509
3510 /*
3511  * Perform dequantization and inverse DCT on one block of coefficients,
3512  * producing a 10x5 output block.
3513  *
3514  * 5-point IDCT in pass 1 (columns), 10-point in pass 2 (rows).
3515  */
3516
3517 GLOBAL(void)
3518 jpeg_idct_10x5 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
3519                 JCOEFPTR coef_block,
3520                 JSAMPARRAY output_buf, JDIMENSION output_col)
3521 {
3522   INT32 tmp10, tmp11, tmp12, tmp13, tmp14;
3523   INT32 tmp20, tmp21, tmp22, tmp23, tmp24;
3524   INT32 z1, z2, z3, z4;
3525   JCOEFPTR inptr;
3526   ISLOW_MULT_TYPE * quantptr;
3527   int * wsptr;
3528   JSAMPROW outptr;
3529   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
3530   int ctr;
3531   int workspace[8*5];   /* buffers data between passes */
3532   SHIFT_TEMPS
3533
3534   /* Pass 1: process columns from input, store into work array.
3535    * 5-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/10).
3536    */
3537
3538   inptr = coef_block;
3539   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
3540   wsptr = workspace;
3541   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
3542     /* Even part */
3543
3544     tmp12 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
3545     tmp12 <<= CONST_BITS;
3546     /* Add fudge factor here for final descale. */
3547     tmp12 += ONE << (CONST_BITS-PASS1_BITS-1);
3548     tmp13 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
3549     tmp14 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
3550     z1 = MULTIPLY(tmp13 + tmp14, FIX(0.790569415)); /* (c2+c4)/2 */
3551     z2 = MULTIPLY(tmp13 - tmp14, FIX(0.353553391)); /* (c2-c4)/2 */
3552     z3 = tmp12 + z2;
3553     tmp10 = z3 + z1;
3554     tmp11 = z3 - z1;
3555     tmp12 -= z2 << 2;
3556
3557     /* Odd part */
3558
3559     z2 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
3560     z3 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
3561
3562     z1 = MULTIPLY(z2 + z3, FIX(0.831253876));       /* c3 */
3563     tmp13 = z1 + MULTIPLY(z2, FIX(0.513743148));    /* c1-c3 */
3564     tmp14 = z1 - MULTIPLY(z3, FIX(2.176250899));    /* c1+c3 */
3565
3566     /* Final output stage */
3567
3568     wsptr[8*0] = (int) RIGHT_SHIFT(tmp10 + tmp13, CONST_BITS-PASS1_BITS);
3569     wsptr[8*4] = (int) RIGHT_SHIFT(tmp10 - tmp13, CONST_BITS-PASS1_BITS);
3570     wsptr[8*1] = (int) RIGHT_SHIFT(tmp11 + tmp14, CONST_BITS-PASS1_BITS);
3571     wsptr[8*3] = (int) RIGHT_SHIFT(tmp11 - tmp14, CONST_BITS-PASS1_BITS);
3572     wsptr[8*2] = (int) RIGHT_SHIFT(tmp12, CONST_BITS-PASS1_BITS);
3573   }
3574
3575   /* Pass 2: process 5 rows from work array, store into output array.
3576    * 10-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/20).
3577    */
3578
3579   wsptr = workspace;
3580   for (ctr = 0; ctr < 5; ctr++) {
3581     outptr = output_buf[ctr] + output_col;
3582
3583     /* Even part */
3584
3585     /* Add range center and fudge factor for final descale and range-limit. */
3586     z3 = (INT32) wsptr[0] +
3587            ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
3588             (ONE << (PASS1_BITS+2)));
3589     z3 <<= CONST_BITS;
3590     z4 = (INT32) wsptr[4];
3591     z1 = MULTIPLY(z4, FIX(1.144122806));         /* c4 */
3592     z2 = MULTIPLY(z4, FIX(0.437016024));         /* c8 */
3593     tmp10 = z3 + z1;
3594     tmp11 = z3 - z2;
3595
3596     tmp22 = z3 - ((z1 - z2) << 1);               /* c0 = (c4-c8)*2 */
3597
3598     z2 = (INT32) wsptr[2];
3599     z3 = (INT32) wsptr[6];
3600
3601     z1 = MULTIPLY(z2 + z3, FIX(0.831253876));    /* c6 */
3602     tmp12 = z1 + MULTIPLY(z2, FIX(0.513743148)); /* c2-c6 */
3603     tmp13 = z1 - MULTIPLY(z3, FIX(2.176250899)); /* c2+c6 */
3604
3605     tmp20 = tmp10 + tmp12;
3606     tmp24 = tmp10 - tmp12;
3607     tmp21 = tmp11 + tmp13;
3608     tmp23 = tmp11 - tmp13;
3609
3610     /* Odd part */
3611
3612     z1 = (INT32) wsptr[1];
3613     z2 = (INT32) wsptr[3];
3614     z3 = (INT32) wsptr[5];
3615     z3 <<= CONST_BITS;
3616     z4 = (INT32) wsptr[7];
3617
3618     tmp11 = z2 + z4;
3619     tmp13 = z2 - z4;
3620
3621     tmp12 = MULTIPLY(tmp13, FIX(0.309016994));        /* (c3-c7)/2 */
3622
3623     z2 = MULTIPLY(tmp11, FIX(0.951056516));           /* (c3+c7)/2 */
3624     z4 = z3 + tmp12;
3625
3626     tmp10 = MULTIPLY(z1, FIX(1.396802247)) + z2 + z4; /* c1 */
3627     tmp14 = MULTIPLY(z1, FIX(0.221231742)) - z2 + z4; /* c9 */
3628
3629     z2 = MULTIPLY(tmp11, FIX(0.587785252));           /* (c1-c9)/2 */
3630     z4 = z3 - tmp12 - (tmp13 << (CONST_BITS - 1));
3631
3632     tmp12 = ((z1 - tmp13) << CONST_BITS) - z3;
3633
3634     tmp11 = MULTIPLY(z1, FIX(1.260073511)) - z2 - z4; /* c3 */
3635     tmp13 = MULTIPLY(z1, FIX(0.642039522)) - z2 + z4; /* c7 */
3636
3637     /* Final output stage */
3638
3639     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp10,
3640                                               CONST_BITS+PASS1_BITS+3)
3641                             & RANGE_MASK];
3642     outptr[9] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp10,
3643                                               CONST_BITS+PASS1_BITS+3)
3644                             & RANGE_MASK];
3645     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp11,
3646                                               CONST_BITS+PASS1_BITS+3)
3647                             & RANGE_MASK];
3648     outptr[8] = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp11,
3649                                               CONST_BITS+PASS1_BITS+3)
3650                             & RANGE_MASK];
3651     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp12,
3652                                               CONST_BITS+PASS1_BITS+3)
3653                             & RANGE_MASK];
3654     outptr[7] = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp12,
3655                                               CONST_BITS+PASS1_BITS+3)
3656                             & RANGE_MASK];
3657     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp23 + tmp13,
3658                                               CONST_BITS+PASS1_BITS+3)
3659                             & RANGE_MASK];
3660     outptr[6] = range_limit[(int) RIGHT_SHIFT(tmp23 - tmp13,
3661                                               CONST_BITS+PASS1_BITS+3)
3662                             & RANGE_MASK];
3663     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp24 + tmp14,
3664                                               CONST_BITS+PASS1_BITS+3)
3665                             & RANGE_MASK];
3666     outptr[5] = range_limit[(int) RIGHT_SHIFT(tmp24 - tmp14,
3667                                               CONST_BITS+PASS1_BITS+3)
3668                             & RANGE_MASK];
3669
3670     wsptr += 8;         /* advance pointer to next row */
3671   }
3672 }
3673
3674
3675 /*
3676  * Perform dequantization and inverse DCT on one block of coefficients,
3677  * producing a 8x4 output block.
3678  *
3679  * 4-point IDCT in pass 1 (columns), 8-point in pass 2 (rows).
3680  */
3681
3682 GLOBAL(void)
3683 jpeg_idct_8x4 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
3684                JCOEFPTR coef_block,
3685                JSAMPARRAY output_buf, JDIMENSION output_col)
3686 {
3687   INT32 tmp0, tmp1, tmp2, tmp3;
3688   INT32 tmp10, tmp11, tmp12, tmp13;
3689   INT32 z1, z2, z3;
3690   JCOEFPTR inptr;
3691   ISLOW_MULT_TYPE * quantptr;
3692   int * wsptr;
3693   JSAMPROW outptr;
3694   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
3695   int ctr;
3696   int workspace[8*4];   /* buffers data between passes */
3697   SHIFT_TEMPS
3698
3699   /* Pass 1: process columns from input, store into work array.
3700    * 4-point IDCT kernel,
3701    * cK represents sqrt(2) * cos(K*pi/16) [refers to 8-point IDCT].
3702    */
3703
3704   inptr = coef_block;
3705   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
3706   wsptr = workspace;
3707   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
3708     /* Even part */
3709
3710     tmp0 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
3711     tmp2 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
3712
3713     tmp10 = (tmp0 + tmp2) << PASS1_BITS;
3714     tmp12 = (tmp0 - tmp2) << PASS1_BITS;
3715
3716     /* Odd part */
3717     /* Same rotation as in the even part of the 8x8 LL&M IDCT */
3718
3719     z2 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
3720     z3 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
3721
3722     z1 = MULTIPLY(z2 + z3, FIX_0_541196100);               /* c6 */
3723     /* Add fudge factor here for final descale. */
3724     z1 += ONE << (CONST_BITS-PASS1_BITS-1);
3725     tmp0 = RIGHT_SHIFT(z1 + MULTIPLY(z2, FIX_0_765366865), /* c2-c6 */
3726                        CONST_BITS-PASS1_BITS);
3727     tmp2 = RIGHT_SHIFT(z1 - MULTIPLY(z3, FIX_1_847759065), /* c2+c6 */
3728                        CONST_BITS-PASS1_BITS);
3729
3730     /* Final output stage */
3731
3732     wsptr[8*0] = (int) (tmp10 + tmp0);
3733     wsptr[8*3] = (int) (tmp10 - tmp0);
3734     wsptr[8*1] = (int) (tmp12 + tmp2);
3735     wsptr[8*2] = (int) (tmp12 - tmp2);
3736   }
3737
3738   /* Pass 2: process rows from work array, store into output array.
3739    * Note that we must descale the results by a factor of 8 == 2**3,
3740    * and also undo the PASS1_BITS scaling.
3741    * 8-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/16).
3742    */
3743
3744   wsptr = workspace;
3745   for (ctr = 0; ctr < 4; ctr++) {
3746     outptr = output_buf[ctr] + output_col;
3747
3748     /* Even part: reverse the even part of the forward DCT.
3749      * The rotator is c(-6).
3750      */
3751
3752     /* Add range center and fudge factor for final descale and range-limit. */
3753     z2 = (INT32) wsptr[0] +
3754            ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
3755             (ONE << (PASS1_BITS+2)));
3756     z3 = (INT32) wsptr[4];
3757
3758     tmp0 = (z2 + z3) << CONST_BITS;
3759     tmp1 = (z2 - z3) << CONST_BITS;
3760
3761     z2 = (INT32) wsptr[2];
3762     z3 = (INT32) wsptr[6];
3763
3764     z1 = MULTIPLY(z2 + z3, FIX_0_541196100);       /* c6 */
3765     tmp2 = z1 + MULTIPLY(z2, FIX_0_765366865);     /* c2-c6 */
3766     tmp3 = z1 - MULTIPLY(z3, FIX_1_847759065);     /* c2+c6 */
3767
3768     tmp10 = tmp0 + tmp2;
3769     tmp13 = tmp0 - tmp2;
3770     tmp11 = tmp1 + tmp3;
3771     tmp12 = tmp1 - tmp3;
3772
3773     /* Odd part per figure 8; the matrix is unitary and hence its
3774      * transpose is its inverse.  i0..i3 are y7,y5,y3,y1 respectively.
3775      */
3776
3777     tmp0 = (INT32) wsptr[7];
3778     tmp1 = (INT32) wsptr[5];
3779     tmp2 = (INT32) wsptr[3];
3780     tmp3 = (INT32) wsptr[1];
3781
3782     z2 = tmp0 + tmp2;
3783     z3 = tmp1 + tmp3;
3784
3785     z1 = MULTIPLY(z2 + z3, FIX_1_175875602);       /*  c3 */
3786     z2 = MULTIPLY(z2, - FIX_1_961570560);          /* -c3-c5 */
3787     z3 = MULTIPLY(z3, - FIX_0_390180644);          /* -c3+c5 */
3788     z2 += z1;
3789     z3 += z1;
3790
3791     z1 = MULTIPLY(tmp0 + tmp3, - FIX_0_899976223); /* -c3+c7 */
3792     tmp0 = MULTIPLY(tmp0, FIX_0_298631336);        /* -c1+c3+c5-c7 */
3793     tmp3 = MULTIPLY(tmp3, FIX_1_501321110);        /*  c1+c3-c5-c7 */
3794     tmp0 += z1 + z2;
3795     tmp3 += z1 + z3;
3796
3797     z1 = MULTIPLY(tmp1 + tmp2, - FIX_2_562915447); /* -c1-c3 */
3798     tmp1 = MULTIPLY(tmp1, FIX_2_053119869);        /*  c1+c3-c5+c7 */
3799     tmp2 = MULTIPLY(tmp2, FIX_3_072711026);        /*  c1+c3+c5-c7 */
3800     tmp1 += z1 + z3;
3801     tmp2 += z1 + z2;
3802
3803     /* Final output stage: inputs are tmp10..tmp13, tmp0..tmp3 */
3804
3805     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp3,
3806                                               CONST_BITS+PASS1_BITS+3)
3807                             & RANGE_MASK];
3808     outptr[7] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp3,
3809                                               CONST_BITS+PASS1_BITS+3)
3810                             & RANGE_MASK];
3811     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp11 + tmp2,
3812                                               CONST_BITS+PASS1_BITS+3)
3813                             & RANGE_MASK];
3814     outptr[6] = range_limit[(int) RIGHT_SHIFT(tmp11 - tmp2,
3815                                               CONST_BITS+PASS1_BITS+3)
3816                             & RANGE_MASK];
3817     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp12 + tmp1,
3818                                               CONST_BITS+PASS1_BITS+3)
3819                             & RANGE_MASK];
3820     outptr[5] = range_limit[(int) RIGHT_SHIFT(tmp12 - tmp1,
3821                                               CONST_BITS+PASS1_BITS+3)
3822                             & RANGE_MASK];
3823     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp13 + tmp0,
3824                                               CONST_BITS+PASS1_BITS+3)
3825                             & RANGE_MASK];
3826     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp13 - tmp0,
3827                                               CONST_BITS+PASS1_BITS+3)
3828                             & RANGE_MASK];
3829
3830     wsptr += DCTSIZE;           /* advance pointer to next row */
3831   }
3832 }
3833
3834
3835 /*
3836  * Perform dequantization and inverse DCT on one block of coefficients,
3837  * producing a reduced-size 6x3 output block.
3838  *
3839  * 3-point IDCT in pass 1 (columns), 6-point in pass 2 (rows).
3840  */
3841
3842 GLOBAL(void)
3843 jpeg_idct_6x3 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
3844                JCOEFPTR coef_block,
3845                JSAMPARRAY output_buf, JDIMENSION output_col)
3846 {
3847   INT32 tmp0, tmp1, tmp2, tmp10, tmp11, tmp12;
3848   INT32 z1, z2, z3;
3849   JCOEFPTR inptr;
3850   ISLOW_MULT_TYPE * quantptr;
3851   int * wsptr;
3852   JSAMPROW outptr;
3853   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
3854   int ctr;
3855   int workspace[6*3];   /* buffers data between passes */
3856   SHIFT_TEMPS
3857
3858   /* Pass 1: process columns from input, store into work array.
3859    * 3-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/6).
3860    */
3861
3862   inptr = coef_block;
3863   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
3864   wsptr = workspace;
3865   for (ctr = 0; ctr < 6; ctr++, inptr++, quantptr++, wsptr++) {
3866     /* Even part */
3867
3868     tmp0 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
3869     tmp0 <<= CONST_BITS;
3870     /* Add fudge factor here for final descale. */
3871     tmp0 += ONE << (CONST_BITS-PASS1_BITS-1);
3872     tmp2 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
3873     tmp12 = MULTIPLY(tmp2, FIX(0.707106781)); /* c2 */
3874     tmp10 = tmp0 + tmp12;
3875     tmp2 = tmp0 - tmp12 - tmp12;
3876
3877     /* Odd part */
3878
3879     tmp12 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
3880     tmp0 = MULTIPLY(tmp12, FIX(1.224744871)); /* c1 */
3881
3882     /* Final output stage */
3883
3884     wsptr[6*0] = (int) RIGHT_SHIFT(tmp10 + tmp0, CONST_BITS-PASS1_BITS);
3885     wsptr[6*2] = (int) RIGHT_SHIFT(tmp10 - tmp0, CONST_BITS-PASS1_BITS);
3886     wsptr[6*1] = (int) RIGHT_SHIFT(tmp2, CONST_BITS-PASS1_BITS);
3887   }
3888
3889   /* Pass 2: process 3 rows from work array, store into output array.
3890    * 6-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/12).
3891    */
3892
3893   wsptr = workspace;
3894   for (ctr = 0; ctr < 3; ctr++) {
3895     outptr = output_buf[ctr] + output_col;
3896
3897     /* Even part */
3898
3899     /* Add range center and fudge factor for final descale and range-limit. */
3900     tmp0 = (INT32) wsptr[0] +
3901              ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
3902               (ONE << (PASS1_BITS+2)));
3903     tmp0 <<= CONST_BITS;
3904     tmp2 = (INT32) wsptr[4];
3905     tmp10 = MULTIPLY(tmp2, FIX(0.707106781));   /* c4 */
3906     tmp1 = tmp0 + tmp10;
3907     tmp11 = tmp0 - tmp10 - tmp10;
3908     tmp10 = (INT32) wsptr[2];
3909     tmp0 = MULTIPLY(tmp10, FIX(1.224744871));   /* c2 */
3910     tmp10 = tmp1 + tmp0;
3911     tmp12 = tmp1 - tmp0;
3912
3913     /* Odd part */
3914
3915     z1 = (INT32) wsptr[1];
3916     z2 = (INT32) wsptr[3];
3917     z3 = (INT32) wsptr[5];
3918     tmp1 = MULTIPLY(z1 + z3, FIX(0.366025404)); /* c5 */
3919     tmp0 = tmp1 + ((z1 + z2) << CONST_BITS);
3920     tmp2 = tmp1 + ((z3 - z2) << CONST_BITS);
3921     tmp1 = (z1 - z2 - z3) << CONST_BITS;
3922
3923     /* Final output stage */
3924
3925     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp0,
3926                                               CONST_BITS+PASS1_BITS+3)
3927                             & RANGE_MASK];
3928     outptr[5] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp0,
3929                                               CONST_BITS+PASS1_BITS+3)
3930                             & RANGE_MASK];
3931     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp11 + tmp1,
3932                                               CONST_BITS+PASS1_BITS+3)
3933                             & RANGE_MASK];
3934     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp11 - tmp1,
3935                                               CONST_BITS+PASS1_BITS+3)
3936                             & RANGE_MASK];
3937     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp12 + tmp2,
3938                                               CONST_BITS+PASS1_BITS+3)
3939                             & RANGE_MASK];
3940     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp12 - tmp2,
3941                                               CONST_BITS+PASS1_BITS+3)
3942                             & RANGE_MASK];
3943
3944     wsptr += 6;         /* advance pointer to next row */
3945   }
3946 }
3947
3948
3949 /*
3950  * Perform dequantization and inverse DCT on one block of coefficients,
3951  * producing a 4x2 output block.
3952  *
3953  * 2-point IDCT in pass 1 (columns), 4-point in pass 2 (rows).
3954  */
3955
3956 GLOBAL(void)
3957 jpeg_idct_4x2 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
3958                JCOEFPTR coef_block,
3959                JSAMPARRAY output_buf, JDIMENSION output_col)
3960 {
3961   INT32 tmp0, tmp2, tmp10, tmp12;
3962   INT32 z1, z2, z3;
3963   JCOEFPTR inptr;
3964   ISLOW_MULT_TYPE * quantptr;
3965   INT32 * wsptr;
3966   JSAMPROW outptr;
3967   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
3968   int ctr;
3969   INT32 workspace[4*2]; /* buffers data between passes */
3970   SHIFT_TEMPS
3971
3972   /* Pass 1: process columns from input, store into work array. */
3973
3974   inptr = coef_block;
3975   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
3976   wsptr = workspace;
3977   for (ctr = 0; ctr < 4; ctr++, inptr++, quantptr++, wsptr++) {
3978     /* Even part */
3979
3980     tmp10 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
3981
3982     /* Odd part */
3983
3984     tmp0 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
3985
3986     /* Final output stage */
3987
3988     wsptr[4*0] = tmp10 + tmp0;
3989     wsptr[4*1] = tmp10 - tmp0;
3990   }
3991
3992   /* Pass 2: process 2 rows from work array, store into output array.
3993    * 4-point IDCT kernel,
3994    * cK represents sqrt(2) * cos(K*pi/16) [refers to 8-point IDCT].
3995    */
3996
3997   wsptr = workspace;
3998   for (ctr = 0; ctr < 2; ctr++) {
3999     outptr = output_buf[ctr] + output_col;
4000
4001     /* Even part */
4002
4003     /* Add range center and fudge factor for final descale and range-limit. */
4004     tmp0 = wsptr[0] + ((((INT32) RANGE_CENTER) << 3) + (ONE << 2));
4005     tmp2 = wsptr[2];
4006
4007     tmp10 = (tmp0 + tmp2) << CONST_BITS;
4008     tmp12 = (tmp0 - tmp2) << CONST_BITS;
4009
4010     /* Odd part */
4011     /* Same rotation as in the even part of the 8x8 LL&M IDCT */
4012
4013     z2 = wsptr[1];
4014     z3 = wsptr[3];
4015
4016     z1 = MULTIPLY(z2 + z3, FIX_0_541196100);   /* c6 */
4017     tmp0 = z1 + MULTIPLY(z2, FIX_0_765366865); /* c2-c6 */
4018     tmp2 = z1 - MULTIPLY(z3, FIX_1_847759065); /* c2+c6 */
4019
4020     /* Final output stage */
4021
4022     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp0,
4023                                               CONST_BITS+3)
4024                             & RANGE_MASK];
4025     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp0,
4026                                               CONST_BITS+3)
4027                             & RANGE_MASK];
4028     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp12 + tmp2,
4029                                               CONST_BITS+3)
4030                             & RANGE_MASK];
4031     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp12 - tmp2,
4032                                               CONST_BITS+3)
4033                             & RANGE_MASK];
4034
4035     wsptr += 4;         /* advance pointer to next row */
4036   }
4037 }
4038
4039
4040 /*
4041  * Perform dequantization and inverse DCT on one block of coefficients,
4042  * producing a 2x1 output block.
4043  *
4044  * 1-point IDCT in pass 1 (columns), 2-point in pass 2 (rows).
4045  */
4046
4047 GLOBAL(void)
4048 jpeg_idct_2x1 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
4049                JCOEFPTR coef_block,
4050                JSAMPARRAY output_buf, JDIMENSION output_col)
4051 {
4052   DCTELEM tmp0, tmp1;
4053   ISLOW_MULT_TYPE * quantptr;
4054   JSAMPROW outptr;
4055   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
4056   ISHIFT_TEMPS
4057
4058   /* Pass 1: empty. */
4059
4060   /* Pass 2: process 1 row from input, store into output array. */
4061
4062   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
4063   outptr = output_buf[0] + output_col;
4064
4065   /* Even part */
4066
4067   tmp0 = DEQUANTIZE(coef_block[0], quantptr[0]);
4068   /* Add range center and fudge factor for final descale and range-limit. */
4069   tmp0 += (((DCTELEM) RANGE_CENTER) << 3) + (1 << 2);
4070
4071   /* Odd part */
4072
4073   tmp1 = DEQUANTIZE(coef_block[1], quantptr[1]);
4074
4075   /* Final output stage */
4076
4077   outptr[0] = range_limit[(int) IRIGHT_SHIFT(tmp0 + tmp1, 3) & RANGE_MASK];
4078   outptr[1] = range_limit[(int) IRIGHT_SHIFT(tmp0 - tmp1, 3) & RANGE_MASK];
4079 }
4080
4081
4082 /*
4083  * Perform dequantization and inverse DCT on one block of coefficients,
4084  * producing a 8x16 output block.
4085  *
4086  * 16-point IDCT in pass 1 (columns), 8-point in pass 2 (rows).
4087  */
4088
4089 GLOBAL(void)
4090 jpeg_idct_8x16 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
4091                 JCOEFPTR coef_block,
4092                 JSAMPARRAY output_buf, JDIMENSION output_col)
4093 {
4094   INT32 tmp0, tmp1, tmp2, tmp3, tmp10, tmp11, tmp12, tmp13;
4095   INT32 tmp20, tmp21, tmp22, tmp23, tmp24, tmp25, tmp26, tmp27;
4096   INT32 z1, z2, z3, z4;
4097   JCOEFPTR inptr;
4098   ISLOW_MULT_TYPE * quantptr;
4099   int * wsptr;
4100   JSAMPROW outptr;
4101   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
4102   int ctr;
4103   int workspace[8*16];  /* buffers data between passes */
4104   SHIFT_TEMPS
4105
4106   /* Pass 1: process columns from input, store into work array.
4107    * 16-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/32).
4108    */
4109
4110   inptr = coef_block;
4111   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
4112   wsptr = workspace;
4113   for (ctr = 0; ctr < 8; ctr++, inptr++, quantptr++, wsptr++) {
4114     /* Even part */
4115
4116     tmp0 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
4117     tmp0 <<= CONST_BITS;
4118     /* Add fudge factor here for final descale. */
4119     tmp0 += ONE << (CONST_BITS-PASS1_BITS-1);
4120
4121     z1 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
4122     tmp1 = MULTIPLY(z1, FIX(1.306562965));      /* c4[16] = c2[8] */
4123     tmp2 = MULTIPLY(z1, FIX_0_541196100);       /* c12[16] = c6[8] */
4124
4125     tmp10 = tmp0 + tmp1;
4126     tmp11 = tmp0 - tmp1;
4127     tmp12 = tmp0 + tmp2;
4128     tmp13 = tmp0 - tmp2;
4129
4130     z1 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
4131     z2 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
4132     z3 = z1 - z2;
4133     z4 = MULTIPLY(z3, FIX(0.275899379));        /* c14[16] = c7[8] */
4134     z3 = MULTIPLY(z3, FIX(1.387039845));        /* c2[16] = c1[8] */
4135
4136     tmp0 = z3 + MULTIPLY(z2, FIX_2_562915447);  /* (c6+c2)[16] = (c3+c1)[8] */
4137     tmp1 = z4 + MULTIPLY(z1, FIX_0_899976223);  /* (c6-c14)[16] = (c3-c7)[8] */
4138     tmp2 = z3 - MULTIPLY(z1, FIX(0.601344887)); /* (c2-c10)[16] = (c1-c5)[8] */
4139     tmp3 = z4 - MULTIPLY(z2, FIX(0.509795579)); /* (c10-c14)[16] = (c5-c7)[8] */
4140
4141     tmp20 = tmp10 + tmp0;
4142     tmp27 = tmp10 - tmp0;
4143     tmp21 = tmp12 + tmp1;
4144     tmp26 = tmp12 - tmp1;
4145     tmp22 = tmp13 + tmp2;
4146     tmp25 = tmp13 - tmp2;
4147     tmp23 = tmp11 + tmp3;
4148     tmp24 = tmp11 - tmp3;
4149
4150     /* Odd part */
4151
4152     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
4153     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
4154     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
4155     z4 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
4156
4157     tmp11 = z1 + z3;
4158
4159     tmp1  = MULTIPLY(z1 + z2, FIX(1.353318001));   /* c3 */
4160     tmp2  = MULTIPLY(tmp11,   FIX(1.247225013));   /* c5 */
4161     tmp3  = MULTIPLY(z1 + z4, FIX(1.093201867));   /* c7 */
4162     tmp10 = MULTIPLY(z1 - z4, FIX(0.897167586));   /* c9 */
4163     tmp11 = MULTIPLY(tmp11,   FIX(0.666655658));   /* c11 */
4164     tmp12 = MULTIPLY(z1 - z2, FIX(0.410524528));   /* c13 */
4165     tmp0  = tmp1 + tmp2 + tmp3 -
4166             MULTIPLY(z1, FIX(2.286341144));        /* c7+c5+c3-c1 */
4167     tmp13 = tmp10 + tmp11 + tmp12 -
4168             MULTIPLY(z1, FIX(1.835730603));        /* c9+c11+c13-c15 */
4169     z1    = MULTIPLY(z2 + z3, FIX(0.138617169));   /* c15 */
4170     tmp1  += z1 + MULTIPLY(z2, FIX(0.071888074));  /* c9+c11-c3-c15 */
4171     tmp2  += z1 - MULTIPLY(z3, FIX(1.125726048));  /* c5+c7+c15-c3 */
4172     z1    = MULTIPLY(z3 - z2, FIX(1.407403738));   /* c1 */
4173     tmp11 += z1 - MULTIPLY(z3, FIX(0.766367282));  /* c1+c11-c9-c13 */
4174     tmp12 += z1 + MULTIPLY(z2, FIX(1.971951411));  /* c1+c5+c13-c7 */
4175     z2    += z4;
4176     z1    = MULTIPLY(z2, - FIX(0.666655658));      /* -c11 */
4177     tmp1  += z1;
4178     tmp3  += z1 + MULTIPLY(z4, FIX(1.065388962));  /* c3+c11+c15-c7 */
4179     z2    = MULTIPLY(z2, - FIX(1.247225013));      /* -c5 */
4180     tmp10 += z2 + MULTIPLY(z4, FIX(3.141271809));  /* c1+c5+c9-c13 */
4181     tmp12 += z2;
4182     z2    = MULTIPLY(z3 + z4, - FIX(1.353318001)); /* -c3 */
4183     tmp2  += z2;
4184     tmp3  += z2;
4185     z2    = MULTIPLY(z4 - z3, FIX(0.410524528));   /* c13 */
4186     tmp10 += z2;
4187     tmp11 += z2;
4188
4189     /* Final output stage */
4190
4191     wsptr[8*0]  = (int) RIGHT_SHIFT(tmp20 + tmp0,  CONST_BITS-PASS1_BITS);
4192     wsptr[8*15] = (int) RIGHT_SHIFT(tmp20 - tmp0,  CONST_BITS-PASS1_BITS);
4193     wsptr[8*1]  = (int) RIGHT_SHIFT(tmp21 + tmp1,  CONST_BITS-PASS1_BITS);
4194     wsptr[8*14] = (int) RIGHT_SHIFT(tmp21 - tmp1,  CONST_BITS-PASS1_BITS);
4195     wsptr[8*2]  = (int) RIGHT_SHIFT(tmp22 + tmp2,  CONST_BITS-PASS1_BITS);
4196     wsptr[8*13] = (int) RIGHT_SHIFT(tmp22 - tmp2,  CONST_BITS-PASS1_BITS);
4197     wsptr[8*3]  = (int) RIGHT_SHIFT(tmp23 + tmp3,  CONST_BITS-PASS1_BITS);
4198     wsptr[8*12] = (int) RIGHT_SHIFT(tmp23 - tmp3,  CONST_BITS-PASS1_BITS);
4199     wsptr[8*4]  = (int) RIGHT_SHIFT(tmp24 + tmp10, CONST_BITS-PASS1_BITS);
4200     wsptr[8*11] = (int) RIGHT_SHIFT(tmp24 - tmp10, CONST_BITS-PASS1_BITS);
4201     wsptr[8*5]  = (int) RIGHT_SHIFT(tmp25 + tmp11, CONST_BITS-PASS1_BITS);
4202     wsptr[8*10] = (int) RIGHT_SHIFT(tmp25 - tmp11, CONST_BITS-PASS1_BITS);
4203     wsptr[8*6]  = (int) RIGHT_SHIFT(tmp26 + tmp12, CONST_BITS-PASS1_BITS);
4204     wsptr[8*9]  = (int) RIGHT_SHIFT(tmp26 - tmp12, CONST_BITS-PASS1_BITS);
4205     wsptr[8*7]  = (int) RIGHT_SHIFT(tmp27 + tmp13, CONST_BITS-PASS1_BITS);
4206     wsptr[8*8]  = (int) RIGHT_SHIFT(tmp27 - tmp13, CONST_BITS-PASS1_BITS);
4207   }
4208
4209   /* Pass 2: process rows from work array, store into output array.
4210    * Note that we must descale the results by a factor of 8 == 2**3,
4211    * and also undo the PASS1_BITS scaling.
4212    * 8-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/16).
4213    */
4214
4215   wsptr = workspace;
4216   for (ctr = 0; ctr < 16; ctr++) {
4217     outptr = output_buf[ctr] + output_col;
4218
4219     /* Even part: reverse the even part of the forward DCT.
4220      * The rotator is c(-6).
4221      */
4222
4223     /* Add range center and fudge factor for final descale and range-limit. */
4224     z2 = (INT32) wsptr[0] +
4225            ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
4226             (ONE << (PASS1_BITS+2)));
4227     z3 = (INT32) wsptr[4];
4228
4229     tmp0 = (z2 + z3) << CONST_BITS;
4230     tmp1 = (z2 - z3) << CONST_BITS;
4231
4232     z2 = (INT32) wsptr[2];
4233     z3 = (INT32) wsptr[6];
4234
4235     z1 = MULTIPLY(z2 + z3, FIX_0_541196100);       /* c6 */
4236     tmp2 = z1 + MULTIPLY(z2, FIX_0_765366865);     /* c2-c6 */
4237     tmp3 = z1 - MULTIPLY(z3, FIX_1_847759065);     /* c2+c6 */
4238
4239     tmp10 = tmp0 + tmp2;
4240     tmp13 = tmp0 - tmp2;
4241     tmp11 = tmp1 + tmp3;
4242     tmp12 = tmp1 - tmp3;
4243
4244     /* Odd part per figure 8; the matrix is unitary and hence its
4245      * transpose is its inverse.  i0..i3 are y7,y5,y3,y1 respectively.
4246      */
4247
4248     tmp0 = (INT32) wsptr[7];
4249     tmp1 = (INT32) wsptr[5];
4250     tmp2 = (INT32) wsptr[3];
4251     tmp3 = (INT32) wsptr[1];
4252
4253     z2 = tmp0 + tmp2;
4254     z3 = tmp1 + tmp3;
4255
4256     z1 = MULTIPLY(z2 + z3, FIX_1_175875602);       /*  c3 */
4257     z2 = MULTIPLY(z2, - FIX_1_961570560);          /* -c3-c5 */
4258     z3 = MULTIPLY(z3, - FIX_0_390180644);          /* -c3+c5 */
4259     z2 += z1;
4260     z3 += z1;
4261
4262     z1 = MULTIPLY(tmp0 + tmp3, - FIX_0_899976223); /* -c3+c7 */
4263     tmp0 = MULTIPLY(tmp0, FIX_0_298631336);        /* -c1+c3+c5-c7 */
4264     tmp3 = MULTIPLY(tmp3, FIX_1_501321110);        /*  c1+c3-c5-c7 */
4265     tmp0 += z1 + z2;
4266     tmp3 += z1 + z3;
4267
4268     z1 = MULTIPLY(tmp1 + tmp2, - FIX_2_562915447); /* -c1-c3 */
4269     tmp1 = MULTIPLY(tmp1, FIX_2_053119869);        /*  c1+c3-c5+c7 */
4270     tmp2 = MULTIPLY(tmp2, FIX_3_072711026);        /*  c1+c3+c5-c7 */
4271     tmp1 += z1 + z3;
4272     tmp2 += z1 + z2;
4273
4274     /* Final output stage: inputs are tmp10..tmp13, tmp0..tmp3 */
4275
4276     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp3,
4277                                               CONST_BITS+PASS1_BITS+3)
4278                             & RANGE_MASK];
4279     outptr[7] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp3,
4280                                               CONST_BITS+PASS1_BITS+3)
4281                             & RANGE_MASK];
4282     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp11 + tmp2,
4283                                               CONST_BITS+PASS1_BITS+3)
4284                             & RANGE_MASK];
4285     outptr[6] = range_limit[(int) RIGHT_SHIFT(tmp11 - tmp2,
4286                                               CONST_BITS+PASS1_BITS+3)
4287                             & RANGE_MASK];
4288     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp12 + tmp1,
4289                                               CONST_BITS+PASS1_BITS+3)
4290                             & RANGE_MASK];
4291     outptr[5] = range_limit[(int) RIGHT_SHIFT(tmp12 - tmp1,
4292                                               CONST_BITS+PASS1_BITS+3)
4293                             & RANGE_MASK];
4294     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp13 + tmp0,
4295                                               CONST_BITS+PASS1_BITS+3)
4296                             & RANGE_MASK];
4297     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp13 - tmp0,
4298                                               CONST_BITS+PASS1_BITS+3)
4299                             & RANGE_MASK];
4300
4301     wsptr += DCTSIZE;           /* advance pointer to next row */
4302   }
4303 }
4304
4305
4306 /*
4307  * Perform dequantization and inverse DCT on one block of coefficients,
4308  * producing a 7x14 output block.
4309  *
4310  * 14-point IDCT in pass 1 (columns), 7-point in pass 2 (rows).
4311  */
4312
4313 GLOBAL(void)
4314 jpeg_idct_7x14 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
4315                 JCOEFPTR coef_block,
4316                 JSAMPARRAY output_buf, JDIMENSION output_col)
4317 {
4318   INT32 tmp10, tmp11, tmp12, tmp13, tmp14, tmp15, tmp16;
4319   INT32 tmp20, tmp21, tmp22, tmp23, tmp24, tmp25, tmp26;
4320   INT32 z1, z2, z3, z4;
4321   JCOEFPTR inptr;
4322   ISLOW_MULT_TYPE * quantptr;
4323   int * wsptr;
4324   JSAMPROW outptr;
4325   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
4326   int ctr;
4327   int workspace[7*14];  /* buffers data between passes */
4328   SHIFT_TEMPS
4329
4330   /* Pass 1: process columns from input, store into work array.
4331    * 14-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/28).
4332    */
4333
4334   inptr = coef_block;
4335   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
4336   wsptr = workspace;
4337   for (ctr = 0; ctr < 7; ctr++, inptr++, quantptr++, wsptr++) {
4338     /* Even part */
4339
4340     z1 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
4341     z1 <<= CONST_BITS;
4342     /* Add fudge factor here for final descale. */
4343     z1 += ONE << (CONST_BITS-PASS1_BITS-1);
4344     z4 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
4345     z2 = MULTIPLY(z4, FIX(1.274162392));         /* c4 */
4346     z3 = MULTIPLY(z4, FIX(0.314692123));         /* c12 */
4347     z4 = MULTIPLY(z4, FIX(0.881747734));         /* c8 */
4348
4349     tmp10 = z1 + z2;
4350     tmp11 = z1 + z3;
4351     tmp12 = z1 - z4;
4352
4353     tmp23 = RIGHT_SHIFT(z1 - ((z2 + z3 - z4) << 1), /* c0 = (c4+c12-c8)*2 */
4354                         CONST_BITS-PASS1_BITS);
4355
4356     z1 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
4357     z2 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
4358
4359     z3 = MULTIPLY(z1 + z2, FIX(1.105676686));    /* c6 */
4360
4361     tmp13 = z3 + MULTIPLY(z1, FIX(0.273079590)); /* c2-c6 */
4362     tmp14 = z3 - MULTIPLY(z2, FIX(1.719280954)); /* c6+c10 */
4363     tmp15 = MULTIPLY(z1, FIX(0.613604268)) -     /* c10 */
4364             MULTIPLY(z2, FIX(1.378756276));      /* c2 */
4365
4366     tmp20 = tmp10 + tmp13;
4367     tmp26 = tmp10 - tmp13;
4368     tmp21 = tmp11 + tmp14;
4369     tmp25 = tmp11 - tmp14;
4370     tmp22 = tmp12 + tmp15;
4371     tmp24 = tmp12 - tmp15;
4372
4373     /* Odd part */
4374
4375     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
4376     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
4377     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
4378     z4 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
4379     tmp13 = z4 << CONST_BITS;
4380
4381     tmp14 = z1 + z3;
4382     tmp11 = MULTIPLY(z1 + z2, FIX(1.334852607));           /* c3 */
4383     tmp12 = MULTIPLY(tmp14, FIX(1.197448846));             /* c5 */
4384     tmp10 = tmp11 + tmp12 + tmp13 - MULTIPLY(z1, FIX(1.126980169)); /* c3+c5-c1 */
4385     tmp14 = MULTIPLY(tmp14, FIX(0.752406978));             /* c9 */
4386     tmp16 = tmp14 - MULTIPLY(z1, FIX(1.061150426));        /* c9+c11-c13 */
4387     z1    -= z2;
4388     tmp15 = MULTIPLY(z1, FIX(0.467085129)) - tmp13;        /* c11 */
4389     tmp16 += tmp15;
4390     z1    += z4;
4391     z4    = MULTIPLY(z2 + z3, - FIX(0.158341681)) - tmp13; /* -c13 */
4392     tmp11 += z4 - MULTIPLY(z2, FIX(0.424103948));          /* c3-c9-c13 */
4393     tmp12 += z4 - MULTIPLY(z3, FIX(2.373959773));          /* c3+c5-c13 */
4394     z4    = MULTIPLY(z3 - z2, FIX(1.405321284));           /* c1 */
4395     tmp14 += z4 + tmp13 - MULTIPLY(z3, FIX(1.6906431334)); /* c1+c9-c11 */
4396     tmp15 += z4 + MULTIPLY(z2, FIX(0.674957567));          /* c1+c11-c5 */
4397
4398     tmp13 = (z1 - z3) << PASS1_BITS;
4399
4400     /* Final output stage */
4401
4402     wsptr[7*0]  = (int) RIGHT_SHIFT(tmp20 + tmp10, CONST_BITS-PASS1_BITS);
4403     wsptr[7*13] = (int) RIGHT_SHIFT(tmp20 - tmp10, CONST_BITS-PASS1_BITS);
4404     wsptr[7*1]  = (int) RIGHT_SHIFT(tmp21 + tmp11, CONST_BITS-PASS1_BITS);
4405     wsptr[7*12] = (int) RIGHT_SHIFT(tmp21 - tmp11, CONST_BITS-PASS1_BITS);
4406     wsptr[7*2]  = (int) RIGHT_SHIFT(tmp22 + tmp12, CONST_BITS-PASS1_BITS);
4407     wsptr[7*11] = (int) RIGHT_SHIFT(tmp22 - tmp12, CONST_BITS-PASS1_BITS);
4408     wsptr[7*3]  = (int) (tmp23 + tmp13);
4409     wsptr[7*10] = (int) (tmp23 - tmp13);
4410     wsptr[7*4]  = (int) RIGHT_SHIFT(tmp24 + tmp14, CONST_BITS-PASS1_BITS);
4411     wsptr[7*9]  = (int) RIGHT_SHIFT(tmp24 - tmp14, CONST_BITS-PASS1_BITS);
4412     wsptr[7*5]  = (int) RIGHT_SHIFT(tmp25 + tmp15, CONST_BITS-PASS1_BITS);
4413     wsptr[7*8]  = (int) RIGHT_SHIFT(tmp25 - tmp15, CONST_BITS-PASS1_BITS);
4414     wsptr[7*6]  = (int) RIGHT_SHIFT(tmp26 + tmp16, CONST_BITS-PASS1_BITS);
4415     wsptr[7*7]  = (int) RIGHT_SHIFT(tmp26 - tmp16, CONST_BITS-PASS1_BITS);
4416   }
4417
4418   /* Pass 2: process 14 rows from work array, store into output array.
4419    * 7-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/14).
4420    */
4421
4422   wsptr = workspace;
4423   for (ctr = 0; ctr < 14; ctr++) {
4424     outptr = output_buf[ctr] + output_col;
4425
4426     /* Even part */
4427
4428     /* Add range center and fudge factor for final descale and range-limit. */
4429     tmp23 = (INT32) wsptr[0] +
4430               ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
4431                (ONE << (PASS1_BITS+2)));
4432     tmp23 <<= CONST_BITS;
4433
4434     z1 = (INT32) wsptr[2];
4435     z2 = (INT32) wsptr[4];
4436     z3 = (INT32) wsptr[6];
4437
4438     tmp20 = MULTIPLY(z2 - z3, FIX(0.881747734));       /* c4 */
4439     tmp22 = MULTIPLY(z1 - z2, FIX(0.314692123));       /* c6 */
4440     tmp21 = tmp20 + tmp22 + tmp23 - MULTIPLY(z2, FIX(1.841218003)); /* c2+c4-c6 */
4441     tmp10 = z1 + z3;
4442     z2 -= tmp10;
4443     tmp10 = MULTIPLY(tmp10, FIX(1.274162392)) + tmp23; /* c2 */
4444     tmp20 += tmp10 - MULTIPLY(z3, FIX(0.077722536));   /* c2-c4-c6 */
4445     tmp22 += tmp10 - MULTIPLY(z1, FIX(2.470602249));   /* c2+c4+c6 */
4446     tmp23 += MULTIPLY(z2, FIX(1.414213562));           /* c0 */
4447
4448     /* Odd part */
4449
4450     z1 = (INT32) wsptr[1];
4451     z2 = (INT32) wsptr[3];
4452     z3 = (INT32) wsptr[5];
4453
4454     tmp11 = MULTIPLY(z1 + z2, FIX(0.935414347));       /* (c3+c1-c5)/2 */
4455     tmp12 = MULTIPLY(z1 - z2, FIX(0.170262339));       /* (c3+c5-c1)/2 */
4456     tmp10 = tmp11 - tmp12;
4457     tmp11 += tmp12;
4458     tmp12 = MULTIPLY(z2 + z3, - FIX(1.378756276));     /* -c1 */
4459     tmp11 += tmp12;
4460     z2 = MULTIPLY(z1 + z3, FIX(0.613604268));          /* c5 */
4461     tmp10 += z2;
4462     tmp12 += z2 + MULTIPLY(z3, FIX(1.870828693));      /* c3+c1-c5 */
4463
4464     /* Final output stage */
4465
4466     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp10,
4467                                               CONST_BITS+PASS1_BITS+3)
4468                             & RANGE_MASK];
4469     outptr[6] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp10,
4470                                               CONST_BITS+PASS1_BITS+3)
4471                             & RANGE_MASK];
4472     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp11,
4473                                               CONST_BITS+PASS1_BITS+3)
4474                             & RANGE_MASK];
4475     outptr[5] = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp11,
4476                                               CONST_BITS+PASS1_BITS+3)
4477                             & RANGE_MASK];
4478     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp12,
4479                                               CONST_BITS+PASS1_BITS+3)
4480                             & RANGE_MASK];
4481     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp12,
4482                                               CONST_BITS+PASS1_BITS+3)
4483                             & RANGE_MASK];
4484     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp23,
4485                                               CONST_BITS+PASS1_BITS+3)
4486                             & RANGE_MASK];
4487
4488     wsptr += 7;         /* advance pointer to next row */
4489   }
4490 }
4491
4492
4493 /*
4494  * Perform dequantization and inverse DCT on one block of coefficients,
4495  * producing a 6x12 output block.
4496  *
4497  * 12-point IDCT in pass 1 (columns), 6-point in pass 2 (rows).
4498  */
4499
4500 GLOBAL(void)
4501 jpeg_idct_6x12 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
4502                 JCOEFPTR coef_block,
4503                 JSAMPARRAY output_buf, JDIMENSION output_col)
4504 {
4505   INT32 tmp10, tmp11, tmp12, tmp13, tmp14, tmp15;
4506   INT32 tmp20, tmp21, tmp22, tmp23, tmp24, tmp25;
4507   INT32 z1, z2, z3, z4;
4508   JCOEFPTR inptr;
4509   ISLOW_MULT_TYPE * quantptr;
4510   int * wsptr;
4511   JSAMPROW outptr;
4512   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
4513   int ctr;
4514   int workspace[6*12];  /* buffers data between passes */
4515   SHIFT_TEMPS
4516
4517   /* Pass 1: process columns from input, store into work array.
4518    * 12-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/24).
4519    */
4520
4521   inptr = coef_block;
4522   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
4523   wsptr = workspace;
4524   for (ctr = 0; ctr < 6; ctr++, inptr++, quantptr++, wsptr++) {
4525     /* Even part */
4526
4527     z3 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
4528     z3 <<= CONST_BITS;
4529     /* Add fudge factor here for final descale. */
4530     z3 += ONE << (CONST_BITS-PASS1_BITS-1);
4531
4532     z4 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
4533     z4 = MULTIPLY(z4, FIX(1.224744871)); /* c4 */
4534
4535     tmp10 = z3 + z4;
4536     tmp11 = z3 - z4;
4537
4538     z1 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
4539     z4 = MULTIPLY(z1, FIX(1.366025404)); /* c2 */
4540     z1 <<= CONST_BITS;
4541     z2 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
4542     z2 <<= CONST_BITS;
4543
4544     tmp12 = z1 - z2;
4545
4546     tmp21 = z3 + tmp12;
4547     tmp24 = z3 - tmp12;
4548
4549     tmp12 = z4 + z2;
4550
4551     tmp20 = tmp10 + tmp12;
4552     tmp25 = tmp10 - tmp12;
4553
4554     tmp12 = z4 - z1 - z2;
4555
4556     tmp22 = tmp11 + tmp12;
4557     tmp23 = tmp11 - tmp12;
4558
4559     /* Odd part */
4560
4561     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
4562     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
4563     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
4564     z4 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
4565
4566     tmp11 = MULTIPLY(z2, FIX(1.306562965));                  /* c3 */
4567     tmp14 = MULTIPLY(z2, - FIX_0_541196100);                 /* -c9 */
4568
4569     tmp10 = z1 + z3;
4570     tmp15 = MULTIPLY(tmp10 + z4, FIX(0.860918669));          /* c7 */
4571     tmp12 = tmp15 + MULTIPLY(tmp10, FIX(0.261052384));       /* c5-c7 */
4572     tmp10 = tmp12 + tmp11 + MULTIPLY(z1, FIX(0.280143716));  /* c1-c5 */
4573     tmp13 = MULTIPLY(z3 + z4, - FIX(1.045510580));           /* -(c7+c11) */
4574     tmp12 += tmp13 + tmp14 - MULTIPLY(z3, FIX(1.478575242)); /* c1+c5-c7-c11 */
4575     tmp13 += tmp15 - tmp11 + MULTIPLY(z4, FIX(1.586706681)); /* c1+c11 */
4576     tmp15 += tmp14 - MULTIPLY(z1, FIX(0.676326758)) -        /* c7-c11 */
4577              MULTIPLY(z4, FIX(1.982889723));                 /* c5+c7 */
4578
4579     z1 -= z4;
4580     z2 -= z3;
4581     z3 = MULTIPLY(z1 + z2, FIX_0_541196100);                 /* c9 */
4582     tmp11 = z3 + MULTIPLY(z1, FIX_0_765366865);              /* c3-c9 */
4583     tmp14 = z3 - MULTIPLY(z2, FIX_1_847759065);              /* c3+c9 */
4584
4585     /* Final output stage */
4586
4587     wsptr[6*0]  = (int) RIGHT_SHIFT(tmp20 + tmp10, CONST_BITS-PASS1_BITS);
4588     wsptr[6*11] = (int) RIGHT_SHIFT(tmp20 - tmp10, CONST_BITS-PASS1_BITS);
4589     wsptr[6*1]  = (int) RIGHT_SHIFT(tmp21 + tmp11, CONST_BITS-PASS1_BITS);
4590     wsptr[6*10] = (int) RIGHT_SHIFT(tmp21 - tmp11, CONST_BITS-PASS1_BITS);
4591     wsptr[6*2]  = (int) RIGHT_SHIFT(tmp22 + tmp12, CONST_BITS-PASS1_BITS);
4592     wsptr[6*9]  = (int) RIGHT_SHIFT(tmp22 - tmp12, CONST_BITS-PASS1_BITS);
4593     wsptr[6*3]  = (int) RIGHT_SHIFT(tmp23 + tmp13, CONST_BITS-PASS1_BITS);
4594     wsptr[6*8]  = (int) RIGHT_SHIFT(tmp23 - tmp13, CONST_BITS-PASS1_BITS);
4595     wsptr[6*4]  = (int) RIGHT_SHIFT(tmp24 + tmp14, CONST_BITS-PASS1_BITS);
4596     wsptr[6*7]  = (int) RIGHT_SHIFT(tmp24 - tmp14, CONST_BITS-PASS1_BITS);
4597     wsptr[6*5]  = (int) RIGHT_SHIFT(tmp25 + tmp15, CONST_BITS-PASS1_BITS);
4598     wsptr[6*6]  = (int) RIGHT_SHIFT(tmp25 - tmp15, CONST_BITS-PASS1_BITS);
4599   }
4600
4601   /* Pass 2: process 12 rows from work array, store into output array.
4602    * 6-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/12).
4603    */
4604
4605   wsptr = workspace;
4606   for (ctr = 0; ctr < 12; ctr++) {
4607     outptr = output_buf[ctr] + output_col;
4608
4609     /* Even part */
4610
4611     /* Add range center and fudge factor for final descale and range-limit. */
4612     tmp10 = (INT32) wsptr[0] +
4613               ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
4614                (ONE << (PASS1_BITS+2)));
4615     tmp10 <<= CONST_BITS;
4616     tmp12 = (INT32) wsptr[4];
4617     tmp20 = MULTIPLY(tmp12, FIX(0.707106781));   /* c4 */
4618     tmp11 = tmp10 + tmp20;
4619     tmp21 = tmp10 - tmp20 - tmp20;
4620     tmp20 = (INT32) wsptr[2];
4621     tmp10 = MULTIPLY(tmp20, FIX(1.224744871));   /* c2 */
4622     tmp20 = tmp11 + tmp10;
4623     tmp22 = tmp11 - tmp10;
4624
4625     /* Odd part */
4626
4627     z1 = (INT32) wsptr[1];
4628     z2 = (INT32) wsptr[3];
4629     z3 = (INT32) wsptr[5];
4630     tmp11 = MULTIPLY(z1 + z3, FIX(0.366025404)); /* c5 */
4631     tmp10 = tmp11 + ((z1 + z2) << CONST_BITS);
4632     tmp12 = tmp11 + ((z3 - z2) << CONST_BITS);
4633     tmp11 = (z1 - z2 - z3) << CONST_BITS;
4634
4635     /* Final output stage */
4636
4637     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp20 + tmp10,
4638                                               CONST_BITS+PASS1_BITS+3)
4639                             & RANGE_MASK];
4640     outptr[5] = range_limit[(int) RIGHT_SHIFT(tmp20 - tmp10,
4641                                               CONST_BITS+PASS1_BITS+3)
4642                             & RANGE_MASK];
4643     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp21 + tmp11,
4644                                               CONST_BITS+PASS1_BITS+3)
4645                             & RANGE_MASK];
4646     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp21 - tmp11,
4647                                               CONST_BITS+PASS1_BITS+3)
4648                             & RANGE_MASK];
4649     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp22 + tmp12,
4650                                               CONST_BITS+PASS1_BITS+3)
4651                             & RANGE_MASK];
4652     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp22 - tmp12,
4653                                               CONST_BITS+PASS1_BITS+3)
4654                             & RANGE_MASK];
4655
4656     wsptr += 6;         /* advance pointer to next row */
4657   }
4658 }
4659
4660
4661 /*
4662  * Perform dequantization and inverse DCT on one block of coefficients,
4663  * producing a 5x10 output block.
4664  *
4665  * 10-point IDCT in pass 1 (columns), 5-point in pass 2 (rows).
4666  */
4667
4668 GLOBAL(void)
4669 jpeg_idct_5x10 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
4670                 JCOEFPTR coef_block,
4671                 JSAMPARRAY output_buf, JDIMENSION output_col)
4672 {
4673   INT32 tmp10, tmp11, tmp12, tmp13, tmp14;
4674   INT32 tmp20, tmp21, tmp22, tmp23, tmp24;
4675   INT32 z1, z2, z3, z4, z5;
4676   JCOEFPTR inptr;
4677   ISLOW_MULT_TYPE * quantptr;
4678   int * wsptr;
4679   JSAMPROW outptr;
4680   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
4681   int ctr;
4682   int workspace[5*10];  /* buffers data between passes */
4683   SHIFT_TEMPS
4684
4685   /* Pass 1: process columns from input, store into work array.
4686    * 10-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/20).
4687    */
4688
4689   inptr = coef_block;
4690   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
4691   wsptr = workspace;
4692   for (ctr = 0; ctr < 5; ctr++, inptr++, quantptr++, wsptr++) {
4693     /* Even part */
4694
4695     z3 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
4696     z3 <<= CONST_BITS;
4697     /* Add fudge factor here for final descale. */
4698     z3 += ONE << (CONST_BITS-PASS1_BITS-1);
4699     z4 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
4700     z1 = MULTIPLY(z4, FIX(1.144122806));         /* c4 */
4701     z2 = MULTIPLY(z4, FIX(0.437016024));         /* c8 */
4702     tmp10 = z3 + z1;
4703     tmp11 = z3 - z2;
4704
4705     tmp22 = RIGHT_SHIFT(z3 - ((z1 - z2) << 1),   /* c0 = (c4-c8)*2 */
4706                         CONST_BITS-PASS1_BITS);
4707
4708     z2 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
4709     z3 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
4710
4711     z1 = MULTIPLY(z2 + z3, FIX(0.831253876));    /* c6 */
4712     tmp12 = z1 + MULTIPLY(z2, FIX(0.513743148)); /* c2-c6 */
4713     tmp13 = z1 - MULTIPLY(z3, FIX(2.176250899)); /* c2+c6 */
4714
4715     tmp20 = tmp10 + tmp12;
4716     tmp24 = tmp10 - tmp12;
4717     tmp21 = tmp11 + tmp13;
4718     tmp23 = tmp11 - tmp13;
4719
4720     /* Odd part */
4721
4722     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
4723     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
4724     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
4725     z4 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
4726
4727     tmp11 = z2 + z4;
4728     tmp13 = z2 - z4;
4729
4730     tmp12 = MULTIPLY(tmp13, FIX(0.309016994));        /* (c3-c7)/2 */
4731     z5 = z3 << CONST_BITS;
4732
4733     z2 = MULTIPLY(tmp11, FIX(0.951056516));           /* (c3+c7)/2 */
4734     z4 = z5 + tmp12;
4735
4736     tmp10 = MULTIPLY(z1, FIX(1.396802247)) + z2 + z4; /* c1 */
4737     tmp14 = MULTIPLY(z1, FIX(0.221231742)) - z2 + z4; /* c9 */
4738
4739     z2 = MULTIPLY(tmp11, FIX(0.587785252));           /* (c1-c9)/2 */
4740     z4 = z5 - tmp12 - (tmp13 << (CONST_BITS - 1));
4741
4742     tmp12 = (z1 - tmp13 - z3) << PASS1_BITS;
4743
4744     tmp11 = MULTIPLY(z1, FIX(1.260073511)) - z2 - z4; /* c3 */
4745     tmp13 = MULTIPLY(z1, FIX(0.642039522)) - z2 + z4; /* c7 */
4746
4747     /* Final output stage */
4748
4749     wsptr[5*0] = (int) RIGHT_SHIFT(tmp20 + tmp10, CONST_BITS-PASS1_BITS);
4750     wsptr[5*9] = (int) RIGHT_SHIFT(tmp20 - tmp10, CONST_BITS-PASS1_BITS);
4751     wsptr[5*1] = (int) RIGHT_SHIFT(tmp21 + tmp11, CONST_BITS-PASS1_BITS);
4752     wsptr[5*8] = (int) RIGHT_SHIFT(tmp21 - tmp11, CONST_BITS-PASS1_BITS);
4753     wsptr[5*2] = (int) (tmp22 + tmp12);
4754     wsptr[5*7] = (int) (tmp22 - tmp12);
4755     wsptr[5*3] = (int) RIGHT_SHIFT(tmp23 + tmp13, CONST_BITS-PASS1_BITS);
4756     wsptr[5*6] = (int) RIGHT_SHIFT(tmp23 - tmp13, CONST_BITS-PASS1_BITS);
4757     wsptr[5*4] = (int) RIGHT_SHIFT(tmp24 + tmp14, CONST_BITS-PASS1_BITS);
4758     wsptr[5*5] = (int) RIGHT_SHIFT(tmp24 - tmp14, CONST_BITS-PASS1_BITS);
4759   }
4760
4761   /* Pass 2: process 10 rows from work array, store into output array.
4762    * 5-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/10).
4763    */
4764
4765   wsptr = workspace;
4766   for (ctr = 0; ctr < 10; ctr++) {
4767     outptr = output_buf[ctr] + output_col;
4768
4769     /* Even part */
4770
4771     /* Add range center and fudge factor for final descale and range-limit. */
4772     tmp12 = (INT32) wsptr[0] +
4773               ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
4774                (ONE << (PASS1_BITS+2)));
4775     tmp12 <<= CONST_BITS;
4776     tmp13 = (INT32) wsptr[2];
4777     tmp14 = (INT32) wsptr[4];
4778     z1 = MULTIPLY(tmp13 + tmp14, FIX(0.790569415)); /* (c2+c4)/2 */
4779     z2 = MULTIPLY(tmp13 - tmp14, FIX(0.353553391)); /* (c2-c4)/2 */
4780     z3 = tmp12 + z2;
4781     tmp10 = z3 + z1;
4782     tmp11 = z3 - z1;
4783     tmp12 -= z2 << 2;
4784
4785     /* Odd part */
4786
4787     z2 = (INT32) wsptr[1];
4788     z3 = (INT32) wsptr[3];
4789
4790     z1 = MULTIPLY(z2 + z3, FIX(0.831253876));       /* c3 */
4791     tmp13 = z1 + MULTIPLY(z2, FIX(0.513743148));    /* c1-c3 */
4792     tmp14 = z1 - MULTIPLY(z3, FIX(2.176250899));    /* c1+c3 */
4793
4794     /* Final output stage */
4795
4796     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp13,
4797                                               CONST_BITS+PASS1_BITS+3)
4798                             & RANGE_MASK];
4799     outptr[4] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp13,
4800                                               CONST_BITS+PASS1_BITS+3)
4801                             & RANGE_MASK];
4802     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp11 + tmp14,
4803                                               CONST_BITS+PASS1_BITS+3)
4804                             & RANGE_MASK];
4805     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp11 - tmp14,
4806                                               CONST_BITS+PASS1_BITS+3)
4807                             & RANGE_MASK];
4808     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp12,
4809                                               CONST_BITS+PASS1_BITS+3)
4810                             & RANGE_MASK];
4811
4812     wsptr += 5;         /* advance pointer to next row */
4813   }
4814 }
4815
4816
4817 /*
4818  * Perform dequantization and inverse DCT on one block of coefficients,
4819  * producing a 4x8 output block.
4820  *
4821  * 8-point IDCT in pass 1 (columns), 4-point in pass 2 (rows).
4822  */
4823
4824 GLOBAL(void)
4825 jpeg_idct_4x8 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
4826                JCOEFPTR coef_block,
4827                JSAMPARRAY output_buf, JDIMENSION output_col)
4828 {
4829   INT32 tmp0, tmp1, tmp2, tmp3;
4830   INT32 tmp10, tmp11, tmp12, tmp13;
4831   INT32 z1, z2, z3;
4832   JCOEFPTR inptr;
4833   ISLOW_MULT_TYPE * quantptr;
4834   int * wsptr;
4835   JSAMPROW outptr;
4836   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
4837   int ctr;
4838   int workspace[4*8];   /* buffers data between passes */
4839   SHIFT_TEMPS
4840
4841   /* Pass 1: process columns from input, store into work array.
4842    * Note results are scaled up by sqrt(8) compared to a true IDCT;
4843    * furthermore, we scale the results by 2**PASS1_BITS.
4844    * 8-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/16).
4845    */
4846
4847   inptr = coef_block;
4848   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
4849   wsptr = workspace;
4850   for (ctr = 4; ctr > 0; ctr--) {
4851     /* Due to quantization, we will usually find that many of the input
4852      * coefficients are zero, especially the AC terms.  We can exploit this
4853      * by short-circuiting the IDCT calculation for any column in which all
4854      * the AC terms are zero.  In that case each output is equal to the
4855      * DC coefficient (with scale factor as needed).
4856      * With typical images and quantization tables, half or more of the
4857      * column DCT calculations can be simplified this way.
4858      */
4859
4860     if (inptr[DCTSIZE*1] == 0 && inptr[DCTSIZE*2] == 0 &&
4861         inptr[DCTSIZE*3] == 0 && inptr[DCTSIZE*4] == 0 &&
4862         inptr[DCTSIZE*5] == 0 && inptr[DCTSIZE*6] == 0 &&
4863         inptr[DCTSIZE*7] == 0) {
4864       /* AC terms all zero */
4865       int dcval = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]) << PASS1_BITS;
4866
4867       wsptr[4*0] = dcval;
4868       wsptr[4*1] = dcval;
4869       wsptr[4*2] = dcval;
4870       wsptr[4*3] = dcval;
4871       wsptr[4*4] = dcval;
4872       wsptr[4*5] = dcval;
4873       wsptr[4*6] = dcval;
4874       wsptr[4*7] = dcval;
4875
4876       inptr++;                  /* advance pointers to next column */
4877       quantptr++;
4878       wsptr++;
4879       continue;
4880     }
4881
4882     /* Even part: reverse the even part of the forward DCT.
4883      * The rotator is c(-6).
4884      */
4885
4886     z2 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
4887     z3 = DEQUANTIZE(inptr[DCTSIZE*6], quantptr[DCTSIZE*6]);
4888
4889     z1 = MULTIPLY(z2 + z3, FIX_0_541196100);       /* c6 */
4890     tmp2 = z1 + MULTIPLY(z2, FIX_0_765366865);     /* c2-c6 */
4891     tmp3 = z1 - MULTIPLY(z3, FIX_1_847759065);     /* c2+c6 */
4892
4893     z2 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
4894     z3 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
4895     z2 <<= CONST_BITS;
4896     z3 <<= CONST_BITS;
4897     /* Add fudge factor here for final descale. */
4898     z2 += ONE << (CONST_BITS-PASS1_BITS-1);
4899
4900     tmp0 = z2 + z3;
4901     tmp1 = z2 - z3;
4902
4903     tmp10 = tmp0 + tmp2;
4904     tmp13 = tmp0 - tmp2;
4905     tmp11 = tmp1 + tmp3;
4906     tmp12 = tmp1 - tmp3;
4907
4908     /* Odd part per figure 8; the matrix is unitary and hence its
4909      * transpose is its inverse.  i0..i3 are y7,y5,y3,y1 respectively.
4910      */
4911
4912     tmp0 = DEQUANTIZE(inptr[DCTSIZE*7], quantptr[DCTSIZE*7]);
4913     tmp1 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
4914     tmp2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
4915     tmp3 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
4916
4917     z2 = tmp0 + tmp2;
4918     z3 = tmp1 + tmp3;
4919
4920     z1 = MULTIPLY(z2 + z3, FIX_1_175875602);       /*  c3 */
4921     z2 = MULTIPLY(z2, - FIX_1_961570560);          /* -c3-c5 */
4922     z3 = MULTIPLY(z3, - FIX_0_390180644);          /* -c3+c5 */
4923     z2 += z1;
4924     z3 += z1;
4925
4926     z1 = MULTIPLY(tmp0 + tmp3, - FIX_0_899976223); /* -c3+c7 */
4927     tmp0 = MULTIPLY(tmp0, FIX_0_298631336);        /* -c1+c3+c5-c7 */
4928     tmp3 = MULTIPLY(tmp3, FIX_1_501321110);        /*  c1+c3-c5-c7 */
4929     tmp0 += z1 + z2;
4930     tmp3 += z1 + z3;
4931
4932     z1 = MULTIPLY(tmp1 + tmp2, - FIX_2_562915447); /* -c1-c3 */
4933     tmp1 = MULTIPLY(tmp1, FIX_2_053119869);        /*  c1+c3-c5+c7 */
4934     tmp2 = MULTIPLY(tmp2, FIX_3_072711026);        /*  c1+c3+c5-c7 */
4935     tmp1 += z1 + z3;
4936     tmp2 += z1 + z2;
4937
4938     /* Final output stage: inputs are tmp10..tmp13, tmp0..tmp3 */
4939
4940     wsptr[4*0] = (int) RIGHT_SHIFT(tmp10 + tmp3, CONST_BITS-PASS1_BITS);
4941     wsptr[4*7] = (int) RIGHT_SHIFT(tmp10 - tmp3, CONST_BITS-PASS1_BITS);
4942     wsptr[4*1] = (int) RIGHT_SHIFT(tmp11 + tmp2, CONST_BITS-PASS1_BITS);
4943     wsptr[4*6] = (int) RIGHT_SHIFT(tmp11 - tmp2, CONST_BITS-PASS1_BITS);
4944     wsptr[4*2] = (int) RIGHT_SHIFT(tmp12 + tmp1, CONST_BITS-PASS1_BITS);
4945     wsptr[4*5] = (int) RIGHT_SHIFT(tmp12 - tmp1, CONST_BITS-PASS1_BITS);
4946     wsptr[4*3] = (int) RIGHT_SHIFT(tmp13 + tmp0, CONST_BITS-PASS1_BITS);
4947     wsptr[4*4] = (int) RIGHT_SHIFT(tmp13 - tmp0, CONST_BITS-PASS1_BITS);
4948
4949     inptr++;                    /* advance pointers to next column */
4950     quantptr++;
4951     wsptr++;
4952   }
4953
4954   /* Pass 2: process 8 rows from work array, store into output array.
4955    * 4-point IDCT kernel,
4956    * cK represents sqrt(2) * cos(K*pi/16) [refers to 8-point IDCT].
4957    */
4958
4959   wsptr = workspace;
4960   for (ctr = 0; ctr < 8; ctr++) {
4961     outptr = output_buf[ctr] + output_col;
4962
4963     /* Even part */
4964
4965     /* Add range center and fudge factor for final descale and range-limit. */
4966     tmp0 = (INT32) wsptr[0] +
4967              ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
4968               (ONE << (PASS1_BITS+2)));
4969     tmp2 = (INT32) wsptr[2];
4970
4971     tmp10 = (tmp0 + tmp2) << CONST_BITS;
4972     tmp12 = (tmp0 - tmp2) << CONST_BITS;
4973
4974     /* Odd part */
4975     /* Same rotation as in the even part of the 8x8 LL&M IDCT */
4976
4977     z2 = (INT32) wsptr[1];
4978     z3 = (INT32) wsptr[3];
4979
4980     z1 = MULTIPLY(z2 + z3, FIX_0_541196100);   /* c6 */
4981     tmp0 = z1 + MULTIPLY(z2, FIX_0_765366865); /* c2-c6 */
4982     tmp2 = z1 - MULTIPLY(z3, FIX_1_847759065); /* c2+c6 */
4983
4984     /* Final output stage */
4985
4986     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp0,
4987                                               CONST_BITS+PASS1_BITS+3)
4988                             & RANGE_MASK];
4989     outptr[3] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp0,
4990                                               CONST_BITS+PASS1_BITS+3)
4991                             & RANGE_MASK];
4992     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp12 + tmp2,
4993                                               CONST_BITS+PASS1_BITS+3)
4994                             & RANGE_MASK];
4995     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp12 - tmp2,
4996                                               CONST_BITS+PASS1_BITS+3)
4997                             & RANGE_MASK];
4998
4999     wsptr += 4;         /* advance pointer to next row */
5000   }
5001 }
5002
5003
5004 /*
5005  * Perform dequantization and inverse DCT on one block of coefficients,
5006  * producing a reduced-size 3x6 output block.
5007  *
5008  * 6-point IDCT in pass 1 (columns), 3-point in pass 2 (rows).
5009  */
5010
5011 GLOBAL(void)
5012 jpeg_idct_3x6 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
5013                JCOEFPTR coef_block,
5014                JSAMPARRAY output_buf, JDIMENSION output_col)
5015 {
5016   INT32 tmp0, tmp1, tmp2, tmp10, tmp11, tmp12;
5017   INT32 z1, z2, z3;
5018   JCOEFPTR inptr;
5019   ISLOW_MULT_TYPE * quantptr;
5020   int * wsptr;
5021   JSAMPROW outptr;
5022   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
5023   int ctr;
5024   int workspace[3*6];   /* buffers data between passes */
5025   SHIFT_TEMPS
5026
5027   /* Pass 1: process columns from input, store into work array.
5028    * 6-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/12).
5029    */
5030
5031   inptr = coef_block;
5032   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
5033   wsptr = workspace;
5034   for (ctr = 0; ctr < 3; ctr++, inptr++, quantptr++, wsptr++) {
5035     /* Even part */
5036
5037     tmp0 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
5038     tmp0 <<= CONST_BITS;
5039     /* Add fudge factor here for final descale. */
5040     tmp0 += ONE << (CONST_BITS-PASS1_BITS-1);
5041     tmp2 = DEQUANTIZE(inptr[DCTSIZE*4], quantptr[DCTSIZE*4]);
5042     tmp10 = MULTIPLY(tmp2, FIX(0.707106781));   /* c4 */
5043     tmp1 = tmp0 + tmp10;
5044     tmp11 = RIGHT_SHIFT(tmp0 - tmp10 - tmp10, CONST_BITS-PASS1_BITS);
5045     tmp10 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
5046     tmp0 = MULTIPLY(tmp10, FIX(1.224744871));   /* c2 */
5047     tmp10 = tmp1 + tmp0;
5048     tmp12 = tmp1 - tmp0;
5049
5050     /* Odd part */
5051
5052     z1 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
5053     z2 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
5054     z3 = DEQUANTIZE(inptr[DCTSIZE*5], quantptr[DCTSIZE*5]);
5055     tmp1 = MULTIPLY(z1 + z3, FIX(0.366025404)); /* c5 */
5056     tmp0 = tmp1 + ((z1 + z2) << CONST_BITS);
5057     tmp2 = tmp1 + ((z3 - z2) << CONST_BITS);
5058     tmp1 = (z1 - z2 - z3) << PASS1_BITS;
5059
5060     /* Final output stage */
5061
5062     wsptr[3*0] = (int) RIGHT_SHIFT(tmp10 + tmp0, CONST_BITS-PASS1_BITS);
5063     wsptr[3*5] = (int) RIGHT_SHIFT(tmp10 - tmp0, CONST_BITS-PASS1_BITS);
5064     wsptr[3*1] = (int) (tmp11 + tmp1);
5065     wsptr[3*4] = (int) (tmp11 - tmp1);
5066     wsptr[3*2] = (int) RIGHT_SHIFT(tmp12 + tmp2, CONST_BITS-PASS1_BITS);
5067     wsptr[3*3] = (int) RIGHT_SHIFT(tmp12 - tmp2, CONST_BITS-PASS1_BITS);
5068   }
5069
5070   /* Pass 2: process 6 rows from work array, store into output array.
5071    * 3-point IDCT kernel, cK represents sqrt(2) * cos(K*pi/6).
5072    */
5073
5074   wsptr = workspace;
5075   for (ctr = 0; ctr < 6; ctr++) {
5076     outptr = output_buf[ctr] + output_col;
5077
5078     /* Even part */
5079
5080     /* Add range center and fudge factor for final descale and range-limit. */
5081     tmp0 = (INT32) wsptr[0] +
5082              ((((INT32) RANGE_CENTER) << (PASS1_BITS+3)) +
5083               (ONE << (PASS1_BITS+2)));
5084     tmp0 <<= CONST_BITS;
5085     tmp2 = (INT32) wsptr[2];
5086     tmp12 = MULTIPLY(tmp2, FIX(0.707106781)); /* c2 */
5087     tmp10 = tmp0 + tmp12;
5088     tmp2 = tmp0 - tmp12 - tmp12;
5089
5090     /* Odd part */
5091
5092     tmp12 = (INT32) wsptr[1];
5093     tmp0 = MULTIPLY(tmp12, FIX(1.224744871)); /* c1 */
5094
5095     /* Final output stage */
5096
5097     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp0,
5098                                               CONST_BITS+PASS1_BITS+3)
5099                             & RANGE_MASK];
5100     outptr[2] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp0,
5101                                               CONST_BITS+PASS1_BITS+3)
5102                             & RANGE_MASK];
5103     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp2,
5104                                               CONST_BITS+PASS1_BITS+3)
5105                             & RANGE_MASK];
5106
5107     wsptr += 3;         /* advance pointer to next row */
5108   }
5109 }
5110
5111
5112 /*
5113  * Perform dequantization and inverse DCT on one block of coefficients,
5114  * producing a 2x4 output block.
5115  *
5116  * 4-point IDCT in pass 1 (columns), 2-point in pass 2 (rows).
5117  */
5118
5119 GLOBAL(void)
5120 jpeg_idct_2x4 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
5121                JCOEFPTR coef_block,
5122                JSAMPARRAY output_buf, JDIMENSION output_col)
5123 {
5124   INT32 tmp0, tmp2, tmp10, tmp12;
5125   INT32 z1, z2, z3;
5126   JCOEFPTR inptr;
5127   ISLOW_MULT_TYPE * quantptr;
5128   INT32 * wsptr;
5129   JSAMPROW outptr;
5130   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
5131   int ctr;
5132   INT32 workspace[2*4]; /* buffers data between passes */
5133   SHIFT_TEMPS
5134
5135   /* Pass 1: process columns from input, store into work array.
5136    * 4-point IDCT kernel,
5137    * cK represents sqrt(2) * cos(K*pi/16) [refers to 8-point IDCT].
5138    */
5139
5140   inptr = coef_block;
5141   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
5142   wsptr = workspace;
5143   for (ctr = 0; ctr < 2; ctr++, inptr++, quantptr++, wsptr++) {
5144     /* Even part */
5145
5146     tmp0 = DEQUANTIZE(inptr[DCTSIZE*0], quantptr[DCTSIZE*0]);
5147     tmp2 = DEQUANTIZE(inptr[DCTSIZE*2], quantptr[DCTSIZE*2]);
5148
5149     tmp10 = (tmp0 + tmp2) << CONST_BITS;
5150     tmp12 = (tmp0 - tmp2) << CONST_BITS;
5151
5152     /* Odd part */
5153     /* Same rotation as in the even part of the 8x8 LL&M IDCT */
5154
5155     z2 = DEQUANTIZE(inptr[DCTSIZE*1], quantptr[DCTSIZE*1]);
5156     z3 = DEQUANTIZE(inptr[DCTSIZE*3], quantptr[DCTSIZE*3]);
5157
5158     z1 = MULTIPLY(z2 + z3, FIX_0_541196100);   /* c6 */
5159     tmp0 = z1 + MULTIPLY(z2, FIX_0_765366865); /* c2-c6 */
5160     tmp2 = z1 - MULTIPLY(z3, FIX_1_847759065); /* c2+c6 */
5161
5162     /* Final output stage */
5163
5164     wsptr[2*0] = tmp10 + tmp0;
5165     wsptr[2*3] = tmp10 - tmp0;
5166     wsptr[2*1] = tmp12 + tmp2;
5167     wsptr[2*2] = tmp12 - tmp2;
5168   }
5169
5170   /* Pass 2: process 4 rows from work array, store into output array. */
5171
5172   wsptr = workspace;
5173   for (ctr = 0; ctr < 4; ctr++) {
5174     outptr = output_buf[ctr] + output_col;
5175
5176     /* Even part */
5177
5178     /* Add range center and fudge factor for final descale and range-limit. */
5179     tmp10 = wsptr[0] +
5180               ((((INT32) RANGE_CENTER) << (CONST_BITS+3)) +
5181                (ONE << (CONST_BITS+2)));
5182
5183     /* Odd part */
5184
5185     tmp0 = wsptr[1];
5186
5187     /* Final output stage */
5188
5189     outptr[0] = range_limit[(int) RIGHT_SHIFT(tmp10 + tmp0, CONST_BITS+3)
5190                             & RANGE_MASK];
5191     outptr[1] = range_limit[(int) RIGHT_SHIFT(tmp10 - tmp0, CONST_BITS+3)
5192                             & RANGE_MASK];
5193
5194     wsptr += 2;         /* advance pointer to next row */
5195   }
5196 }
5197
5198
5199 /*
5200  * Perform dequantization and inverse DCT on one block of coefficients,
5201  * producing a 1x2 output block.
5202  *
5203  * 2-point IDCT in pass 1 (columns), 1-point in pass 2 (rows).
5204  */
5205
5206 GLOBAL(void)
5207 jpeg_idct_1x2 (j_decompress_ptr cinfo, jpeg_component_info * compptr,
5208                JCOEFPTR coef_block,
5209                JSAMPARRAY output_buf, JDIMENSION output_col)
5210 {
5211   DCTELEM tmp0, tmp1;
5212   ISLOW_MULT_TYPE * quantptr;
5213   JSAMPLE *range_limit = IDCT_range_limit(cinfo);
5214   ISHIFT_TEMPS
5215
5216   /* Process 1 column from input, store into output array. */
5217
5218   quantptr = (ISLOW_MULT_TYPE *) compptr->dct_table;
5219
5220   /* Even part */
5221
5222   tmp0 = DEQUANTIZE(coef_block[DCTSIZE*0], quantptr[DCTSIZE*0]);
5223   /* Add range center and fudge factor for final descale and range-limit. */
5224   tmp0 += (((DCTELEM) RANGE_CENTER) << 3) + (1 << 2);
5225
5226   /* Odd part */
5227
5228   tmp1 = DEQUANTIZE(coef_block[DCTSIZE*1], quantptr[DCTSIZE*1]);
5229
5230   /* Final output stage */
5231
5232   output_buf[0][output_col] =
5233     range_limit[(int) IRIGHT_SHIFT(tmp0 + tmp1, 3) & RANGE_MASK];
5234   output_buf[1][output_col] =
5235     range_limit[(int) IRIGHT_SHIFT(tmp0 - tmp1, 3) & RANGE_MASK];
5236 }
5237
5238 #endif /* IDCT_SCALING_SUPPORTED */
5239 #endif /* DCT_ISLOW_SUPPORTED */