forget remove a calc value in the for loop it can do outside the loop.
[reactos.git] / reactos / subsys / win32k / dib / dib16bpp.c
index 279f3c4..5e81602 100644 (file)
  *  along with this program; if not, write to the Free Software
  *  Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
  */
-/* $Id$ */
+
 #include <w32k.h>
 
+#define NDEBUG
+#include <debug.h>
+
 VOID
 DIB_16BPP_PutPixel(SURFOBJ *SurfObj, LONG x, LONG y, ULONG c)
 {
-  PBYTE byteaddr = SurfObj->pvScan0 + y * SurfObj->lDelta;
+  PBYTE byteaddr = (PBYTE)SurfObj->pvScan0 + y * SurfObj->lDelta;
   PWORD addr = (PWORD)byteaddr + x;
 
   *addr = (WORD)c;
@@ -31,7 +34,7 @@ DIB_16BPP_PutPixel(SURFOBJ *SurfObj, LONG x, LONG y, ULONG c)
 ULONG
 DIB_16BPP_GetPixel(SURFOBJ *SurfObj, LONG x, LONG y)
 {
-  PBYTE byteaddr = SurfObj->pvScan0 + y * SurfObj->lDelta;
+  PBYTE byteaddr = (PBYTE)SurfObj->pvScan0 + y * SurfObj->lDelta;
   PWORD addr = (PWORD)byteaddr + x;
 
   return (ULONG)(*addr);
@@ -40,20 +43,92 @@ DIB_16BPP_GetPixel(SURFOBJ *SurfObj, LONG x, LONG y)
 VOID
 DIB_16BPP_HLine(SURFOBJ *SurfObj, LONG x1, LONG x2, LONG y, ULONG c)
 {
-  PBYTE byteaddr = SurfObj->pvScan0 + y * SurfObj->lDelta;
-  PWORD addr = (PWORD)byteaddr + x1;
+  PDWORD addr = (PDWORD)((PWORD)((PBYTE)SurfObj->pvScan0 + y * SurfObj->lDelta) + x1);
+
+#ifdef _M_IX86
+  /* This is about 10% faster than the generic C code below */
+  LONG Count = x2 - x1;
+
+  __asm__ __volatile__ (
+"  cld\n"
+"  mov  %0, %%eax\n"
+"  shl  $16, %%eax\n"
+"  andl $0xffff, %0\n"  /* If the pixel value is "abcd", put "abcdabcd" in %eax */
+"  or   %0, %%eax\n"
+"  mov  %2, %%edi\n"
+"  test $0x03, %%edi\n" /* Align to fullword boundary */
+"  jz   0f\n"
+"  stosw\n"
+"  dec  %1\n"
+"  jz   1f\n"
+"0:\n"
+"  mov  %1,%%ecx\n"     /* Setup count of fullwords to fill */
+"  shr  $1,%%ecx\n"
+"  rep stosl\n"         /* The actual fill */
+"  test $0x01, %1\n"    /* One left to do at the right side? */
+"  jz   1f\n"
+"  stosw\n"
+"1:\n"
+  : /* no output */
+  : "r"(c), "r"(Count), "m"(addr)
+  : "%eax", "%ecx", "%edi");
+#else /* _M_IX86 */
   LONG cx = x1;
+  DWORD cc;
 
-  while(cx < x2) {
-    *addr = (WORD)c;
-    ++addr;
-    ++cx;
+  if (0 != (cx & 0x01)) {
+    *((PWORD) addr) = c;
+    cx++;
+    addr = (PDWORD)((PWORD)(addr) + 1);
   }
+  cc = ((c & 0xffff) << 16) | (c & 0xffff);
+  while(cx + 1 < x2) {
+    *addr++ = cc;
+    cx += 2;
+  }
+  if (cx < x2) {
+    *((PWORD) addr) = c;
+  }
+#endif /* _M_IX86 */
 }
 
+
 VOID
 DIB_16BPP_VLine(SURFOBJ *SurfObj, LONG x, LONG y1, LONG y2, ULONG c)
 {
+#ifdef _M_IX86
+  asm volatile(
+    "   testl %2, %2"       "\n\t"
+    "   jle   2f"           "\n\t"
+    "   movl  %2, %%ecx"    "\n\t"
+    "   shrl  $2, %2"       "\n\t"
+    "   andl  $3, %%ecx"    "\n\t"
+    "   jz    1f"           "\n\t"
+    "0:"                    "\n\t"
+    "   movw  %%ax, (%0)"   "\n\t"
+    "   addl  %1, %0"       "\n\t"
+    "   decl  %%ecx"        "\n\t"
+    "   jnz   0b"           "\n\t"
+    "   testl %2, %2"       "\n\t"
+    "   jz    2f"           "\n\t"
+    "1:"                    "\n\t"
+    "   movw  %%ax, (%0)"   "\n\t"
+    "   addl  %1, %0"       "\n\t"
+    "   movw  %%ax, (%0)"   "\n\t"
+    "   addl  %1, %0"       "\n\t"
+    "   movw  %%ax, (%0)"   "\n\t"
+    "   addl  %1, %0"       "\n\t"
+    "   movw  %%ax, (%0)"   "\n\t"
+    "   addl  %1, %0"       "\n\t"
+    "   decl  %2"           "\n\t"
+    "   jnz   1b"           "\n\t"
+    "2:"                    "\n\t"
+    : /* no output */
+    : "r"((PBYTE)SurfObj->pvScan0 + (y1 * SurfObj->lDelta) + (x * sizeof (WORD))),
+      "r"(SurfObj->lDelta), "r"(y2 - y1), "a"(c)
+    : "cc", "memory", "%ecx");
+#else
   PBYTE byteaddr = SurfObj->pvScan0 + y1 * SurfObj->lDelta;
   PWORD addr = (PWORD)byteaddr + x;
   LONG lDelta = SurfObj->lDelta;
@@ -65,6 +140,7 @@ DIB_16BPP_VLine(SURFOBJ *SurfObj, LONG x, LONG y1, LONG y2, ULONG c)
     byteaddr += lDelta;
     addr = (PWORD)byteaddr;
   }
+#endif
 }
 
 BOOLEAN
@@ -73,7 +149,7 @@ DIB_16BPP_BitBltSrcCopy(PBLTINFO BltInfo)
   LONG     i, j, sx, sy, xColor, f1;
   PBYTE    SourceBits, DestBits, SourceLine, DestLine;
   PBYTE    SourceBits_4BPP, SourceLine_4BPP;
-  DestBits = BltInfo->DestSurface->pvScan0 + (BltInfo->DestRect.top * BltInfo->DestSurface->lDelta) + 2 * BltInfo->DestRect.left;
+  DestBits = (PBYTE)BltInfo->DestSurface->pvScan0 + (BltInfo->DestRect.top * BltInfo->DestSurface->lDelta) + 2 * BltInfo->DestRect.left;
 
   switch(BltInfo->SourceSurface->iBitmapFormat)
   {
@@ -99,7 +175,7 @@ DIB_16BPP_BitBltSrcCopy(PBLTINFO BltInfo)
       break;
 
     case BMF_4BPP:
-      SourceBits_4BPP = BltInfo->SourceSurface->pvScan0 + (BltInfo->SourcePoint.y * BltInfo->SourceSurface->lDelta) + (BltInfo->SourcePoint.x >> 1);
+      SourceBits_4BPP = (PBYTE)BltInfo->SourceSurface->pvScan0 + (BltInfo->SourcePoint.y * BltInfo->SourceSurface->lDelta) + (BltInfo->SourcePoint.x >> 1);
 
       for (j=BltInfo->DestRect.top; j<BltInfo->DestRect.bottom; j++)
       {
@@ -121,7 +197,7 @@ DIB_16BPP_BitBltSrcCopy(PBLTINFO BltInfo)
       break;
 
     case BMF_8BPP:
-      SourceLine = BltInfo->SourceSurface->pvScan0 + (BltInfo->SourcePoint.y * BltInfo->SourceSurface->lDelta) + BltInfo->SourcePoint.x;
+      SourceLine = (PBYTE)BltInfo->SourceSurface->pvScan0 + (BltInfo->SourcePoint.y * BltInfo->SourceSurface->lDelta) + BltInfo->SourcePoint.x;
       DestLine = DestBits;
 
       for (j = BltInfo->DestRect.top; j < BltInfo->DestRect.bottom; j++)
@@ -146,7 +222,7 @@ DIB_16BPP_BitBltSrcCopy(PBLTINFO BltInfo)
       {
        if (BltInfo->DestRect.top < BltInfo->SourcePoint.y)
          {
-           SourceBits = BltInfo->SourceSurface->pvScan0 + (BltInfo->SourcePoint.y * BltInfo->SourceSurface->lDelta) + 2 * BltInfo->SourcePoint.x;
+           SourceBits = (PBYTE)BltInfo->SourceSurface->pvScan0 + (BltInfo->SourcePoint.y * BltInfo->SourceSurface->lDelta) + 2 * BltInfo->SourcePoint.x;
            for (j = BltInfo->DestRect.top; j < BltInfo->DestRect.bottom; j++)
              {
                RtlMoveMemory(DestBits, SourceBits, 2 * (BltInfo->DestRect.right - BltInfo->DestRect.left));
@@ -156,8 +232,8 @@ DIB_16BPP_BitBltSrcCopy(PBLTINFO BltInfo)
          }
        else
          {
-           SourceBits = BltInfo->SourceSurface->pvScan0 + ((BltInfo->SourcePoint.y + BltInfo->DestRect.bottom - BltInfo->DestRect.top - 1) * BltInfo->SourceSurface->lDelta) + 2 * BltInfo->SourcePoint.x;
-           DestBits = BltInfo->DestSurface->pvScan0 + ((BltInfo->DestRect.bottom - 1) * BltInfo->DestSurface->lDelta) + 2 * BltInfo->DestRect.left;
+           SourceBits = (PBYTE)BltInfo->SourceSurface->pvScan0 + ((BltInfo->SourcePoint.y + BltInfo->DestRect.bottom - BltInfo->DestRect.top - 1) * BltInfo->SourceSurface->lDelta) + 2 * BltInfo->SourcePoint.x;
+           DestBits = (PBYTE)BltInfo->DestSurface->pvScan0 + ((BltInfo->DestRect.bottom - 1) * BltInfo->DestSurface->lDelta) + 2 * BltInfo->DestRect.left;
            for (j = BltInfo->DestRect.bottom - 1; BltInfo->DestRect.top <= j; j--)
              {
                RtlMoveMemory(DestBits, SourceBits, 2 * (BltInfo->DestRect.right - BltInfo->DestRect.left));
@@ -170,7 +246,7 @@ DIB_16BPP_BitBltSrcCopy(PBLTINFO BltInfo)
       {
        if (BltInfo->DestRect.top < BltInfo->SourcePoint.y)
          {
-           SourceLine = BltInfo->SourceSurface->pvScan0 + (BltInfo->SourcePoint.y * BltInfo->SourceSurface->lDelta) + 2 * BltInfo->SourcePoint.x;
+           SourceLine = (PBYTE)BltInfo->SourceSurface->pvScan0 + (BltInfo->SourcePoint.y * BltInfo->SourceSurface->lDelta) + 2 * BltInfo->SourcePoint.x;
            DestLine = DestBits;
            for (j = BltInfo->DestRect.top; j < BltInfo->DestRect.bottom; j++)
              {
@@ -188,8 +264,8 @@ DIB_16BPP_BitBltSrcCopy(PBLTINFO BltInfo)
          }
        else
          {
-           SourceLine = BltInfo->SourceSurface->pvScan0 + ((BltInfo->SourcePoint.y + BltInfo->DestRect.bottom - BltInfo->DestRect.top - 1) * BltInfo->SourceSurface->lDelta) + 2 * BltInfo->SourcePoint.x;
-           DestLine = BltInfo->DestSurface->pvScan0 + ((BltInfo->DestRect.bottom - 1) * BltInfo->DestSurface->lDelta) + 2 * BltInfo->DestRect.left;
+           SourceLine = (PBYTE)BltInfo->SourceSurface->pvScan0 + ((BltInfo->SourcePoint.y + BltInfo->DestRect.bottom - BltInfo->DestRect.top - 1) * BltInfo->SourceSurface->lDelta) + 2 * BltInfo->SourcePoint.x;
+           DestLine = (PBYTE)BltInfo->DestSurface->pvScan0 + ((BltInfo->DestRect.bottom - 1) * BltInfo->DestSurface->lDelta) + 2 * BltInfo->DestRect.left;
            for (j = BltInfo->DestRect.bottom - 1; BltInfo->DestRect.top <= j; j--)
              {
                SourceBits = SourceLine;
@@ -208,7 +284,7 @@ DIB_16BPP_BitBltSrcCopy(PBLTINFO BltInfo)
       break;
 
     case BMF_24BPP:
-      SourceLine = BltInfo->SourceSurface->pvScan0 + (BltInfo->SourcePoint.y * BltInfo->SourceSurface->lDelta) + 3 * BltInfo->SourcePoint.x;
+      SourceLine = (PBYTE)BltInfo->SourceSurface->pvScan0 + (BltInfo->SourcePoint.y * BltInfo->SourceSurface->lDelta) + 3 * BltInfo->SourcePoint.x;
       DestLine = DestBits;
 
       for (j = BltInfo->DestRect.top; j < BltInfo->DestRect.bottom; j++)
@@ -232,7 +308,7 @@ DIB_16BPP_BitBltSrcCopy(PBLTINFO BltInfo)
       break;
 
     case BMF_32BPP:
-      SourceLine = BltInfo->SourceSurface->pvScan0 + (BltInfo->SourcePoint.y * BltInfo->SourceSurface->lDelta) + 4 * BltInfo->SourcePoint.x;
+      SourceLine = (PBYTE)BltInfo->SourceSurface->pvScan0 + (BltInfo->SourcePoint.y * BltInfo->SourceSurface->lDelta) + 4 * BltInfo->SourcePoint.x;
       DestLine = DestBits;
 
       for (j = BltInfo->DestRect.top; j < BltInfo->DestRect.bottom; j++)
@@ -260,100 +336,54 @@ DIB_16BPP_BitBltSrcCopy(PBLTINFO BltInfo)
   return TRUE;
 }
 
+/* Optimize for bitBlt */
 BOOLEAN
-DIB_16BPP_BitBlt(PBLTINFO BltInfo)
+DIB_16BPP_ColorFill(SURFOBJ* DestSurface, RECTL* DestRect, ULONG color)
 {
-   ULONG DestX, DestY;
-   ULONG SourceX, SourceY;
-   ULONG PatternY = 0;
-   ULONG Dest, Source = 0, Pattern = 0;
-   BOOL UsesSource;
-   BOOL UsesPattern;
-   PULONG DestBits;
-   ULONG RoundedRight;
-
-   UsesSource = ROP_USES_SOURCE(BltInfo->Rop4);
-   UsesPattern = ROP_USES_PATTERN(BltInfo->Rop4);  
-      
-   RoundedRight = BltInfo->DestRect.right -
-                  ((BltInfo->DestRect.right - BltInfo->DestRect.left) & 0x1);
-   SourceY = BltInfo->SourcePoint.y;
-   DestBits = (PULONG)(
-      BltInfo->DestSurface->pvScan0 +
-      (BltInfo->DestRect.left << 1) +
-      BltInfo->DestRect.top * BltInfo->DestSurface->lDelta);
-
-   if (UsesPattern)
-   {
-      if (BltInfo->PatternSurface)
-      {
-         PatternY = (BltInfo->DestRect.top + BltInfo->BrushOrigin.y) % 
-                    BltInfo->PatternSurface->sizlBitmap.cy;
-      }
-      else
-      {
-         Pattern = BltInfo->Brush->iSolidColor |
-                   (BltInfo->Brush->iSolidColor << 16);
-      }
-   }
-
-   for (DestY = BltInfo->DestRect.top; DestY < BltInfo->DestRect.bottom; DestY++)
-   {
-      SourceX = BltInfo->SourcePoint.x;
-      
-      for (DestX = BltInfo->DestRect.left; DestX < RoundedRight; DestX += 2, DestBits++, SourceX += 2)
-      {
-         Dest = *DestBits;
-         if (UsesSource)
-         {
-            Source = DIB_GetSource(BltInfo->SourceSurface, SourceX, SourceY, BltInfo->XlateSourceToDest);
-            Source |= DIB_GetSource(BltInfo->SourceSurface, SourceX + 1, SourceY, BltInfo->XlateSourceToDest) << 16;
-         }
-
-         if (BltInfo->PatternSurface)
-        {
-            Pattern = DIB_GetSource(BltInfo->PatternSurface, (DestX + BltInfo->BrushOrigin.x) % BltInfo->PatternSurface->sizlBitmap.cx, PatternY, BltInfo->XlatePatternToDest);
-            Pattern |= DIB_GetSource(BltInfo->PatternSurface, (DestX + BltInfo->BrushOrigin.x + 1) % BltInfo->PatternSurface->sizlBitmap.cx, PatternY, BltInfo->XlatePatternToDest) << 16;
-         }
-
-         *DestBits = DIB_DoRop(BltInfo->Rop4, Dest, Source, Pattern);
-      }
-
-      if (DestX < BltInfo->DestRect.right)
-      {
-         Dest = *((PUSHORT)DestBits);
-
-         if (UsesSource)
-         {
-            Source = DIB_GetSource(BltInfo->SourceSurface, SourceX, SourceY, BltInfo->XlateSourceToDest);
-         }
-
-         if (BltInfo->PatternSurface)
-         {
-            Pattern = DIB_GetSource(BltInfo->PatternSurface, (DestX + BltInfo->BrushOrigin.x) % BltInfo->PatternSurface->sizlBitmap.cx, PatternY, BltInfo->XlatePatternToDest);
-         }                             
-
-         DIB_16BPP_PutPixel(BltInfo->DestSurface, DestX, DestY, DIB_DoRop(BltInfo->Rop4, Dest, Source, Pattern) & 0xFFFF);
-         DestBits = (PULONG)((ULONG_PTR)DestBits + 2);
-      }
-
-      SourceY++;
-      if (BltInfo->PatternSurface)
-      {
-         PatternY++;
-         PatternY %= BltInfo->PatternSurface->sizlBitmap.cy;
-      }
-      DestBits = (PULONG)(
-         (ULONG_PTR)DestBits -
-         ((BltInfo->DestRect.right - BltInfo->DestRect.left) << 1) +
-         BltInfo->DestSurface->lDelta);
-   }
+  ULONG DestY; 
+
+#ifdef _M_IX86
+  /* This is about 10% faster than the generic C code below */ 
+  ULONG delta = DestSurface->lDelta;
+  ULONG width = (DestRect->right - DestRect->left) ;
+  PULONG pos =  (PULONG) ((PBYTE)DestSurface->pvScan0 + DestRect->top * delta + (DestRect->left<<1));
+  color = (color&0xffff);  /* If the color value is "abcd", put "abcdabcd" into color */
+  color += (color<<16);
   
-   return TRUE;
-}
+  for (DestY = DestRect->top; DestY< DestRect->bottom; DestY++)
+  {   
+  __asm__ __volatile__ (
+    "  cld\n"
+    "  mov  %1,%%ebx\n" 
+    "  mov  %2,%%edi\n" 
+    "  test $0x03, %%edi\n" /* Align to fullword boundary */
+    "  jz   .FL1\n"
+    "  stosw\n"
+    "  dec  %%ebx\n"
+    "  jz   .FL2\n"
+    ".FL1:\n"
+    "  mov  %%ebx,%%ecx\n"     /* Setup count of fullwords to fill */
+    "  shr  $1,%%ecx\n"
+    "  rep stosl\n"         /* The actual fill */
+    "  test $0x01, %%ebx\n"    /* One left to do at the right side? */
+    "  jz   .FL2\n"
+    "  stosw\n"
+    ".FL2:\n"
+    :
+    : "a" (color), "r" (width), "m" (pos)
+    : "%ecx", "%ebx", "%edi");
+     pos =(PULONG)((ULONG_PTR)pos + delta);     
+  }
 
+#else /* _M_IX86 */
 
+       for (DestY = DestRect->top; DestY< DestRect->bottom; DestY++)
+  {
+    DIB_16BPP_HLine (DestSurface, DestRect->left, DestRect->right, DestY, color);
+  }
+#endif
+return TRUE;
+}
 /*
 =======================================
  Stretching functions goes below
@@ -366,7 +396,7 @@ DIB_16BPP_BitBlt(PBLTINFO BltInfo)
 typedef unsigned short PIXEL;
 
 /* 16-bit HiColor (565 format) */
-inline PIXEL average16(PIXEL a, PIXEL b)
+__inline PIXEL average16(PIXEL a, PIXEL b)
 {
 // This one doesn't work
 /*
@@ -378,22 +408,22 @@ inline PIXEL average16(PIXEL a, PIXEL b)
   }*/ /* if */
 
 // This one should be correct, but it's too long
-/*  
+/*
   unsigned char r1, g1, b1, r2, g2, b2, rr, gr, br;
   unsigned short res;
-  
+
   r1 = (a & 0xF800) >> 11;
   g1 = (a & 0x7E0) >> 5;
   b1 = (a & 0x1F);
-  
+
   r2 = (b & 0xF800) >> 11;
   g2 = (b & 0x7E0) >> 5;
   b2 = (b & 0x1F);
-  
+
   rr = (r1+r2) / 2;
   gr = (g1+g2) / 2;
   br = (b1+b2) / 2;
-  
+
   res = (rr << 11) + (gr << 5) + br;
 
   return res;
@@ -436,7 +466,7 @@ FinalCopy16(PIXEL *Target, PIXEL *Source, PSPAN ClipSpans, UINT ClipSpansCount,
             UINT DestY, RECTL *DestRect)
 {
   LONG Left, Right;
-  
+
   while (ClipSpans[*SpanIndex].Y < DestY
          || (ClipSpans[*SpanIndex].Y == DestY
              && ClipSpans[*SpanIndex].X + ClipSpans[*SpanIndex].Width < DestRect->left))
@@ -484,8 +514,8 @@ BOOLEAN ScaleRectAvg16(SURFOBJ *DestSurf, SURFOBJ *SourceSurf,
   PIXEL *ScanLine, *ScanLineAhead;
   PIXEL *PrevSource = NULL;
   PIXEL *PrevSourceAhead = NULL;
-  PIXEL *Target = (PIXEL *) (DestSurf->pvScan0 + (DestRect->top * DestSurf->lDelta) + 2 * DestRect->left);
-  PIXEL *Source = (PIXEL *) (SourceSurf->pvScan0 + (SourceRect->top * SourceSurf->lDelta) + 2 * SourceRect->left);
+  PIXEL *Target = (PIXEL *) ((PBYTE)DestSurf->pvScan0 + (DestRect->top * DestSurf->lDelta) + 2 * DestRect->left);
+  PIXEL *Source = (PIXEL *) ((PBYTE)SourceSurf->pvScan0 + (SourceRect->top * SourceSurf->lDelta) + 2 * SourceRect->left);
   PSPAN ClipSpans;
   UINT ClipSpansCount;
   UINT SpanIndex;
@@ -524,7 +554,7 @@ BOOLEAN ScaleRectAvg16(SURFOBJ *DestSurf, SURFOBJ *SourceSurf,
       } /* if */
       PrevSource = Source;
     } /* if */
-    
+
     if (E >= Mid && PrevSourceAhead != (PIXEL *)((BYTE *)Source + SourceSurf->lDelta)) {
       int x;
       ScaleLineAvg16(ScanLineAhead, (PIXEL *)((BYTE *)Source + SourceSurf->lDelta), SourceRect->right - SourceRect->left, DestRect->right - DestRect->left);
@@ -573,6 +603,45 @@ BOOLEAN ScaleRectAvg16(SURFOBJ *DestSurf, SURFOBJ *SourceSurf,
   return TRUE;
 }
 
+/* check clib region */
+BOOLEAN CheckClipRegion(CLIPOBJ *ClipRegion, RECTL* DestRect, int DesX, int DesY)
+{
+  BOOLEAN  status = FALSE;
+  PSPAN ClipSpans;
+  UINT ClipSpansCount;
+  UINT SpanIndex = 0;
+
+  if (! ClipobjToSpans(&ClipSpans, &ClipSpansCount, ClipRegion, DestRect))
+  {
+      return FALSE;
+  }
+    
+  if (0 == ClipSpansCount)
+  {
+      /* No clip spans == empty clipping region, everything clipped away */
+      ASSERT(NULL == ClipSpans);
+      return FALSE;
+  }
+
+  for  (SpanIndex=0; SpanIndex<ClipSpansCount;SpanIndex++)
+  {
+          if (ClipSpans[SpanIndex].Y < DesY)
+                  status = FALSE;
+      
+          if (ClipSpans[SpanIndex].Y+ClipSpans[SpanIndex].Height > DesY)
+          status = FALSE;
+  
+       if (ClipSpans[SpanIndex].X > DesX)
+           status = FALSE;
+      
+      if (ClipSpans[SpanIndex].X+ClipSpans[SpanIndex].Width > DesX)
+          status = FALSE;
+   }
+   
+  return status;
+}
+
+
 //NOTE: If you change something here, please do the same in other dibXXbpp.c files!
 BOOLEAN DIB_16BPP_StretchBlt(SURFOBJ *DestSurf, SURFOBJ *SourceSurf,
                              RECTL* DestRect, RECTL *SourceRect,
@@ -580,58 +649,207 @@ BOOLEAN DIB_16BPP_StretchBlt(SURFOBJ *DestSurf, SURFOBJ *SourceSurf,
                              CLIPOBJ *ClipRegion, XLATEOBJ *ColorTranslation,
                              ULONG Mode)
 {
+   LONG SrcSizeY;
+   LONG SrcSizeX;
+   LONG DesSizeY;
+   LONG DesSizeX;      
+   LONG sx;
+   LONG sy;
+   LONG DesX;
+   LONG DesY;
+   LONG color;
+   PULONG DestBits;
+   LONG DifflDelta;
+
+  
   DPRINT("DIB_16BPP_StretchBlt: Source BPP: %u, srcRect: (%d,%d)-(%d,%d), dstRect: (%d,%d)-(%d,%d)\n",
      BitsPerFormat(SourceSurf->iBitmapFormat), SourceRect->left, SourceRect->top, SourceRect->right, SourceRect->bottom,
      DestRect->left, DestRect->top, DestRect->right, DestRect->bottom);
 
+    SrcSizeY = SourceRect->bottom - SourceRect->top;
+    SrcSizeX = SourceRect->right - SourceRect->left;
+  
+    DesSizeY = DestRect->bottom - DestRect->top;
+    DesSizeX = DestRect->right - DestRect->left;
+      
     switch(SourceSurf->iBitmapFormat)
     {
-      case BMF_1BPP:
-      case BMF_4BPP:
-      case BMF_8BPP:
-      case BMF_24BPP:
-      case BMF_32BPP:
-        /* Not implemented yet. */
-        return FALSE;      
-      break;
+      
+      case BMF_1BPP:           
+      /* FIXME :  MaskOrigin, BrushOrigin, ClipRegion, Mode ? */
+      /* This is a reference implementation, it hasn't been optimized for speed */
+      
+      DestBits = (PULONG)((PBYTE)DestSurf->pvScan0 + (DestRect->left << 1) +
+                   DestRect->top * DestSurf->lDelta);
+      
+         DifflDelta = DestSurf->lDelta -  (DesSizeX << 1); 
+                         
+       for (DesY=0; DesY<DesSizeY; DesY++)
+       {        
+            sy = ((DesY  * SrcSizeY) / DesSizeY) + SourceRect->top;
+                                 
+            for (DesX=0; DesX<DesSizeX; DesX++)
+            {  
+                                                                       
+                  sx = ((DesX * SrcSizeX) / DesSizeX) + SourceRect->left;              
+                               
+                  if(DIB_1BPP_GetPixel(SourceSurf, sx, sy) == 0)
+                                 {                                     
+                                       *DestBits = XLATEOBJ_iXlate(ColorTranslation, 0);                                                                 
+                                    DestBits = (PULONG)((ULONG_PTR)DestBits + 2);
+                  } 
+                                 else 
+                                 {                    
+                    *DestBits = XLATEOBJ_iXlate(ColorTranslation, 1);                                                            
+                                    DestBits = (PULONG)((ULONG_PTR)DestBits + 2);
+                  }
+            }
+            DestBits = (PULONG)((ULONG_PTR)DestBits + DifflDelta);
+       }
+       break;
+
+      case BMF_4BPP:           
+      /* FIXME :  MaskOrigin, BrushOrigin, ClipRegion, Mode ? */
+      /* This is a reference implementation, it hasn't been optimized for speed */
+
+      DestBits = (PULONG)((PBYTE)DestSurf->pvScan0 + (DestRect->left << 1) +
+                   DestRect->top * DestSurf->lDelta);
+      
+         DifflDelta = DestSurf->lDelta -  (DesSizeX << 1); 
+                         
+       for (DesY=0; DesY<DesSizeY; DesY++)
+       {        
+            sy = ((DesY  * SrcSizeY) / DesSizeY) + SourceRect->top;
+                                 
+            for (DesX=0; DesX<DesSizeX; DesX++)
+            {  
+                                                                       
+                  sx = ((DesX * SrcSizeX) / DesSizeX) + SourceRect->left;              
+                  color = DIB_4BPP_GetPixel(SourceSurf, sx, sy);
+                              
+                                 *DestBits = XLATEOBJ_iXlate(ColorTranslation, color);                                                           
+                                  DestBits = (PULONG)((ULONG_PTR)DestBits + 2);
+            }
+            DestBits = (PULONG)((ULONG_PTR)DestBits + DifflDelta);
+       }
+       break;
+       
+      case BMF_8BPP:           
+      /* FIXME :  MaskOrigin, BrushOrigin, ClipRegion, Mode ? */
+      /* This is a reference implementation, it hasn't been optimized for speed */
+            
+      DestBits = (PULONG)((PBYTE)DestSurf->pvScan0 + (DestRect->left << 1) +
+                   DestRect->top * DestSurf->lDelta);
+                   
+      DifflDelta = DestSurf->lDelta -  (DesSizeX << 1); 
+                      
+       for (DesY=0; DesY<DesSizeY; DesY++)
+       {        
+            sy = ((DesY  * SrcSizeY) / DesSizeY) + SourceRect->top;
+                                 
+            for (DesX=0; DesX<DesSizeX; DesX++)
+            {  
+                                                                       
+                  sx = ((DesX * SrcSizeX) / DesSizeX) + SourceRect->left;              
+                  color = DIB_8BPP_GetPixel(SourceSurf, sx, sy);
+                              
+                                 *DestBits = XLATEOBJ_iXlate(ColorTranslation, color);                                                           
+                                  DestBits = (PULONG)((ULONG_PTR)DestBits + 2);
+            }
+            DestBits = (PULONG)((ULONG_PTR)DestBits + DifflDelta);
+       }
+       break;
+       
+
+      case BMF_24BPP:          
+      /* FIXME :  MaskOrigin, BrushOrigin, ClipRegion, Mode ? */
+      /* This is a reference implementation, it hasn't been optimized for speed */
+                      
+      DestBits = (PULONG)((PBYTE)DestSurf->pvScan0 + (DestRect->left << 1) +
+                   DestRect->top * DestSurf->lDelta);
+      
+         DifflDelta = DestSurf->lDelta -  (DesSizeX << 1); 
+                         
+       for (DesY=0; DesY<DesSizeY; DesY++)
+       {        
+            sy = ((DesY  * SrcSizeY) / DesSizeY) + SourceRect->top;
+                                 
+            for (DesX=0; DesX<DesSizeX; DesX++)
+            {  
+                                                                       
+                  sx = ((DesX * SrcSizeX) / DesSizeX) + SourceRect->left;              
+                  color = DIB_24BPP_GetPixel(SourceSurf, sx, sy);
+                              
+                                 *DestBits = XLATEOBJ_iXlate(ColorTranslation, color);                                                           
+                                  DestBits = (PULONG)((ULONG_PTR)DestBits + 2);
+            }
+            DestBits = (PULONG)((ULONG_PTR)DestBits + DifflDelta);
+       }       
+          break;
+
+      case BMF_32BPP:          
+      /* FIXME :  MaskOrigin, BrushOrigin, ClipRegion, Mode ? */
+      /* This is a reference implementation, it hasn't been optimized for speed */
+                      
+      DestBits = (PULONG)((PBYTE)DestSurf->pvScan0 + (DestRect->left << 1) +
+                   DestRect->top * DestSurf->lDelta);
+      
+         DifflDelta = DestSurf->lDelta -  (DesSizeX << 1); 
+                         
+       for (DesY=0; DesY<DesSizeY; DesY++)
+       {        
+            sy = ((DesY  * SrcSizeY) / DesSizeY) + SourceRect->top;
+                                 
+            for (DesX=0; DesX<DesSizeX; DesX++)
+            {  
+                                                                       
+                  sx = ((DesX * SrcSizeX) / DesSizeX) + SourceRect->left;              
+                  color = DIB_32BPP_GetPixel(SourceSurf, sx, sy);
+                              
+                                 *DestBits = XLATEOBJ_iXlate(ColorTranslation, color);                                                           
+                                  DestBits = (PULONG)((ULONG_PTR)DestBits + 2);
+            }
+            DestBits = (PULONG)((ULONG_PTR)DestBits + DifflDelta);
+       }
+       break;
 
       case BMF_16BPP:
         return ScaleRectAvg16(DestSurf, SourceSurf, DestRect, SourceRect, MaskOrigin, BrushOrigin,
                               ClipRegion, ColorTranslation, Mode);
       break;
-      
+
       default:
          DPRINT1("DIB_16BPP_StretchBlt: Unhandled Source BPP: %u\n", BitsPerFormat(SourceSurf->iBitmapFormat));
       return FALSE;
     }
 
-  
-    
+
+
   return TRUE;
 }
 
-BOOLEAN 
+BOOLEAN
 DIB_16BPP_TransparentBlt(SURFOBJ *DestSurf, SURFOBJ *SourceSurf,
                          RECTL*  DestRect,  POINTL  *SourcePoint,
                          XLATEOBJ *ColorTranslation, ULONG iTransColor)
 {
   ULONG RoundedRight, X, Y, SourceX, SourceY, Source, wd, Dest;
   ULONG *DestBits;
-  
+
   RoundedRight = DestRect->right - ((DestRect->right - DestRect->left) & 0x1);
   SourceY = SourcePoint->y;
-  DestBits = (ULONG*)(DestSurf->pvScan0 +
+  DestBits = (ULONG*)((PBYTE)DestSurf->pvScan0 +
                       (DestRect->left << 1) +
                       DestRect->top * DestSurf->lDelta);
   wd = DestSurf->lDelta - ((DestRect->right - DestRect->left) << 1);
-  
+
   for(Y = DestRect->top; Y < DestRect->bottom; Y++)
   {
     SourceX = SourcePoint->x;
     for(X = DestRect->left; X < RoundedRight; X += 2, DestBits++, SourceX += 2)
     {
       Dest = *DestBits;
-      
+
       Source = DIB_GetSourceIndex(SourceSurf, SourceX, SourceY);
       if(Source != iTransColor)
       {
@@ -648,7 +866,7 @@ DIB_16BPP_TransparentBlt(SURFOBJ *DestSurf, SURFOBJ *SourceSurf,
 
       *DestBits = Dest;
     }
-    
+
     if(X < DestRect->right)
     {
       Source = DIB_GetSourceIndex(SourceSurf, SourceX, SourceY);
@@ -656,14 +874,133 @@ DIB_16BPP_TransparentBlt(SURFOBJ *DestSurf, SURFOBJ *SourceSurf,
       {
         *((USHORT*)DestBits) = (USHORT)XLATEOBJ_iXlate(ColorTranslation, Source);
       }
-      
+
       DestBits = (PULONG)((ULONG_PTR)DestBits + 2);
     }
     SourceY++;
     DestBits = (ULONG*)((ULONG_PTR)DestBits + wd);
   }
-  
+
   return TRUE;
 }
 
+typedef union {
+   ULONG ul;
+   struct {
+      UCHAR red;
+      UCHAR green;
+      UCHAR blue;
+      UCHAR alpha;
+   } col;
+} NICEPIXEL32;
+
+typedef union {
+   USHORT us;
+   struct {
+      USHORT red:5,
+             green:6,
+             blue:5;
+   } col;
+} NICEPIXEL16;
+
+STATIC inline UCHAR
+Clamp5(ULONG val)
+{
+   return (val > 31) ? 31 : val;
+}
+
+STATIC inline UCHAR
+Clamp6(ULONG val)
+{
+   return (val > 63) ? 63 : val;
+}
+
+BOOLEAN
+DIB_16BPP_AlphaBlend(SURFOBJ* Dest, SURFOBJ* Source, RECTL* DestRect,
+                     RECTL* SourceRect, CLIPOBJ* ClipRegion,
+                     XLATEOBJ* ColorTranslation, BLENDOBJ* BlendObj)
+{
+   INT Rows, Cols, SrcX, SrcY;
+   register PUSHORT Dst;
+   ULONG DstDelta;
+   BLENDFUNCTION BlendFunc;
+   register NICEPIXEL16 DstPixel;
+   register NICEPIXEL32 SrcPixel;
+   UCHAR Alpha, SrcBpp;
+
+   DPRINT("DIB_16BPP_AlphaBlend: srcRect: (%d,%d)-(%d,%d), dstRect: (%d,%d)-(%d,%d)\n",
+          SourceRect->left, SourceRect->top, SourceRect->right, SourceRect->bottom,
+          DestRect->left, DestRect->top, DestRect->right, DestRect->bottom);
+
+   ASSERT(DestRect->bottom - DestRect->top == SourceRect->bottom - SourceRect->top &&
+          DestRect->right - DestRect->left == SourceRect->right - SourceRect->left);
+
+   BlendFunc = BlendObj->BlendFunction;
+   if (BlendFunc.BlendOp != AC_SRC_OVER)
+   {
+      DPRINT1("BlendOp != AC_SRC_OVER\n");
+      return FALSE;
+   }
+   if (BlendFunc.BlendFlags != 0)
+   {
+      DPRINT1("BlendFlags != 0\n");
+      return FALSE;
+   }
+   if ((BlendFunc.AlphaFormat & ~AC_SRC_ALPHA) != 0)
+   {
+      DPRINT1("Unsupported AlphaFormat (0x%x)\n", BlendFunc.AlphaFormat);
+      return FALSE;
+   }
+   if ((BlendFunc.AlphaFormat & AC_SRC_ALPHA) != 0 &&
+       BitsPerFormat(Source->iBitmapFormat) != 32)
+   {
+      DPRINT1("Source bitmap must be 32bpp when AC_SRC_ALPHA is set\n");
+      return FALSE;
+   }
+
+   Dst = (PUSHORT)((ULONG_PTR)Dest->pvScan0 + (DestRect->top * Dest->lDelta) +
+                              (DestRect->left << 1));
+   DstDelta = Dest->lDelta - ((DestRect->right - DestRect->left) << 1);
+   SrcBpp = BitsPerFormat(Source->iBitmapFormat);
+
+   Rows = DestRect->bottom - DestRect->top;
+   SrcY = SourceRect->top;
+   while (--Rows >= 0)
+   {
+      Cols = DestRect->right - DestRect->left;
+      SrcX = SourceRect->left;
+      while (--Cols >= 0)
+      {
+         if (SrcBpp <= 16)
+         {
+            DstPixel.us = DIB_GetSource(Source, SrcX++, SrcY, ColorTranslation);
+            SrcPixel.col.red = (DstPixel.col.red << 3) | (DstPixel.col.red >> 2);
+            SrcPixel.col.green = (DstPixel.col.green << 2) | (DstPixel.col.green >> 4);
+            SrcPixel.col.blue = (DstPixel.col.blue << 3) | (DstPixel.col.blue >> 2);
+         }
+         else
+         {
+            SrcPixel.ul = DIB_GetSourceIndex(Source, SrcX++, SrcY);
+         }
+         SrcPixel.col.red = SrcPixel.col.red * BlendFunc.SourceConstantAlpha / 255;
+         SrcPixel.col.green = SrcPixel.col.green * BlendFunc.SourceConstantAlpha / 255;
+         SrcPixel.col.blue = SrcPixel.col.blue * BlendFunc.SourceConstantAlpha / 255;
+         SrcPixel.col.alpha = (SrcBpp == 32) ? (SrcPixel.col.alpha * BlendFunc.SourceConstantAlpha / 255) : BlendFunc.SourceConstantAlpha;
+
+         Alpha = ((BlendFunc.AlphaFormat & AC_SRC_ALPHA) != 0) ?
+                 SrcPixel.col.alpha : BlendFunc.SourceConstantAlpha;
+
+         DstPixel.us = *Dst;
+         DstPixel.col.red = Clamp5(DstPixel.col.red * (255 - Alpha) / 255 + (SrcPixel.col.red >> 3));
+         DstPixel.col.green = Clamp6(DstPixel.col.green * (255 - Alpha) / 255 + (SrcPixel.col.green >> 2));
+         DstPixel.col.blue = Clamp5(DstPixel.col.blue * (255 - Alpha) / 255 + (SrcPixel.col.blue >> 3));
+         *Dst++ = DstPixel.us;
+      }
+      Dst = (PUSHORT)((ULONG_PTR)Dst + DstDelta);
+      SrcY++;
+   }
+
+   return TRUE;
+}
+
 /* EOF */