ใน SQL Server ฉันสามารถรับประกันการสั่งซื้อโดยไม่มีคำสั่ง ORDER BY อย่างชัดเจนเมื่อการค้นหาดัชนีถูกบังคับบนตารางที่มีเพียงดัชนีคลัสเตอร์เท่านั้น


24

อัปเดต 2014-12-18

ด้วยการตอบรับอย่างล้นหลามไปที่คำถามหลักที่ถูก "ไม่มี" การตอบสนองที่น่าสนใจมากขึ้นได้มุ่งเน้นในส่วนที่ 2 ORDER BYวิธีในการแก้ปริศนาประสิทธิภาพการทำงานที่มีความชัดเจน แม้ว่าฉันได้ทำเครื่องหมายคำตอบไว้แล้ว แต่ฉันก็ไม่แปลกใจถ้ามีวิธีการแก้ปัญหาที่ดีกว่า

เป็นต้นฉบับ

คำถามนี้เกิดขึ้นเพราะวิธีแก้ปัญหาที่เร็วที่สุดเพียงอย่างเดียวที่ฉันสามารถพบกับปัญหาเฉพาะนั้นใช้ได้โดยไม่มีORDER BYข้อ ด้านล่างนี้เป็น T-SQL แบบเต็มรูปแบบที่จำเป็นในการสร้างปัญหาพร้อมกับวิธีแก้ไขปัญหาที่เสนอของฉัน (ฉันใช้ SQL Server 2008 R2 ถ้าเป็นเช่นนั้น)

--Create Orders table
IF OBJECT_ID('tempdb..#Orders') IS NOT NULL DROP TABLE #Orders
CREATE TABLE #Orders
(  
       OrderID    INT NOT NULL IDENTITY(1,1)
     , CustID     INT NOT NULL
     , StoreID    INT NOT NULL       
     , Amount     FLOAT NOT NULL
)
CREATE CLUSTERED INDEX IX ON #Orders (StoreID, Amount DESC, CustID)

--Add 1 million rows w/ 100K Customers each of whom had 10 orders
;WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT INTO #Orders (CustID, StoreID, Amount)
SELECT CustID = Number / 10
     , StoreID    = Number % 4
     , Amount     = 1000 * RAND(Number)
FROM  FinalCte
WHERE Number <= 1000000

SET STATISTICS IO ON
SET STATISTICS TIME ON

--For StoreID = 1, find the top 500 customers ordered by their most expensive purchase (Amount)

--Solution A: Without ORDER BY
DECLARE @Top INT = 500
SELECT DISTINCT TOP (@Top) CustID
FROM #Orders WITH(FORCESEEK)
WHERE StoreID = 1
OPTION(OPTIMIZE FOR (@Top = 1), FAST 1);
--9 logical reads, CPU Time = 0 ms, elapsed time = 1 ms
GO
--Solution B: With ORDER BY
DECLARE @Top INT = 500
SELECT TOP (@Top) CustID
FROM #Orders
WHERE StoreID = 1
GROUP BY CustID
ORDER BY MAX(Amount) DESC
OPTION(MAXDOP 1)
--745 logical reads, CPU Time = 141 ms, elapsed time = 145 ms
--Uses Sort operator

GO

นี่คือแผนการดำเนินการสำหรับโซลูชัน A และ B ตามลำดับ:

โซล

โซลบี

โซลูชัน A ให้ประสิทธิภาพที่ฉันต้องการ แต่ฉันไม่สามารถทำให้มันทำงานได้เหมือนกันเมื่อเพิ่ม ORDER BY ประเภทใด ๆ (เช่นดูโซลูชัน B) และแน่นอนว่าโซลูชัน A ต้องส่งผลลัพธ์ตามลำดับเนื่องจาก 1) ตารางมีดัชนีเพียงหนึ่งดัชนีเท่านั้น 2) การค้นหาถูกบังคับจึงช่วยลดความเป็นไปได้ที่จะใช้การสแกนตามลำดับการจัดสรรตามหน้า IAM .

ดังนั้นคำถามของฉันคือ:

  1. ฉันถูกที่จะรับประกันการสั่งซื้อในกรณีนี้โดยไม่มีคำสั่งตามข้อ?

  2. ถ้าไม่มีวิธีอื่นในการบังคับแผนที่เร็วเท่ากับโซลูชัน A โดยเฉพาะอย่างยิ่งวิธีที่หลีกเลี่ยงการเรียงลำดับหรือไม่ โปรดทราบว่ามันจะต้องแก้ปัญหาเดียวกันแน่นอน ( StoreID = 1หาลูกค้า 500 อันดับแรกที่สั่งซื้อด้วยจำนวนการซื้อที่แพงที่สุด) มันจะต้องยังคงใช้#Ordersตาราง แต่รูปแบบการจัดทำดัชนีที่แตกต่างกันจะตกลง


16
ORDER BYการสั่งซื้อมีการประกันเท่านั้นถ้าคุณใช้
alroc

8
" ฉันถูกต้องหรือไม่ที่จะรับประกันการสั่งซื้อในกรณีนี้โดยไม่มีคำสั่ง " - ไม่อย่างแน่นอน
a_horse_with_no_name

3
นี่คือบทความที่อธิบายได้ดีมาก blogs.msdn.com/b/conor_cunningham_msft/archive/2008/08/27/…
Sean Lange

@SeanLange: เหมือนกับคุณและคนอื่น ๆ ฉันไม่สบายใจที่จะออกจากการสั่งซื้อด้วยเหตุผลเดียวกันทั้งหมด อย่างไรก็ตามก) ฉันไม่สามารถค้นหาข้อความค้นหาที่มีประสิทธิภาพเช่นเดียวกับโซลูชัน A ที่ใช้ ORDER BY และ b) ฉันไม่รู้วิธีที่จะสามารถสั่งซื้อได้อย่างไม่ถูกต้อง คุณ ฉันไม่ได้บอกว่าไม่มีทางฉันแค่ไม่รู้เรื่องหนึ่งและหวังว่าจะมีใครสามารถพูดได้ถ้ามันมีอยู่จริง แม้แต่ตัวอย่างในบทความที่คุณอ้างอิงจะใช้กับการสแกนที่ไม่ต้องการ
JohnnyM

UPDATE: ฉันเปลี่ยนประเภทข้อมูลจำนวน & วิธีการคำนวณเพื่อหลีกเลี่ยงการซ้ำซ้อนมากมาย หลักการทั้งหมดยังคงใช้ แม้ว่าในปัญหานี้ฉันไม่สนใจว่าใครจะชนะเมื่อมีเน็คไท แต่การมีความสัมพันธ์จำนวนมากทำให้มันยากที่จะดูว่าเกิดอะไรขึ้นเมื่อดูข้อมูล เป็นที่ชัดเจนมากขึ้นในขณะนี้ยกเว้นความสัมพันธ์ Solution A และ B ให้ผลลัพธ์ที่เหมือนกัน
JohnnyM

คำตอบ:


23
  1. ฉันถูกที่จะรับประกันการสั่งซื้อในกรณีนี้โดยไม่มีคำสั่งตามข้อ?

ไม่ได้มีการใช้Flow Distinctที่รักษาคำสั่งซื้อ (อนุญาตORDER BYโดยไม่มีการเรียงลำดับ) ใน SQL Server วันนี้ เป็นไปได้ที่จะทำในหลักการ แต่ก็มีหลายสิ่งที่เป็นไปได้ถ้าเราได้รับอนุญาตให้เปลี่ยนซอร์สโค้ดเซิร์ฟเวอร์ SQL ถ้าคุณสามารถทำให้กรณีที่ดีสำหรับการทำงานการพัฒนานี้คุณอาจจะแนะนำให้ไมโครซอฟท์

  1. ถ้าไม่มีวิธีอื่นในการบังคับแผนที่เร็วเท่ากับโซลูชัน A หรือไม่โดยเฉพาะอย่างยิ่งวิธีที่หลีกเลี่ยงการเรียงลำดับหรือไม่?

ใช่. (คำแนะนำตาราง & แบบสอบถามจำเป็นต้องใช้เฉพาะเมื่อใช้เครื่องมือประมาณค่า cardinality ก่อนปี 2014):

-- Additional index
CREATE UNIQUE NONCLUSTERED INDEX i 
ON #Orders (StoreID, CustID, Amount, OrderID);

-- Query
SELECT TOP (500) 
    O.CustID, 
    O.Amount
FROM #Orders AS O
    WITH (FORCESEEK(IX (StoreID)))
WHERE O.StoreID = 1
AND NOT EXISTS
(
    SELECT NULL
    FROM #Orders AS O2
        WITH (FORCESEEK(i (StoreID, CustID, Amount)))
    WHERE 
        O2.StoreID = O.StoreID
        AND O2.CustID = O.CustID
        AND O2.Amount >= O.Amount
        AND
        (
            O2.Amount > O.Amount
            OR
            (
                O2.Amount = O.Amount
                AND O2.OrderID > O.OrderID
            )
        )
)
ORDER BY
    O.Amount DESC
OPTION (MAXDOP 1);

แผนปฏิบัติการจริง

(500 row(s) affected)

 SQL Server Execution Times:
   CPU time = 0 ms,  elapsed time = 4 ms.

โซลูชัน SQL CLR

สคริปต์ต่อไปนี้แสดงให้เห็นถึงการใช้ฟังก์ชั่นที่มีค่าเป็นตาราง SQL CLR เพื่อตอบสนองความต้องการที่ระบุไว้ ฉันไม่ใช่ผู้เชี่ยวชาญ C # ดังนั้นรหัสอาจมีการปรับปรุง:

USE Sandpit;
GO
-- Ensure SQLCLR is enabled
EXECUTE sys.sp_configure
    @configname = 'clr enabled',
    @configvalue = 1;
RECONFIGURE;
GO
-- Lazy, but effective to allow EXTERNAL_ACCESS
ALTER DATABASE Sandpit
SET TRUSTWORTHY ON;
GO
-- The CLR assembly
CREATE ASSEMBLY FlowDistinctOrder
AUTHORIZATION dbo
FROM 
WITH PERMISSION_SET = EXTERNAL_ACCESS;
GO
-- The CLR TVF with order guarantee
CREATE FUNCTION dbo.FlowDistinctOrder 
(
    @ServerName nvarchar(128), 
    @DatabaseName nvarchar(128), 
    @MaxRows bigint
)
RETURNS TABLE 
(
    CustID integer NULL, 
    Amount float NULL
)
ORDER (Amount DESC)
AS EXTERNAL NAME FlowDistinctOrder.UserDefinedFunctions.FlowDistinctOrder;

ตารางทดสอบและข้อมูลตัวอย่างจากคำถาม:

-- Test table
CREATE TABLE dbo.Orders
(  
    OrderID    integer  NOT NULL IDENTITY(1,1),
    CustID     integer  NOT NULL,
    StoreID    integer  NOT NULL,
    Amount     float    NOT NULL
);
GO
-- Sample data
WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT dbo.Orders 
    (CustID, StoreID, Amount)
SELECT 
    CustID  = Number / 10,
    StoreID = Number % 4,
    Amount  = 1000 * RAND(Number)
FROM FinalCte
WHERE 
    Number <= 1000000;
GO
-- Index
CREATE CLUSTERED INDEX IX 
ON dbo.Orders 
    (StoreID ASC, Amount DESC, CustID ASC);

ฟังก์ชั่นการทดสอบ:

-- Test the function
-- Run several times to ensure connection is cached
-- and CLR code fully compiled
DECLARE @Start datetime2 = SYSUTCDATETIME();

SELECT TOP (500) 
    FDO.CustID
FROM dbo.FlowDistinctOrder
(
    @@SERVERNAME,   -- For external connection
    DB_NAME(),      -- For external connection
    500             -- Number of rows to return
) AS FDO 
ORDER BY 
    FDO.Amount DESC;

SELECT DATEDIFF(MILLISECOND, @Start, SYSUTCDATETIME());

แผนการดำเนินการ (บันทึกการตรวจสอบความถูกต้องของการORDERรับประกัน):

แผนการดำเนินการฟังก์ชัน CLR

บนแล็ปท็อปของฉันนี่ใช้งานได้ใน 80-100ms สิ่งนี้อยู่ใกล้เร็วที่สุดเท่าที่ T-SQL เขียนใหม่ข้างต้น แต่ควรแสดงเสถียรภาพของประสิทธิภาพที่ดีเมื่อเผชิญกับการกระจายข้อมูลที่แตกต่างกัน

รหัสแหล่งที่มา:

using Microsoft.SqlServer.Server;
using System.Collections;
using System.Collections.Generic;
using System.Data.SqlClient;

public partial class UserDefinedFunctions
{
    private sealed class ReverseComparer<T> : IComparer<T>
    {
        private readonly IComparer<T> original;

        public ReverseComparer(IComparer<T> original)
        {
            this.original = original;
        }

        public int Compare(T left, T right)
        {
            return original.Compare(right, left);
        }
    }

    [SqlFunction
        (
        DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        FillRowMethodName = "FillRow",
        TableDefinition = "CustID integer NULL, Amount float NULL"
        )
    ]
    public static IEnumerable FlowDistinctOrder
        (
        [SqlFacet (MaxSize=128)]string ServerName, 
        [SqlFacet (MaxSize=128)]string DatabaseName,
        long MaxRows
        )
    {
        var list = new SortedDictionary<double, int>
            (new ReverseComparer<double>(Comparer<double>.Default));

        var csb = new SqlConnectionStringBuilder();
        csb.ConnectTimeout = 10;
        csb.DataSource = ServerName;
        csb.Enlist = false;
        csb.InitialCatalog = DatabaseName;
        csb.IntegratedSecurity = true;

        using (var conn = new SqlConnection(csb.ConnectionString))
        {
            conn.Open();
            using (var cmd = conn.CreateCommand())
            {
                cmd.CommandText =
                    @"
                    SELECT
                        O.CustID, 
                        O.Amount
                    FROM dbo.Orders AS O
                    WHERE 
                        O.StoreID = 1 
                    ORDER BY 
                        O.Amount DESC";

                int custid;
                double amount;

                using (var rdr = cmd.ExecuteReader())
                {
                    while (rdr.Read())
                    {
                        custid = rdr.GetInt32(0);
                        amount = rdr.GetDouble(1);

                        if (!list.ContainsKey(amount))
                        {
                            list.Add(amount, custid);
                            if (list.Count == MaxRows)
                            {
                                break;
                            }
                        }
                    }
                }
            }
        }
        return list;
    }

    public static void FillRow(object obj, out int CustID, out double Amount)
    {
        var v = (KeyValuePair<double, int>)obj;
        CustID = v.Value;
        Amount = v.Key;
    }
}

6

หากไม่มีORDER BYหลายสิ่งหลายอย่างก็ผิดพลาดได้ คุณได้ยกเว้นปัญหาที่เป็นไปได้ทั้งหมดที่ฉันสามารถนึกถึงได้ แต่นั่นไม่ได้หมายความว่าไม่มีปัญหาและจะไม่มีปัญหาในการเปิดตัวในอนาคต

สิ่งนี้น่าจะใช้ได้:

ดึงกลุ่ม 500 แถวจากตารางในลูปและหยุดเมื่อคุณมี ID ลูกค้าที่แตกต่างกัน 500 รายการ แบบสอบถามดึงข้อมูลอาจมีลักษณะเช่นนี้:

select TOP (500) Amount, CustID
into #fetchedOrders
from Orders
where StoreID = 1234 and Amount <= @lastAmountFetched
order by Amount DESC

สิ่งนี้จะทำการสแกนช่วงที่สั่งซื้อบนดัชนี เพรดิเคตAmount <= @lastAmountFetchedจะอยู่ที่นั่นเพื่อดึงระเบียนเพิ่มขึ้น แบบสอบถามแต่ละรายการจะสัมผัสได้ 500 รายการเท่านั้น นั่นหมายความว่ามันเป็น O (1) มันไม่ได้มีราคาแพงมากขึ้นถ้าคุณเข้าสู่ดัชนี

คุณต้องรักษาตัวแปร@lastAmountFetchedเพื่อลดค่าที่น้อยที่สุดที่คุณดึงข้อมูลในคำสั่งนั้น

วิธีนี้คุณจะสแกนดัชนีแบบเพิ่มเติมตามลำดับ คุณจะอ่านได้มากที่สุด (500 - 1) แถวมากกว่าจำนวนเงินที่เหมาะสม

นี่จะเร็วกว่าการรวมยอดสั่งซื้อ 100,000 รายการหรือมากกว่านั้นสำหรับร้านค้าใดร้านหนึ่งโดยเฉพาะ อาจจำเป็นต้องทำซ้ำเพียงไม่กี่แถวละ 500 แถว

โดยพื้นฐานแล้วนี่คือโอเปอเรเตอร์ที่กำหนดรหัสเองด้วยตนเอง

หรือใช้เคอร์เซอร์เพื่อดึงแถวให้น้อยที่สุด สิ่งนี้จะช้ากว่านี้มากเนื่องจากการเรียกใช้แบบสอบถามแบบแถวเดียว 500 ครั้งส่วนใหญ่มักจะช้ากว่าการเรียกใช้ชุดข้อมูล 500 แถว

หรือมิฉะนั้นเพียงสอบถามทุกแถวโดยไม่ต้องDISTINCTสั่งวิธีและทำให้แอปพลิเคชันไคลเอนต์ยุติการค้นหาเมื่อมีการส่งคืนแถวมากพอ (โดยใช้SqlCommand.Cancel)


1
นี่กำลังขาดรายละเอียดที่สำคัญ - คุณจะมั่นใจได้อย่างไรว่า#fetchedOrdersไม่มีลูกค้าที่เราเคยเห็นมาแล้ว? สันนิษฐานนี้เกี่ยวข้องกับการแสวงหาดัชนีในตาราง temp ซึ่งไม่มากสิ่งเดียวกับ "การไหลที่แตกต่าง" และไม่ได้รับมีราคาแพงกว่าแถวที่เราเคยเห็น (แม้ว่ามันจะยังคงชนะการแก้ปัญหา B แต่ในกรณีที่เลวร้ายที่สุด ต้องสแกนแถวทั้งหมดเนื่องจากมีลูกค้าเพียงรายเดียวเท่านั้นซึ่ง A และ B จะทำงานเหมือนกัน)

2
@JeroenMostert - IGNORE_DUP_KEYสามารถทำเช่นนั้นได้
Martin Smith

@usr: ขอบคุณสำหรับสิ่งนี้ ฉันเขียนโค้ดโดยใช้ IGNORE_DUP_KEY & วิ่งตัวเลข & มีเวลา cpu = 31ms, เวลาที่ผ่านไป = 27ms แม้ว่าจะเร็วกว่าโซลูชัน B แต่ก็ไม่มีที่ไหนใกล้โซลูชัน A (cpu = 0, ms = 1) ซึ่งจำเป็นต้องมีเพื่อจุดประสงค์ของฉัน เมื่อคุณพูดว่า "คุณได้ยกเว้นปัญหาที่เป็นไปได้ทั้งหมดที่ฉันสามารถคิดได้" ฉันสงสัยว่าฉันได้ยกเว้นปัญหาทั้งหมดที่ทุกคนสามารถคิดได้แล้ว สิ่งที่น่าผิดหวังก็คือฉันสามารถจินตนาการได้ว่า SQL ต้องทำอย่างไรเพื่อให้ได้ perf ของ A ฉันแค่ไม่รู้วิธีบอกโดยใช้ ORDER BY
JohnnyM
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.