วิธีใช้สถิติ CDF และ PDF สำหรับการวิเคราะห์


12

นี่อาจเป็นคำถามทั่วไปมากเกินไป แต่ฉันหวังว่าฉันจะขอความช่วยเหลือได้ที่นี่ ฉันกำลังเริ่มงาน RA ในมหาวิทยาลัยของฉันและหัวข้อของฉันจะเกี่ยวข้องกับการวิเคราะห์การจราจรทางอินเทอร์เน็ต ฉันค่อนข้างใหม่สำหรับโลกแห่งการวิเคราะห์ แต่ฉันเดาว่าในโลกของการวิจัยนี่คือสิ่งที่ฉันต้องทำมากมาย

ฉันเคยผ่านบทความสองสามฉบับและในหนังสือเหล่านั้นมากมายฉันพบว่าพวกเขาใช้ Probability Density (PDF), CDF, CCDF และอื่น ๆ เพื่ออธิบายผลลัพธ์ที่ได้รับ ตัวอย่างเช่น PDF ของระยะเวลาเซสชันของผู้ใช้ CDF ของจำนวนไบต์ที่ถ่ายโอนในแต่ละวันเป็นต้นฉันมีโอกาสในการเรียนและสถิติดังนั้นฉันจึงเข้าใจว่ามันคืออะไร แต่ฉันยังสับสนกับกรณีที่เลือกตัวแทน

ดังนั้นหากมีใครออกไปทำกราฟและการวิเคราะห์ (ในหัวข้ออื่นใดโดยทั่วไปหรือสิ่งนี้) คุณสามารถบอกฉันได้ง่ายๆว่าในสถานการณ์ใดฉันจะใช้ตัวแทนอย่างใดอย่างหนึ่งหรืออย่างอื่นแทน

คำตอบ:


17

ส่วนหนึ่งเป็นเรื่องของรสนิยมและการประชุม แต่ทฤษฏีความสนใจต่อวัตถุประสงค์ของคุณและวิทยาศาสตร์ทางประสาทสัมผัส [ดูเอกสารอ้างอิง] สามารถให้คำแนะนำได้

เพราะ PDF และ CDF ถ่ายทอดข้อมูลเดียวกันความแตกต่างระหว่างพวกเขาเกิดขึ้นจากวิธีการที่พวกเขาทำมัน: ไฟล์ PDF แสดงให้เห็นถึงความน่าจะเป็นกับพื้นที่ในขณะที่แสดงให้เห็นถึงความน่าจะเป็น CDF กับ (แนวตั้ง) ระยะทาง การศึกษาแสดงให้เห็นว่าผู้คนเปรียบเทียบระยะทางได้เร็วขึ้นและแม่นยำยิ่งขึ้นกว่าที่พวกเขาเปรียบเทียบพื้นที่และพวกเขาอย่างผิดพลาดประมาณพื้นที่ ดังนั้นหากวัตถุประสงค์ของคุณคือการจัดหาเครื่องมือกราฟิกสำหรับการอ่านค่าความน่าจะเป็นคุณควรใช้ cdf

ไฟล์ PDF และ CDFS ยังเป็นตัวแทนของความน่าจะเป็นความหนาแน่น : อดีตไม่ได้โดยวิธีการของความสูงในขณะที่หลังแสดงให้เห็นถึงความหนาแน่นโดยความลาดชัน ตอนนี้ตารางหันไปแล้วเพราะคนเป็นผู้ประมาณความลาดเอียงที่แย่ (ซึ่งก็คือแทนเจนต์ของมุม; เรามักจะเห็นมุมตัวเอง) ความหนาแน่นนั้นดีในการถ่ายทอดข้อมูลเกี่ยวกับโหมดความหนักเบาของก้อยและช่องว่าง ใช้ไฟล์ PDF ในสถานการณ์เช่นนี้และที่อื่น ๆ ที่จำเป็นต้องเน้นรายละเอียดของการกระจายความน่าจะเป็น

บางครั้ง pdf หรือ cdf ให้ข้อมูลทางทฤษฎีที่เป็นประโยชน์ ค่าของมัน (หรือค่อนข้างตรงกันข้ามมัน) มีส่วนร่วมในสูตรสำหรับข้อผิดพลาดมาตรฐานสำหรับ quantiles, extremes และจัดอันดับสถิติ แสดง PDF แทน cdf ในสถานการณ์เช่นนี้ เมื่อศึกษาความสัมพันธ์หลายตัวแปรในการตั้งค่าแบบไม่มีพารามิเตอร์เช่นกับcopulas cdf กลายเป็นประโยชน์มากกว่า (อาจเป็นเพราะฟังก์ชันที่แปลงกฎความน่าจะเป็นแบบต่อเนื่องให้เป็นชุดเดียว)

pdf หรือ cdf สามารถเชื่อมโยงอย่างใกล้ชิดกับการทดสอบทางสถิติโดยเฉพาะ การทดสอบ Kolmogorov-Smirnov (และสถิติ KS) มีการแสดงกราฟิกอย่างง่ายในแง่ของบัฟเฟอร์แนวตั้งรอบ cdf; มันไม่มีการแสดงกราฟิกอย่างง่ายในแง่ของ pdf (ที่ฉันรู้)

ccdf (CFD เสริม) ใช้ในแอปพลิเคชันพิเศษที่มุ่งเน้นไปที่ผู้รอดชีวิตและเหตุการณ์ที่หายาก การใช้มีแนวโน้มที่จะจัดตั้งขึ้นโดยการประชุม

อ้างอิง

WS คลีฟแลนด์ (1994) องค์ประกอบของข้อมูลกราฟ Summit, NJ, USA: Hobart Press ไอ 0-9634884-1-4

BD Dent (1999) การทำแผนที่: การออกแบบแผนที่เฉพาะเรื่อง 5th Ed. บอสตันแมสซาชูเซตส์สหรัฐอเมริกา: WCB McGraw-Hill

AM MacEachren (2004) Maps ทำงานอย่างไร นิวยอร์กนิวยอร์กสหรัฐอเมริกา: สำนักพิมพ์กิลฟอร์ด ไอ 1-57230-040-X


(+1) โดยเฉพาะอย่างยิ่งสำหรับข้อมูลเชิงลึกในความสามารถในการตีความของระยะทางเทียบกับพื้นที่และความลาดชันเทียบกับความสูง
steffen

8

ฉันเห็นด้วยกับคำตอบของ whuber แต่มีจุดเล็ก ๆ น้อย ๆ เพิ่มเติม:

CDF มีประมาณการไม่ใช่ตัวแปรที่เรียบง่ายที่ต้องการทางเลือกที่จะทำไม่มีที่: ฟังก์ชั่นการกระจายเชิงประจักษ์ มันไม่ได้ค่อนข้างง่ายดังนั้นเพื่อประเมินรูปแบบไฟล์ PDF หากคุณใช้ฮิสโตแกรมคุณจะต้องเลือกความกว้างของถังขยะและจุดเริ่มต้นสำหรับถังขยะแรก หากคุณใช้การประมาณความหนาแน่นของเคอร์เนลคุณต้องเลือกรูปร่างและแบนด์วิดท์ของเคอร์เนล ผู้อ่านที่น่าสงสัยหรือเหยียดหยามอาจสงสัยว่าคุณเลือกนิรนัยเหล่านี้จริงๆหรือถ้าคุณลองใช้ค่าที่ต่างกันสองสามค่าและเลือกค่าที่ให้ผลลัพธ์ที่คุณชอบมากที่สุด

นี่เป็นเพียงจุดเล็กน้อยเท่านั้น เสียงที่คนทำมีความสำคัญมากกว่าดังนั้นฉันอาจจะใช้สิ่งนี้เพื่อเลือกเมื่อฉันยังไม่ตัดสินใจหลังจากพิจารณาสิ่งเหล่านั้น


มันยังคงเป็นจุดที่น่าสนใจ ขอบคุณที่นำมันมา
whuber

2

ฉันเดาว่ามันขึ้นอยู่กับสถิติหรือข้อค้นพบที่คุณกำลังจะค้นหาการวิจัยการศึกษาหรือการรายงาน ฉันสมมติว่าคุณน่าจะใช้กราฟเหล่านี้เพื่อเป็นตัวแทนข้อค้นพบในหัวข้อมหาวิทยาลัยของคุณใช่ไหม

ตัวอย่างเช่นหากคุณต้องการนำเสนอการค้นพบของคุณเกี่ยวกับการพูดว่า 'ผู้ใช้อยู่ในเว็บไซต์บางแห่งได้นานแค่ไหน' มันอาจเป็นการดีที่จะแสดงใน CDF เนื่องจากจะแสดงเวลาสะสมที่เขาใช้ในเว็บไซต์นั้นผ่านหน้าเว็บ ฯลฯ .

ในทางกลับกันหากคุณต้องการแสดงความน่าจะเป็นของผู้ใช้ที่คลิกลิงก์โฆษณา (เช่นลิงก์ Google adwords) คุณอาจต้องการแสดงในรูปแบบ PDF เนื่องจากอาจเป็นเส้นโค้งการแจกแจงแบบปกติและคุณสามารถแสดง ความน่าจะเป็นของเฮปเปนนิ่งนั้น

หวังว่านี่จะช่วยเจฟ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.