ในแง่ของคนธรรมดาอะไรคือความแตกต่างระหว่างแบบจำลองและการแจกแจง?


28

คำตอบ (คำจำกัดความ) ที่กำหนดไว้ใน Wikipedia นั้นค่อนข้างเป็นความลับเล็กน้อยสำหรับผู้ที่ไม่คุ้นเคยกับคณิตศาสตร์ / สถิติที่สูงขึ้น

ในแง่คณิตศาสตร์แบบจำลองทางสถิติมักจะคิดว่าเป็นคู่ ( ) โดยที่คือชุดของการสังเกตที่เป็นไปได้เช่นพื้นที่ตัวอย่างและคือชุดของการแจกแจงความน่าจะเป็น ในSS,PSPS

ในความน่าจะเป็นและสถิติการกระจายความน่าจะเป็นจะกำหนดความน่าจะเป็นให้แต่ละชุดย่อยที่วัดได้ของผลลัพธ์ที่เป็นไปได้ของการทดลองแบบสุ่มการสำรวจหรือขั้นตอนของการอนุมานทางสถิติ พบตัวอย่างที่มีพื้นที่ตัวอย่างไม่ใช่ตัวเลขซึ่งการแจกแจงจะเป็นการแจกแจงเชิงหมวดหมู่

ฉันเป็นนักเรียนมัธยมปลายที่สนใจงานด้านนี้มากเป็นงานอดิเรกและกำลังดิ้นรนกับความแตกต่างระหว่างสิ่งที่เป็นstatistical modelและprobability distribution

ความเข้าใจที่เป็นอยู่ในปัจจุบันและพื้นฐานมากของฉันคือ:

  • ตัวแบบเชิงสถิติคือความพยายามทางคณิตศาสตร์เพื่อประมาณการกระจายตัวที่วัด

  • การแจกแจงความน่าจะเป็นคำอธิบายที่วัดได้จากการทดสอบที่กำหนดความน่าจะเป็นให้กับผลลัพธ์ที่เป็นไปได้ของเหตุการณ์สุ่ม

ความสับสนจะเพิ่มขึ้นอีกโดยแนวโน้มในวรรณคดีเพื่อดูคำว่า "การกระจาย" และ "แบบจำลอง" ใช้แทนกันได้ - หรืออย่างน้อยในสถานการณ์ที่คล้ายกันมาก (เช่นการแจกแจงทวินามเทียบกับแบบจำลองทวินาม)

ใครบางคนสามารถยืนยัน / แก้ไขคำจำกัดความของฉันและอาจเสนอวิธีการที่เป็นทางการมากขึ้น


1
Bottom line: ไม่มีความแตกต่างอย่างแน่นอนระหว่างตัวแบบสถิติและการแจกแจงความน่าจะเป็น แบบจำลองทางสถิติทุกตัวอธิบายการแจกแจงความน่าจะเป็นและในทางกลับกัน อย่าให้พวกเขาสับสนกับข้อความยาว ๆ
Cagdas Ozgenc

3
@Cagdas ตามคำนิยามที่อ้างถึงในคำถามที่มีคือความแตกต่าง: แบบจำลองทางสถิติคือการเก็บรวบรวมจัดระเบียบโดยเฉพาะอย่างยิ่งของการกระจายความน่าจะเป็น เมื่อมีการแจกแจงความน่าจะเป็นเพียงหนึ่งหลักฐานเราก็ไม่ได้ทำสถิติอีกต่อไปเพราะเป้าหมายของการวิเคราะห์เชิงสถิติได้รับ: เรารู้ว่าการกระจาย!
whuber

2
@cagdas Wikipedia ช่วยให้ บริษัท มีเนื้อหาที่ดีที่สุด ฉันเห็นด้วยกับมันอย่างเต็มที่
whuber

4
@CagdasOzgenc ทำไมไม่แสดงหลักฐานเพื่อยืนยันข้อเรียกร้องที่คมชัดและชัดเจนของคุณ พิสูจน์ได้โดยผู้มีอำนาจไม่ค่อยยอมรับ (ถ้าเคย) หากปราศจากความคิดมันก็เป็นเรื่องยาก (ถ้าไม่เป็นไปไม่ได้) ที่จะมีการอภิปรายที่มีประสิทธิผล การเรียกร้องที่ไม่พร้อมเพรียงมักจะมากกว่าเสียงรบกวน
Richard Hardy

2
@RichardHardy คำถามที่ถามว่า "ศัพท์คนธรรมดา" และดูคำตอบที่เขาได้รับ ขอโทษฉัน แต่ฉันเกลียดที่จะเห็นนักเรียนต้องทนทุกข์ทรมานเพราะใครบางคนตัดสินใจที่จะแสดงออก คำตอบนั้นง่ายเพียงแค่ 2 + 2 = 4 และฉันไม่คิดว่ามันต้องมีการอ้างอิงที่เชื่อถือได้ 20 หน้า
Cagdas Ozgenc

คำตอบ:


25

การแจกแจงความน่าจะเป็นฟังก์ชันทางคณิตศาสตร์ที่อธิบายตัวแปรแบบสุ่ม แม่นยำมากขึ้นอีกหน่อยมันเป็นฟังก์ชั่นที่กำหนดความน่าจะเป็นให้กับตัวเลขและเอาท์พุทมันต้องเห็นด้วยกับสัจพจน์ของความน่าจะเป็น

แบบจำลองทางสถิติเป็นคำอธิบายที่เป็นนามธรรมและเงียบสงบของปรากฏการณ์บางอย่างในแง่คณิตศาสตร์โดยใช้การแจกแจงความน่าจะเป็น การอ้างอิง Wasserman (2013):

แบบจำลองทางสถิติ คือชุดของการกระจาย (หรือความหนาแน่นหรือฟังก์ชั่นการถดถอยบริการ) รุ่นพาราเป็นชุด Fที่สามารถแปรโดยจำนวน จำกัด ของพารามิเตอร์ [ ... ] FF

โดยทั่วไปโมเดลพารามิเตอร์จะใช้แบบฟอร์ม

F={f(x;θ):θΘ}

ที่เป็นตัวแปรที่ไม่รู้จัก (หรือเวกเตอร์ของพารามิเตอร์) ที่สามารถนำค่าในพื้นที่พารามิเตอร์ Θ ถ้าθเป็นเวกเตอร์ แต่เรามีความสนใจเฉพาะในองค์ประกอบหนึ่งของθเราเรียกพารามิเตอร์ที่เหลือพารามิเตอร์รำคาญ รูปแบบไม่อิงพารามิเตอร์เป็นชุดFที่ไม่สามารถแปรโดยจำนวน จำกัด ของพารามิเตอร์θ ΘθθF

ในหลายกรณีเราใช้การแจกแจงเป็นแบบจำลอง (คุณสามารถตรวจสอบตัวอย่างนี้ ) คุณสามารถใช้การแจกแจงทวินามเป็นแบบจำลองของจำนวนหัวในชุดของการโยนเหรียญ ในกรณีเช่นนี้เราสันนิษฐานว่าการแจกแจงนี้จะอธิบายผลลัพธ์ที่เกิดขึ้นจริง นี่ไม่ได้หมายความว่านี่เป็นวิธีเดียวที่คุณจะอธิบายปรากฏการณ์ดังกล่าวได้ไม่ว่าการแจกแจงทวินามนั้นเป็นสิ่งที่สามารถใช้เพื่อจุดประสงค์นี้เท่านั้น แบบจำลองสามารถใช้การแจกแจงอย่างน้อยหนึ่งอย่างในขณะที่แบบจำลองแบบเบส์ระบุการกระจายก่อนหน้าด้วย

อย่างเป็นทางการมากกว่านี้ถูกกล่าวถึงโดย McCullaugh (2002):

ตามทฤษฎีที่ยอมรับในปัจจุบัน [Cox and Hinkley (1974), บทที่ 1; Lehmann (1983), บทที่ 1; Barndorff-Nielsen and Cox (1994), ส่วนที่ 1.1; เบอร์นาร์สมิ ธ และ (1994) บทที่ 4] แบบจำลองทางสถิติคือชุดของความน่าจะเป็นในการกระจายตัวอย่างพื้นที่SParameterized ที่แบบจำลองทางสถิติคือพารามิเตอร์ Θตั้งพร้อมกับฟังก์ชั่นP : Θ →การP ( S )ซึ่งได้รับมอบหมายไปยังจุดแต่ละพารามิเตอร์ θ Θการกระจายความน่าจะเป็นP θใน S ที่นี่P ( S )เป็นชุดของทั้งหมดSΘP:ΘP(S)θΘPθSP(S) แจกแจงความน่าจะเกี่ยวกับSมากในต่อไปนี้มันเป็นสิ่งสำคัญที่จะแยกแยะระหว่างรูปแบบเป็นฟังก์ชั่นP : Θ →การP ( S )และชุดที่เกี่ยวข้องของการกระจายP Θ P ( S )SP:ΘP(S)PΘP(S)

ดังนั้นแบบจำลองทางสถิติจึงใช้การแจกแจงความน่าจะเป็นเพื่ออธิบายข้อมูลในเทอมของมัน แบบจำลองพารามิเตอร์จะอธิบายด้วยชุดพารามิเตอร์ จำกัด

นี่ไม่ได้หมายความว่าวิธีการทางสถิติทั้งหมดต้องการการแจกแจงความน่าจะเป็น ตัวอย่างเช่นการถดถอยเชิงเส้นมักจะอธิบายในแง่ของสมมติฐานปกติแต่ในความเป็นจริงมันค่อนข้างแข็งแกร่งที่จะออกจากภาวะปกติและเราต้องการสมมติฐานเกี่ยวกับปกติของข้อผิดพลาดสำหรับช่วงความเชื่อมั่นและการทดสอบสมมติฐาน ดังนั้นสำหรับการถดถอยในการทำงานเราไม่จำเป็นต้องมีสมมติฐานเช่นนี้ แต่เพื่อให้ได้แบบจำลองทางสถิติที่ระบุอย่างสมบูรณ์เราจำเป็นต้องอธิบายมันในแง่ของตัวแปรสุ่มดังนั้นเราต้องการการแจกแจงความน่าจะเป็น ฉันเขียนเกี่ยวกับเรื่องนี้เพราะคุณมักจะได้ยินคนพูดว่าพวกเขาใช้แบบจำลองการถดถอยสำหรับข้อมูลของพวกเขา - ในกรณีส่วนใหญ่พวกเขาค่อนข้างหมายความว่าพวกเขาอธิบายข้อมูลในแง่ของความสัมพันธ์เชิงเส้นระหว่างค่าเป้าหมายและตัวทำนายโดยใช้พารามิเตอร์บางอย่าง ภาวะปกติ


McCullagh, P. (2002) แบบจำลองทางสถิติคืออะไร? บันทึกสถิติ, 1225-1267

Wasserman, L. (2013) สถิติทั้งหมด: หลักสูตรที่กระชับในการอนุมานเชิงสถิติ สปริงเกอร์


4
@ JCLeitãoนั่นคือเหตุผลที่ฉันเพิ่มประกาศ;) OLS แบบคลาสสิกเป็นเพียงเกี่ยวกับสายที่เหมาะสม สมมติฐานทั่วไปเกี่ยวกับเสียงในขณะที่แนวคิดหลักคือเรากำลังสร้างแบบจำลอง E (y) เป็นฟังก์ชันเชิงเส้นของ X จำเป็นต้องใช้ Normality สำหรับช่วงความมั่นใจและการทดสอบ แต่การถดถอยนั้นเกี่ยวกับเส้นและข้อผิดพลาดที่มีความสำคัญน้อยกว่า (พูดอย่างหลวม ๆ )
ทิม

ขอบคุณสำหรับคำตอบ. คุณสามารถให้คำจำกัดความสั้น ๆ ได้ 2 ข้อเพื่อสรุป? (เช่นกันฉันไม่เข้าใจบรรทัดสุดท้ายIn much of the following, it is important to distinguish between the model as a function and the associated set of distributions) คุณแค่แสดงความคิดเห็นที่คลุมเครืออยู่ระหว่างความหมายทั้งสองที่ใช้คำเดียวกันmodelหรือว่าฉันขาดอะไรไป
AlanSTACK

@ คำจำกัดความสั้นกระชับสองข้อมีให้ในสองย่อหน้าแรกในขณะที่คำอธิบายและการอ้างอิงที่เข้มงวดยิ่งขึ้น - คุณช่วยอธิบายสิ่งที่ไม่ชัดเจนได้อย่างไร เกี่ยวกับบรรทัดสุดท้ายของการเสนอราคา: โดยทั่วไปแล้วมันบอกว่าแบบจำลองนั้นถูกกำหนดในแง่ของการแจกแจงความน่าจะเป็นและพารามิเตอร์และมันเป็นเรื่องที่ดีที่ต้องจำไว้ว่ามันมีทั้งสองด้านบางครั้งมันก็เป็นการดี ฉันแนะนำกระดาษที่ยกมาสำหรับการสนทนาอย่างเข้มงวด (มันสามารถใช้ได้อย่างอิสระภายใต้ลิงค์)
ทิม

8

คิดว่าเป็นชุดของตั๋ว คุณสามารถเขียนสิ่งต่าง ๆ ลงในตั๋วได้ โดยปกติตั๋วจะเริ่มต้นด้วยชื่อของบุคคลหรือวัตถุในโลกแห่งความจริงที่ว่า "แสดงถึง" หรือ "แบบจำลอง" มีช่องว่างมากมายบนตั๋วแต่ละใบสำหรับเขียนสิ่งอื่น ๆS

คุณสามารถทำสำเนาแต่ละตั๋วได้มากเท่าที่คุณต้องการ รูปแบบความน่าจะเป็น สำหรับการนี้ประชากรโลกแห่งความจริงหรือกระบวนการประกอบด้วยการทำอย่างใดอย่างหนึ่งหรือสำเนาของทุกตั๋วผสมพวกเขาขึ้นและวางไว้ในกล่อง หากคุณ - นักวิเคราะห์ - สามารถพิสูจน์ได้ว่ากระบวนการในการวาดตั๋วหนึ่งใบสุ่มจากกล่องนี้เลียนแบบพฤติกรรมที่สำคัญทั้งหมดของสิ่งที่คุณกำลังศึกษาอยู่คุณสามารถเรียนรู้มากเกี่ยวกับโลกโดยการคิดเกี่ยวกับกล่องนี้ เนื่องจากตั๋วบางใบอาจมีจำนวนมากในกล่องมากกว่าบัตรอื่น ๆ พวกเขาอาจมีโอกาสแตกต่างกัน ทฤษฎีความน่าจะเป็นศึกษาโอกาสเหล่านี้P

เมื่อตัวเลขถูกเขียนลงบนตั๋ว (ในทางที่สอดคล้อง) พวกเขาก่อให้เกิดการแจกแจง (ความน่าจะเป็น) การแจกแจงความน่าจะเป็นเพียงอธิบายสัดส่วนของตั๋วในกล่องที่มีตัวเลขอยู่ภายในช่วงเวลาที่กำหนด

เนื่องจากโดยปกติเราไม่ทราบว่าโลกมีพฤติกรรมอย่างไรเราจึงต้องจินตนาการถึงกล่องที่แตกต่างกันซึ่งบัตรโดยสารจะปรากฏขึ้นพร้อมกับความถี่ที่สัมพันธ์กันที่แตกต่างกัน ชุดของกล่องเหล่านี้คือPเรามองโลกในขณะที่ถูกอธิบายอย่างเพียงพอโดยพฤติกรรมของหนึ่งในกล่องในที่P เป็นวัตถุประสงค์ของคุณในการคาดเดาอย่างสมเหตุสมผลว่าควรใช้กล่องใดขึ้นอยู่กับสิ่งที่คุณเห็นบนตั๋วที่คุณดึงออกมาPP


เป็นตัวอย่าง (ซึ่งเป็นจริงและเป็นจริงไม่ใช่ของเล่นตำรา) สมมติว่าคุณกำลังศึกษาอัตราของปฏิกิริยาเคมีเมื่ออุณหภูมิแตกต่างกันไป สมมติว่าทฤษฏีทางเคมีทำนายว่าภายในช่วงอุณหภูมิระหว่าง0ถึง100องศาอัตราเป็นสัดส่วนกับอุณหภูมิy0100

คุณวางแผนที่จะศึกษาปฏิกิริยานี้ที่และ100องศาโดยทำการสังเกตหลาย ๆ ครั้งในแต่ละอุณหภูมิ คุณสร้างกล่องจำนวนมากขึ้นมาก คุณกำลังจะกรอกตั๋วแต่ละช่องด้วยตั๋ว มีค่าคงที่อัตราที่เขียนในแต่ละรายการ ตั๋วทั้งหมดในกล่องที่กำหนดจะมีอัตราคงที่เท่ากัน กล่องที่ต่างกันใช้ค่าคงที่อัตราต่างกัน 0100

เมื่อใช้อัตราคงที่ที่เขียนบนตั๋วใด ๆ คุณก็เขียนอัตราที่และอัตราที่100องศาด้วย: เรียกy 0และy 100เหล่านี้ แต่นี่ยังไม่เพียงพอสำหรับแบบจำลองที่ดี นักเคมียังรู้ว่าไม่มีสารใดที่บริสุทธิ์ไม่มีการวัดปริมาณที่แน่นอนและความแปรปรวนแบบสังเกตอื่น ๆ ในการทำแบบจำลอง "ข้อผิดพลาด" คุณทำสำเนาตั๋วจำนวนมาก ในแต่ละคัดลอกคุณเปลี่ยนค่าของY 0และy ที่ 100 ในส่วนของพวกเขาคุณเปลี่ยนเพียงเล็กน้อย ในไม่กี่อย่างคุณอาจเปลี่ยนพวกเขามาก คุณจดบันทึกค่าที่เปลี่ยนแปลงมากที่สุดเท่าที่คุณวางแผนที่จะสังเกตในแต่ละอุณหภูมิ เหล่านี้0100y0y100y0y100การสังเกตแสดงถึงผลลัพธ์ที่เป็นไปได้ที่เป็นไปได้ของการทดสอบของคุณ ในแต่ละช่องชุดตั๋วเหล่านี้จะเป็นแบบจำลองความน่าจะเป็นสำหรับสิ่งที่คุณอาจสังเกตเห็นสำหรับค่าคงที่อัตราที่กำหนด

สิ่งที่คุณจะสังเกตเห็นเป็นแบบจำลองโดยการวาดตั๋วจากกล่องที่และการอ่านเพียงข้อสังเกตที่เขียนมี คุณไม่ได้เห็นต้นแบบ (จริง) ค่าของหรือY 100 คุณไม่ได้อ่านค่าคงที่อัตรา (จริง) สิ่งที่คุณไม่ได้รับจากการทดสอบของคุณy0y100

แบบจำลองทางสถิติทุกตัวจะต้องตั้งสมมติฐานเกี่ยวกับตั๋วในกล่องเหล่านี้ (สมมุติ) ตัวอย่างเช่นเราหวังว่าเมื่อคุณแก้ไขค่าของและy 100คุณทำได้โดยไม่เพิ่มหรือลดลงอย่างต่อเนื่อง (โดยรวมภายในกล่อง): ซึ่งจะเป็นรูปแบบของความลำเอียงที่เป็นระบบy0y100

เนื่องจากข้อสังเกตที่เขียนในแต่ละตั๋วเป็นตัวเลขจึงทำให้เกิดการแจกแจงความน่าจะเป็น สมมติฐานที่ทำเกี่ยวกับกล่องโดยทั่วไปจะเป็นวลีในแง่ของคุณสมบัติของการแจกแจงเหล่านั้นเช่นว่าพวกเขาจะต้องเฉลี่ยออกไปที่ศูนย์จะสมมาตรมีรูปร่าง "เส้นโค้งระฆัง" เป็น uncorrelated หรืออะไรก็ตาม


นั่นคือทั้งหมดที่มีให้มัน ในทางที่เสียงโบราณสิบสองสเกลได้ก่อให้เกิดดนตรีคลาสสิกตะวันตกทั้งหมดกล่องสะสมตั๋วที่บรรจุเป็นแนวคิดง่าย ๆ ที่สามารถนำมาใช้ในรูปแบบที่หลากหลายและซับซ้อนอย่างยิ่ง มันสามารถจำลองอะไรก็ได้ตั้งแต่เหรียญพลิกไปจนถึงห้องสมุดวิดีโอฐานข้อมูลของการโต้ตอบเว็บไซต์ตระการตาควอนตัมเชิงกลและสิ่งอื่น ๆ ที่สามารถสังเกตและบันทึกได้


3

คำจำกัดความของการแจกแจงเป็นการกำหนดความน่าจะเป็นให้กับแต่ละเหตุการณ์ที่เป็นไปได้สำหรับการแจกแจงแบบไม่ต่อเนื่อง แต่กลายเป็นเรื่องยากสำหรับการแจกแจงแบบต่อเนื่องโดยที่จำนวนใด ๆ บนบรรทัดจริงอาจเป็นผลลัพธ์ บ่อยมากเมื่อพูดถึงการกระจายเราคิดว่าพวกเขามีพารามิเตอร์คงที่เช่นการกระจายทวินามมีสองพารามิเตอร์: แรกจำนวนสังเกตและประการที่สองน่าจะเป็นของการสังเกตเดียวเป็นเหตุการณ์π

แบบจำลองเชิงสถิติเชิงพารามิเตอร์อธิบายวิธีที่พารามิเตอร์ (s) ของการแจกแจงขึ้นอยู่กับบางสิ่งเช่นปัจจัย (ตัวแปรที่มีค่าแยก) และ covariates (ตัวแปรต่อเนื่อง) ตัวอย่างเช่นถ้าในการแจกแจงแบบปกติคุณคิดว่าค่าเฉลี่ยสามารถอธิบายได้ด้วยจำนวนคงที่ ("การสกัดกั้น") และจำนวนหนึ่ง ("สัมประสิทธิ์การถดถอย") คูณค่าของ covariate คุณจะได้รูปแบบการถดถอยเชิงเส้น ข้อผิดพลาดที่กระจายตามปกติ สำหรับการแจกแจงทวินามหนึ่งโมเดลที่ใช้กันทั่วไป ("logistic regression"ππ/(1π) ... ในทำนองเดียวกันสำหรับการแจกแจงปัวซองรูปแบบทั่วไปคือการสมมตินี้สำหรับลอการิทึมของพารามิเตอร์อัตรา ("ปัวซองถดถอย")intercept+β1covariate1+


2
ใช่ แต่ ... ตัวแบบไม่เพียง แต่เกี่ยวกับพารามิเตอร์เท่านั้น แต่ยังสามารถเกี่ยวกับโครงสร้างของปัญหา (เช่นตัวแบบ probabilstic ที่คล้ายกับกระบวนการสร้างข้อมูลที่สมมติขึ้น); นอกจากนี้ยังมีโมเดลที่ไม่อิงพารามิเตอร์
ทิม

2

การแจกแจงความน่าจะเป็นให้ข้อมูลทั้งหมดเกี่ยวกับความผันผวนของปริมาณที่สุ่ม ในทางปฏิบัติเรามักจะไม่มีการแจกแจงความน่าจะเป็นแบบเต็มของปริมาณความสนใจของเรา เราอาจรู้หรือคิดอะไรเกี่ยวกับมันโดยไม่ต้องรู้หรือคิดว่าเรารู้ทุกอย่างเกี่ยวกับมัน ตัวอย่างเช่นเราอาจสมมติว่ามีการกระจายปริมาณโดยปกติ แต่ไม่รู้อะไรเลยเกี่ยวกับค่าเฉลี่ยและความแปรปรวน จากนั้นเรามีชุดของผู้สมัครสำหรับการกระจายให้เลือก; ในตัวอย่างของเรามันคือการแจกแจงแบบปกติที่เป็นไปได้ทั้งหมด การรวมตัวของการแจกแจงนี้จะสร้างแบบจำลองทางสถิติ เราใช้มันโดยการรวบรวมข้อมูลจากนั้น จำกัด คลาสผู้สมัครของเราเพื่อให้ผู้สมัครที่เหลือทั้งหมดสอดคล้องกับข้อมูลในแง่ที่เหมาะสม


2

รูปแบบถูกระบุโดย PDF แต่ไม่ใช่รูปแบบ PDF

กระจายความน่าจะเป็น (PDF) เป็นฟังก์ชั่นที่น่าจะได้รับมอบหมายให้เป็นตัวเลขและผลลัพธ์ที่ได้มีการเห็นด้วยกับหลักการของความน่าจะเหมือนทิมอธิบาย

โมเดลถูกกำหนดโดยการแจกแจงความน่าจะเป็นทั้งหมด แต่มันมากกว่านั้น ในตัวอย่างการโยนเหรียญแบบจำลองของเราอาจเป็น "เหรียญยุติธรรม" + "การโยนแต่ละครั้งมีความเป็นอิสระ" รุ่นนี้ถูกระบุโดย PDF ที่เป็นแบบทวินามพร้อม p = 0.5

P(x1,x2,x3,...)

หนึ่งความแตกต่างระหว่างตัวแบบและ PDF คือแบบจำลองสามารถตีความได้ว่าเป็นข้อสมมติฐานเชิงสถิติ ตัวอย่างเช่นในการโยนเหรียญเราสามารถพิจารณารูปแบบที่เหรียญมีความยุติธรรม (p = 0.5) และการโยนแต่ละครั้งมีความเป็นอิสระ (ทวินาม) และบอกว่านี่คือสมมติฐานของเราซึ่งเราต้องการทดสอบกับสมมติฐานการแข่งขัน .

pp


คุณสามารถอธิบายเพิ่มเติมเกี่ยวกับประโยคสุดท้ายของคุณ? นั่นดูเหมือนจะเป็นส่วนสำคัญของสถิติที่ไม่ใช่พารามิเตอร์สำหรับฉัน
เอียน

ฉันมักจะตีความแบบจำลองที่ไม่อิงพารามิเตอร์เสมอว่ามีข้อ จำกัด น้อยกว่าในรูปแบบไฟล์ PDF ของ x_i แต่นั่นก็ยังต้องการ PDF สำหรับสถิติที่ใช้ เช่น Kendal สหสัมพันธ์อันดับถือว่าปกติการคำนวณ p-value แต่อาจเป็นได้ว่ามีตัวอย่างที่เคาน์เตอร์ ฉันจะสนใจ
Jorge Leitao

ฉันไม่เข้าใจว่าคุณหมายถึงอะไรเมื่อคุณพูดว่า "มันไม่สมเหตุสมผลที่จะพูดถึงการแข่งขัน PDF" นี่คือสิ่งที่เรากำลังทำจริง ๆ แม้ในสถิติเชิงสถิติ: เรามีไฟล์ PDF จำนวนมากที่เราคิดว่าอาจใช้ได้กับปัญหาเราใช้ข้อมูลบางส่วนและเราสรุปจากข้อมูลที่ชุดย่อยบางส่วนของ PDF ของเราดีกว่า จากนั้นเราหาปริมาณสิ่งที่เราหมายถึงโดย "ดีกว่า" (นอกจากนี้ในบริบทเบื้องต้นคุณไม่ควรใช้ "PDF" สำหรับทุกสิ่งจริงๆแล้วในแง่ของการกระจายสินค้ามันใช้งานได้ดีที่สุด แต่นี่เป็นเครื่องจักรที่มีความซับซ้อน ... )
Ian

A model is specified by a PDFฉันไม่เห็นด้วย. รูปแบบอาจถูกระบุด้วย PDF หลายรายการเช่นกัน และรูปแบบอาจถูกระบุโดยไม่มี PDF: ลองนึกถึงบางอย่างเช่น SVM หรือแผนภูมิการถดถอย
Ricardo Cruz

2

คุณถามคำถามที่สำคัญมากอลันและได้รับคำตอบที่ดีด้านบน ฉันต้องการเสนอคำตอบที่ง่ายขึ้นและยังระบุมิติเพิ่มเติมสำหรับความแตกต่างที่คำตอบข้างต้นไม่ได้กล่าวถึง เพื่อความเรียบง่ายทุกอย่างที่ฉันจะพูดที่นี่เกี่ยวข้องกับตัวแบบสถิติเชิงพารามิเตอร์

y=ax2+bx+cy=mx+bF=kxmbk

ดังนั้นคำตอบสั้น ๆ ของฉัน # 1 สำหรับคำถามของคุณคือ: แบบจำลองทางสถิติเป็นตระกูลของการแจกแจง

จุดต่อไปผมอยากจะทำเกี่ยวข้องกับรอบคัดเลือก, สถิติ จูเดียเพิร์ลชี้ให้เห็นใน "กฎทองของการวิเคราะห์เชิงสาเหตุ" [1, p350],

ไม่สามารถอ้างเหตุผลได้โดยวิธีทางสถิติล้วนๆไม่ว่าจะเป็นคะแนนนิสัยการถดถอยการแบ่งชั้นหรือการออกแบบอื่น ๆ

F=kx ie ของงบเกี่ยวกับการแจกแจงความน่าจะเป็น

ดังนั้นคำตอบของฉัน # 2 สำหรับคำถามของคุณคือ: แบบจำลองมักจะรวบรวมความคิดเชิงสาเหตุที่ไม่สามารถแสดงออกได้ในเงื่อนไขการกระจายอย่างหมดจด


[1]: ไข่มุกจูเดีย เวรกรรม: แบบจำลองการใช้เหตุผลและการอนุมาน ฉบับที่ 2 เคมบริดจ์, อังกฤษ; นิวยอร์ก: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์, 2009 . 351


ยกโทษให้ความไม่รู้ของฉัน แต่คุณหมายถึงอะไรกับคำว่าcausal? มีความหมายที่เหมาะสมยิ่งขึ้นหรือไม่เพียงอ้างถึงความคิดcausalityและความสัมพันธ์ที่ผูกพันระหว่างcausesและeffects? ขอบคุณสำหรับคำตอบของคุณ btw
AlanSTACK

สาเหตุความรู้ที่เกี่ยวข้องกับผลกระทบของการแทรกแซง หากคุณมีความรู้เชิงสาเหตุคุณจะรู้ว่าระบบบางระบบจะตอบสนองต่อการกระทำของคุณอย่างไร (เทียบกับการละเว้นทั่วไป "การเชื่อมโยงไม่ใช่สาเหตุ") วิธีหนึ่งในการชื่นชมความรู้เชิงสาเหตุที่อยู่นอกเหนือสถิติของจังหวัดคือการพิจารณาตัวอย่างกฎหมายของฮุคที่ฉันอ้างถึงข้างต้น ทั้งนี้ขึ้นอยู่กับวิธีการใช้สปริง (เช่นในสเกลปลากับปืนของเล่นที่บรรจุสปริง)F อาจทำให้ xหรือในทางกลับกัน ยังF=-kxตรงกันข้ามกับสาเหตุที่นี่ (เพราะ=เป็นความสัมพันธ์ที่สมมาตร)
David C. Norris
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.