คำจำกัดความของตระกูลของการแจกแจง?


14

ตระกูลการแจกแจงมีคำจำกัดความทางสถิติที่แตกต่างจากในสาขาอื่นหรือไม่?

โดยทั่วไปแล้วตระกูลของเส้นโค้งคือชุดของเส้นโค้งซึ่งแต่ละชุดจะได้รับจากฟังก์ชั่นหรือ parametrization ซึ่งพารามิเตอร์หนึ่งตัวหรือมากกว่านั้นแตกต่างกันไป ครอบครัวดังกล่าวจะใช้สำหรับตัวอย่างเช่นในการอธิบายลักษณะของชิ้นส่วนอิเล็กทรอนิกส์

สำหรับสถิติตระกูลตามแหล่งเดียวคือผลลัพธ์ของการเปลี่ยนแปลงพารามิเตอร์รูปร่าง แล้วเราจะเข้าใจได้อย่างไรว่าการแจกแจงแกมม่านั้นมีพารามิเตอร์รูปร่างและขนาดและมีเพียงการกระจายแกมม่าทั่วไปเท่านั้นที่มีอยู่นอกจากนี้พารามิเตอร์ตำแหน่ง? สิ่งนี้ทำให้ครอบครัวเป็นผลมาจากการเปลี่ยนพารามิเตอร์ตำแหน่งที่ตั้งหรือไม่ ตามที่ @whuber ความหมายของครอบครัวนั้นโดยปริยาย"พารามิเตอร์" ของครอบครัวนั้นเป็นแผนที่ต่อเนื่องจากเซตย่อยของℝ nโดยมีโทโพโลยีปกติเข้าสู่พื้นที่ของการกระจายซึ่งเป็นภาพครอบครัวนั้นn

ครอบครัวที่ใช้ภาษาง่าย ๆ คืออะไรสำหรับการแจกแจงเชิงสถิติ?

คำถามเกี่ยวกับความสัมพันธ์ระหว่างคุณสมบัติทางสถิติของการแจกแจงจากตระกูลเดียวกันได้สร้างความขัดแย้งอย่างมากสำหรับคำถามที่แตกต่างดังนั้นมันจึงคุ้มค่าที่จะสำรวจความหมาย

ว่านี่ไม่ใช่คำถามง่าย ๆ ที่เกิดจากการใช้ในวลีexponential familyซึ่งไม่มีส่วนเกี่ยวข้องกับตระกูลของ curves แต่เกี่ยวข้องกับการเปลี่ยนรูปแบบ PDF ของการแจกแจงโดยการเปลี่ยนพารามิเตอร์ใหม่ไม่เพียง แต่พารามิเตอร์ แต่ยังทดแทนหน้าที่ของตัวแปรสุ่มอิสระ


1
จากคำพูดที่ว่า "ครอบครัวแห่งการกระจาย" คุณหมายถึงอย่างอื่นไหมว่า "ครอบครัวแห่งการแจกแจง"? ตระกูลเลขชี้กำลังเป็นตระกูลของการแจกแจง (ที่มีคุณสมบัติบางอย่าง) และการตีความ pdf ของการแจกแจงแต่ละแบบเป็นเส้นโค้งมันยังสอดคล้องกับตระกูลของเส้นโค้งดังนั้นย่อหน้าสุดท้ายจึงดูสับสน
Juho Kokkala

@JuhoKokkala ดูเหมือนสับสนเพราะความหมายของ "ครอบครัว" นั้นขึ้นอยู่กับบริบท ตัวอย่างเช่นการแจกแจงแบบปกติของค่าเฉลี่ยที่ไม่รู้จักและความแปรปรวนที่รู้จักนั้นอยู่ในตระกูลเลขชี้กำลัง การแจกแจงแบบปกติมีการสนับสนุนแบบไม่มีที่สิ้นสุด(,+)และการแจกแจงแบบเอ็กซ์โพเนนเชียลมีการสนับสนุนแบบกึ่งอนันต์[0,+)ดังนั้นจึงไม่มีตระกูลของเส้นโค้งสำหรับการแจกแจงแบบเอ็กซ์โพเนนเชียล การกระจายตัวพวกเขาไม่เคยมีรูปร่างเหมือนกัน ...
Carl

@JuhoKokkala ... และ PDF แบบเอ็กซ์โปเนนเชียลไม่ได้มีพารามิเตอร์ตำแหน่งในขณะที่การแจกแจงแบบปกติไม่สามารถทำได้หากไม่มี ดูลิงค์ด้านบนสำหรับการทดแทนที่จำเป็นและบริบทที่ pdf ปกติอยู่ในตระกูลชี้แจง
Carl

1
stats.stackexchange.com/questions/129990/…อาจมีความเกี่ยวข้อง "การแจกแจงปกติของค่าเฉลี่ยที่ไม่รู้จักและความแปรปรวนที่รู้จักกันนั้นอยู่ในตระกูลเอ็กซ์โปเนนเชียล" คือความรู้ของฉันการใช้คำศัพท์ที่ผิด ๆ แน่นอนตระกูลชี้แจงเป็นตระกูลของการแจกแจงที่มีคุณสมบัติบางอย่าง ครอบครัวของการแจกแจงปกติที่ไม่รู้จักความแปรปรวนค่าเฉลี่ยและเป็นที่รู้จักกันเป็นครอบครัวชี้แจง; ครอบครัวของการแจกแจงแบบแทนเป็นตระกูลแบบเลขชี้กำลังเป็นต้น
Juho Kokkala

1
@JuhoKokkala: "ครอบครัว" นั้นเป็นเรื่องปกติ (ab) ที่ใช้ในกรณีพิเศษหมายถึง "ชุดของครอบครัว" อาจจะคุ้มค่าที่จะดึงออกมาเป็นคำตอบอื่น (ฉันไม่สามารถคิดของกรณีอื่น ๆ - สำหรับเหตุผลบางอย่างมันดูเหมือนว่าไม่มีใครที่มีแนวโน้มที่จะพูดคุยของ " ครอบครัวตั้งขนาด".)
Scortchi - คืนสิทธิ์ให้กับโมนิกา

คำตอบ:


14

แนวคิดทางสถิติและคณิตศาสตร์นั้นเหมือนกันทุกประการเข้าใจว่า "ตระกูล" เป็นคำศัพท์ทางคณิตศาสตร์ทั่วไปที่มีรูปแบบทางเทคนิคที่ปรับให้เหมาะกับสถานการณ์ที่แตกต่างกัน:

ตระกูลพารามิเตอร์คือเส้นโค้ง (หรือพื้นผิวหรือลักษณะทั่วไปของขอบเขต จำกัด อื่น ๆ ) ในพื้นที่ของการแจกแจงทั้งหมด

ส่วนที่เหลือของโพสต์นี้อธิบายความหมาย นอกเหนือจากนี้ฉันไม่คิดว่าสิ่งนี้จะเป็นการโต้เถียงไม่ว่าจะทางคณิตศาสตร์หรือทางสถิติ (นอกเหนือจากปัญหาเล็กน้อยซึ่งมีการระบุไว้ด้านล่าง) เพื่อสนับสนุนความคิดเห็นนี้ฉันได้ให้การอ้างอิงจำนวนมาก (ส่วนใหญ่เป็นบทความวิกิพีเดีย)


คำศัพท์ของ"ครอบครัว" นี้มีแนวโน้มที่จะใช้เมื่อศึกษาคลาสของฟังก์ชั่นลงในชุดYหรือ "แผนที่" กำหนดโดเมนXเป็นครอบครัวFของแผนที่บนXแปรโดยบางชุดΘ (ที่ "พารามิเตอร์") เป็นฟังก์ชั่นCYYX FX Θ

F:X×ΘY

ซึ่ง (1) สำหรับแต่ละฟังก์ชั่นF θ : X Yได้รับจากF θ ( x ) = F ( x , θ )อยู่ในC Yและ (2) Fตัวเองมีบางอย่าง "ที่ดี" คุณสมบัติθΘFθ:XYFθ(x)=F(x,θ)CYF

แนวคิดคือเราต้องการเปลี่ยนฟังก์ชั่นจากเป็นYในลักษณะ "ราบรื่น" หรือควบคุม คุณสมบัติ (1) หมายความว่าแต่ละθกำหนดฟังก์ชั่นดังกล่าวในขณะที่รายละเอียดของคุณสมบัติ (2) จะจับความรู้สึกที่การเปลี่ยนแปลง "เล็ก" ในθทำให้เกิดการเปลี่ยนแปลง "เล็ก" เพียงพอในF θXYθθFθ θ

ตัวอย่างทางคณิตศาสตร์มาตรฐานใกล้กับหนึ่งที่กล่าวถึงในคำถามที่เป็นฮอมอโท ในกรณีนี้เป็นหมวดหมู่ของแผนที่ต่อเนื่องจากทอพอโลยีช่องว่างXไปสู่ทอพอโลยีอวกาศY ; Θ = [ 0 , 1 ] Rเป็นช่วงเวลาที่มีหน่วยโครงสร้างปกติของมันและเราจำเป็นต้องให้Fเป็นอย่างต่อเนื่องแผนที่จากผลิตภัณฑ์ทอพอโลยีX × Θเข้าY มันอาจจะคิดว่าเป็น "ความผิดปกติอย่างต่อเนื่องของแผนที่CY XYΘ=[0,1]RFX×ΘYและ homotopy เป็นความผิดปกติอย่างราบรื่นจากโค้งหนึ่งไปยังอีกF0ถึง "เมื่อX = [ 0 , 1 ]เป็นช่วงเวลาแผนที่ดังกล่าวเป็นเส้นโค้งในYF1X=[0,1]Y

สำหรับแอปพลิเคชั่นทางสถิติ คือชุดของการแจกแจงทั้งหมดบนR (หรือในทางปฏิบัติบนR nสำหรับบางnแต่เพื่อให้การอธิบายง่าย ๆ ฉันจะเน้นที่n = 1 ) เราอาจระบุด้วยชุดของฟังก์ชันcàdlàgที่ไม่ลดลงทั้งหมดR[ 0 , 1 ]โดยที่การปิดของช่วงนั้นมีทั้ง0และ1 : นี่คือฟังก์ชันการแจกแจงสะสมหรือฟังก์ชันการแจกแจงแบบง่ายๆ ดังนั้นX = RCYRRnnn=1R[0,1]01X=Rและ ]Y=[0,1]

ครอบครัวของการกระจายเป็นส่วนย่อยของใด ๆ Y CY ชื่ออื่นสำหรับครอบครัวคือแบบจำลองทางสถิติ ประกอบด้วยการแจกแจงทั้งหมดที่เราสมมติว่าควบคุมการสังเกตของเรา แต่เราไม่ทราบว่าการกระจายตัวใดที่แท้จริง

  • ครอบครัวว่างเปล่าได้
  • เองเป็นครอบครัวCY
  • ครอบครัวอาจประกอบด้วยการแจกแจงเดี่ยวหรือเพียงจำนวน จำกัด

ชุดทฤษฎีเชิงนามธรรมเหล่านี้มีความสนใจหรือยูทิลิตี้ค่อนข้างน้อย เมื่อเราพิจารณาโครงสร้างทางคณิตศาสตร์เพิ่มเติม (ที่เกี่ยวข้อง) บนที่แนวคิดนี้มีประโยชน์ แต่คุณสมบัติของC Yใดที่น่าสนใจทางสถิติ? บางรายการที่แสดงบ่อยคือ:CYCY

  1. เป็นชุดนูน: รับสองแจกแจง F , G C Yเราอาจจะก่อให้เกิดการกระจายส่วนผสม(1-T) F +T GYสำหรับทุกเสื้อ[0,1] นี้เป็นชนิดของ "ฮอมอโท" จากFไปGCYF,GCY (1t)F+tGYt[0,1]FG

  2. ส่วนใหญ่ของรองรับตัวชี้วัดหลอกต่าง ๆ เช่นความแตกต่าง Kullback-Leiblerหรือตัวชี้วัดข้อมูลสารสนเทศที่เกี่ยวข้องอย่างใกล้ชิดCY

  3. มีโครงสร้างสารเติมแต่ง: สอดคล้องกับสองแจกแจงFและGคือผลรวมของพวกเขา FGCYFGFG

  4. สนับสนุนฟังก์ชันที่มีประโยชน์และเป็นธรรมชาติมากมายซึ่งมักเรียกว่า "คุณสมบัติ" เหล่านี้รวมถึง quantile คงที่ใด ๆ (เช่นค่ามัธยฐาน) เช่นเดียวกับcumulantsCY

  5. เป็นส่วนย่อยของพื้นที่ฟังก์ชั่น ด้วยเหตุนี้มันจึงได้รับตัวชี้วัดที่มีประโยชน์มากมายเช่นsup norm( L norm) ที่กำหนดโดย | | F-G | | = sup x R | F(x)-G(x) | .CYL

    ||FG||=supxR|F(x)G(x)|.
  6. ธรรมชาติการกระทำของกลุ่มในเหนี่ยวนำให้เกิดการดำเนินการกับC Y การกระทำที่พบมากที่สุดที่มีการแปลT μ : x x + μและscalings S σ : x x σสำหรับσ > 0 ผลกระทบที่มีต่อการแจกแจงคือการส่งFไปยังการแจกแจงที่กำหนดโดยF μ , σ ( x ) = F ( ( x - μ )RCY Tμ:xx+μ Sσ:xxσσ>0F ) สิ่งเหล่านี้นำไปสู่แนวคิดของตระกูลระดับตำแหน่งและภาพรวมทั่วไป (ฉันไม่ได้ให้การอ้างอิงเนื่องจากการค้นหาเว็บที่กว้างขวางทำให้เกิดคำจำกัดความที่หลากหลาย: อย่างน้อยก็อาจเป็นข้อโต้แย้งเล็กน้อย)Fμ,σ(x)=F((xμ)/σ)

คุณสมบัติที่สำคัญขึ้นอยู่กับปัญหาทางสถิติและวิธีที่คุณต้องการวิเคราะห์ข้อมูล การกล่าวถึงการเปลี่ยนแปลงทั้งหมดที่แนะนำโดยคุณสมบัติก่อนหน้านี้จะใช้พื้นที่มากเกินไปสำหรับสื่อนี้ มามุ่งเน้นที่แอปพลิเคชั่นที่สำคัญอย่างหนึ่ง

ยกตัวอย่างเช่นโอกาสสูงสุด ในแอปพลิเคชั่นส่วนใหญ่คุณจะต้องการใช้แคลคูลัสเพื่อรับค่าประมาณ ในการทำงานคุณจะต้องสามารถ "รับสัญญาซื้อขายล่วงหน้า" ในครอบครัวได้

( เทคนิคกัน:วิธีปกติในที่นี้ประสบความสำเร็จคือการเลือกโดเมนสำหรับd 0และระบุอย่างต่อเนื่องภายในกลับด้านฟังก์ชั่นหน้าจากΘเข้าไปในC Y (ซึ่งหมายความว่าสำหรับทุก. θ Θมี มีลูกบอลB ( θ , ϵ ) , กับϵ > 0ซึ่งp B ( θ , ϵ ) :ΘRdd0pΘCYθΘB(θ,ϵ)ϵ>0เป็นหนึ่งต่อหนึ่ง กล่าวอีกนัยหนึ่งถ้าเราเปลี่ยน θด้วยจำนวนน้อยพอเราจะได้รับการแจกแจงที่แตกต่างกันเสมอ))pB(θ,ϵ):B(θ,ϵ)ΘCYθ

ดังนั้นในการใช้งาน ML ที่สุดที่เราต้องการให้อย่างต่อเนื่อง (และหวังว่าเกือบอนุพันธ์ได้ทุกที่) ในΘส่วนประกอบ (หากปราศจากความต่อเนื่องการเพิ่มความน่าจะเป็นโดยทั่วไปจะกลายเป็นปัญหาที่รักษาไม่ได้) สิ่งนี้นำไปสู่การนิยามความเป็นไปได้ของครอบครัวพาราเมทริก :pΘ

ครอบครัวตัวแปรของ (univariate) กระจายคือแผนที่ภายในกลับกับΘ R nซึ่ง (ก) แต่ละF θคือฟังก์ชั่นการจัดจำหน่ายและ (ข) สำหรับแต่ละx R , ฟังก์ชั่นL x : θ [ 0 , 1 ]ให้โดยL x ( θ ) = F ( x , θ )

F:R×Θ[0,1],
ΘRnFθxRLx:θ[0,1]Lx(θ)=F(x,θ) มีความต่อเนื่องและแทบจะไม่สามารถจำแนกได้

โปรดทราบว่าตระกูลพารามิเตอร์เป็นมากกว่าการรวบรวมF θ : มันยังรวมถึงวิธีเฉพาะที่ค่าพารามิเตอร์θสอดคล้องกับการแจกแจงFFθθ

มาจบลงด้วยตัวอย่างที่เป็นตัวอย่าง

  • ให้เป็นเซตของการแจกแจงปกติทั้งหมด ตามที่ระบุไว้นี่ไม่ใช่ครอบครัวพารามิเตอร์: มันเป็นแค่ครอบครัว เพื่อให้เป็นพารามิเตอร์เราต้องเลือกการกำหนดพารามิเตอร์ วิธีหนึ่งคือการเลือกΘ = { ( μ , σ ) R 2 | σ > 0 } และแผนที่( μ , σ )การกระจายปกติที่มีค่าเฉลี่ยμ และแปรปรวนσ 2CYΘ={(μ,σ)R2σ>0}(μ,σ)μσ2

  • The set of Poisson(λ) distributions is a parametric family with λΘ=(0,)R1.

  • The set of Uniform(θ,θ+1) distributions (which features prominently in many textbook exercises) is a parametric family with θR1. In this case, Fθ(x)=max(0,min(1,xθ)) is differentiable in θ except for θ{x,x1}.

  • Let F and G be any two distributions. Then F(x,θ)=(1θ)F(x)+θG(x) is a parametric family for θ[0,1]. (Proof: the image of F is a set of distributions and its partial derivative in θ equals F(x)+G(x) which is defined everywhere.)

  • The Pearson family is a four-dimensional family, ΘR4, which includes (among others) the Normal distributions, Beta distributions, and Inverse Gamma distributions. This illustrates the fact that any one given distribution may belong to many different distribution families. This is perfectly analogous to observing that any point in a (sufficiently large) space may belong to many paths that intersect there. This, together with the previous construction, shows us that no distribution uniquely determines a family to which it belongs.

  • The family CY of all finite-variance absolutely continuous distributions is not parametric. The proof requires a deep theorem of topology: if we endow CY with any topology (whether statistically useful or not) and p:ΘCY is continuous and locally has a continuous inverse, then locally CY must have the same dimension as that of Θ. However, in all statistically meaningful topologies, CY is infinite dimensional.


2
It will take me about a day to digest your answer. I will have to chew slowly. Meanwhile, thank you.
Carl

(+1) OK, I slogged through it. So is F:R×Θ[0,1] a Polish space or not? Can we do a simple answer so people know how to avoid using the word family improperly, please. @JuhoKokkala related, for example, that Wikipedia abused language in their exponential family, that needs clarification.
Carl

1
Doesn't the second sentence of this answer serve that request for simplicity?
whuber

IMHO, however uninformed, no, it does not due to incompleteness, it doesn't say what a family isn't. The concept "in the space of all distributions" seems to relate to statistics only.
Carl

1
I have accepted your answer. You have enough information in it that I could apply it to the question in question.
Carl

1

To address a specific point brought up in the question: "exponential family" does not denote a set of distributions. (The standard, say, exponential distribution is a member of the family of exponential distributions, an exponential family; of the family of gamma distributions, also an exponential family; of the family of Weibull distributions, not an exponential family; & of any number of other families you might dream up.) Rather, "exponential" here refers to a property possessed by a family of distributions. So we shouldn't talk of "distributions in the exponential family" but of "exponential families of distributions"—the former is an abuse of terminology, as @JuhoKokkala points out. For some reason no-one commits this abuse when talking of location–scale families.


0

Thanks to @whuber there is enough information to summarize in what I hope is a simpler form relating to the question from which this post arose. "Another name for a family [Sic, statistical family] is [a] statistical model."

From that Wikipedia entry: A statistical model consists of all distributions that we suppose govern our observations, but we do not otherwise know which distribution is the actual one. What distinguishes a statistical model from other mathematical models is that a statistical model is non-deterministic. Thus, in a statistical model specified via mathematical equations, some of the variables do not have specific values, but instead have probability distributions; i.e., some of the variables are stochastic. A statistical model is usually thought of as a pair (S,P), where S is the set of possible observations, i.e., the sample space, and P is a set of probability distributions on S.

Suppose that we have a statistical model (S,P) with P={Pθ:θΘ}. The model is said to be a Parametric model if Θ has a finite dimension. In notation, we write that ΘRd where d is a positive integer (R denotes the real numbers; other sets can be used, in principle). Here, d is called the dimension of the model.

As an example, if we assume that data arise from a univariate Gaussian distribution, then we are assuming that

P={Pμ,σ(x)12πσexp((xμ)22σ2):μR,σ>0}.
In this example, the dimension, d, equals 2, end quote.

Thus, if we reduce the dimensionality by assigning, for the example above, μ=0, we can show a family of curves by plotting σ=1,2,3,4,5 or whatever choices for σ.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.