สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

6
คำอธิบายที่ใช้งานง่ายของคำในความแปรปรวนของตัวประมาณกำลังสองน้อยที่สุด
ถ้าอยู่ในอันดับเต็มค่าผกผันของมีอยู่และเราจะได้ค่าประมาณกำลังสองน้อยที่สุด: และXXXXTXXTXX^TXˆβ=(XTX)−1XYβ^=(XTX)−1XY\hat\beta = (X^TX)^{-1}XYVar(ˆβ)=σ2(XTX)−1Var(β^)=σ2(XTX)−1\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1} เราจะอธิบายอย่างสังหรณ์ใจได้อย่างไรในสูตรผลต่าง เทคนิคของการได้มานั้นชัดเจนสำหรับฉัน(XTX)−1(XTX)−1(X^TX)^{-1}

3
เหตุใดจึงมี -1 ในฟังก์ชันความหนาแน่นของการแจกแจงแบบเบต้า
การแจกแจงเบต้าปรากฏภายใต้การกำหนดค่าสองค่า (หรือที่นี่ ) f ( x ) ∝ x α ( 1 - x ) βf(x)∝xα(1−x)β(1) f(x) \propto x^{\alpha} (1-x)^{\beta} \tag{1} หรือสิ่งที่ดูเหมือนว่าจะใช้บ่อยกว่าปกติ f ( x ) ∝ x α - 1 ( 1 - x ) β - 1f(x)∝xα−1(1−x)β−1(2) f(x) \propto x^{\alpha-1} (1-x)^{\beta-1} \tag{2} แต่ทำไมถึงมี " - 1−1-1 " ในสูตรที่สอง? …

2
มีข้อสมมติฐานเกี่ยวกับการถดถอยโลจิสติกหรือไม่
มีข้อสันนิษฐานเกี่ยวกับตัวแปรตอบสนองของการถดถอยโลจิสติก ตัวอย่างเช่นสมมติว่าเรามีจุดข้อมูลจุด ดูเหมือนว่าการตอบสนองY ฉันมาจากการกระจาย Bernoulli กับหน้าฉัน = logit ( β 0 + β 1 x ฉัน ) ดังนั้นเราจึงควรมี1,000กระจาย Bernoulli กับพารามิเตอร์ที่แตกต่างกันP100010001000YiYiY_ipi=logit(β0+β1xi)pi=logit(β0+β1xi)p_i=\text{logit}(\beta_0+\beta_1 x_i)100010001000ppp ดังนั้นพวกเขาจึงเป็น "อิสระ" แต่ไม่ได้ "เหมือนกัน" ฉันถูกไหม? PS ฉันเรียนรู้การถดถอยแบบลอจิสติกจากวรรณกรรม "การเรียนรู้ของเครื่อง" ซึ่งเราทำหน้าที่ของวัตถุประสงค์ให้เหมาะสมและตรวจสอบว่ามันดีในการทดสอบข้อมูลโดยไม่พูดถึงสมมติฐานมากเกินไปหรือไม่ คำถามของฉันเริ่มต้นด้วยโพสต์นี้ทำความเข้าใจกับฟังก์ชั่นการเชื่อมโยงในโมเดลเชิงเส้นทั่วไปที่ฉันพยายามเรียนรู้เพิ่มเติมเกี่ยวกับสมมติฐานทางสถิติ


1
การทำให้ขนาดตัวอย่างเป็นตัวแปรสุ่มหมายความว่าอย่างไร
แฟรงก์ฮาร์เรลได้เริ่มต้นบล็อก ( สถิติการคิด) ในโพสต์ชั้นนำของเขาเขาแสดงคุณสมบัติที่สำคัญบางอย่างของปรัชญาทางสถิติของเขา ในรายการอื่น ๆ มันรวมถึง: ทำให้ขนาดตัวอย่างเป็นตัวแปรสุ่มเมื่อทำได้ การทำให้ขนาดตัวอย่างเป็นตัวแปรสุ่มหมายความว่าอย่างไร อะไรคือข้อดีของการทำเช่นนี้? ทำไมถึงเป็นที่นิยมมากกว่า?

5
สถิติแบบเบย์ทำให้การวิเคราะห์อภิธานศัพท์ล้าสมัยหรือไม่?
ฉันแค่สงสัยว่าสถิติของเบย์จะถูกนำมาใช้ตั้งแต่การศึกษาครั้งแรกจนถึงครั้งสุดท้ายหรือไม่หากนี่เป็นการวิเคราะห์เมตาดาต้าที่ล้าสมัย ตัวอย่างเช่นสมมติว่ามีการศึกษา 20 ครั้งซึ่งทำในเวลาที่ต่างกัน การประเมินหรือการกระจายของการศึกษาครั้งแรกได้ทำกับuninformativeก่อน การศึกษาที่สองใช้การแจกแจงหลังเป็นแบบก่อน การกระจายหลังใหม่นี้ใช้ก่อนหน้านี้สำหรับการศึกษาที่สามเป็นต้น ในตอนท้ายเรามีการประมาณการซึ่งมีการประมาณการหรือข้อมูลทั้งหมดที่เคยทำมาก่อน มันสมเหตุสมผลหรือไม่ที่จะทำการวิเคราะห์อภิมาน? ที่น่าสนใจฉันคิดว่าการเปลี่ยนลำดับของการวิเคราะห์นี้จะเปลี่ยนการกระจายของหลังสุดด้วยความเคารพประมาณการ

5
ทำไมนักสถิติจึงกำหนดเมทริกซ์แบบสุ่ม?
ฉันเรียนคณิตศาสตร์เมื่อสิบปีที่แล้วดังนั้นฉันจึงมีภูมิหลังทางคณิตศาสตร์และสถิติ แต่คำถามนี้คือฆ่าฉัน คำถามนี้ยังคงเป็นปรัชญาเล็กน้อยสำหรับฉัน ทำไมนักสถิติจึงพัฒนาเทคนิคทุกประเภทเพื่อทำงานกับเมทริกซ์แบบสุ่ม? ฉันหมายถึงเวกเตอร์สุ่มไม่แก้ปัญหาเหรอ? ถ้าไม่ใช่คอลัมน์เฉลี่ยที่แตกต่างกันของเมทริกซ์แบบสุ่มคืออะไร Anderson (2003, Wiley) พิจารณาเวกเตอร์สุ่มเป็นกรณีพิเศษของเมทริกซ์แบบสุ่มที่มีเพียงคอลัมน์เดียว ฉันไม่เห็นจุดที่มีเมทริกซ์แบบสุ่ม (และฉันแน่ใจว่าเป็นเพราะฉันไม่รู้) แต่ทนกับฉัน ลองนึกภาพฉันมีโมเดลที่มีตัวแปรสุ่ม 20 ตัว ถ้าฉันต้องการคำนวณฟังก์ชั่นความน่าจะเป็นร่วมทำไมฉันถึงนึกภาพมันเป็นเมทริกซ์แทนที่จะเป็นเวกเตอร์ ฉันพลาดอะไรไป PS: ฉันขอโทษสำหรับคำถามที่ติดแท็กไม่ดี แต่ยังไม่มีแท็กสำหรับการสุ่มเมทริกซ์และฉันยังไม่สามารถสร้างได้! แก้ไข: เปลี่ยนเมทริกซ์เป็นเมทริกซ์ในชื่อเรื่อง

1
ความคิดเห็นเกี่ยวกับ Oversampling โดยทั่วไปและอัลกอริทึม SMOTE โดยเฉพาะ [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา คุณมีความคิดเห็นอย่างไรเกี่ยวกับการสุ่มตัวอย่างมากเกินไปในการจำแนกประเภทโดยทั่วไปและขั้นตอนวิธี SMOTE โดยเฉพาะ ทำไมเราไม่เพียงแค่ใช้ค่าใช้จ่าย / ค่าปรับเพื่อปรับความไม่สมดุลในข้อมูลระดับและค่าใช้จ่ายของข้อผิดพลาดที่ไม่สมดุล? สำหรับวัตถุประสงค์ของฉันความแม่นยำในการทำนายชุดอนาคตของหน่วยการทดลองเป็นตัวชี้วัดขั้นสูงสุด สำหรับการอ้างอิงกระดาษ SMOTE: http://www.jair.org/papers/paper953.html

3
สิ่งที่ทำให้เครือข่ายประสาทเทียมเป็นรูปแบบการจำแนกแบบไม่เชิงเส้น?
ฉันพยายามเข้าใจความหมายทางคณิตศาสตร์ของตัวแบบการจำแนกแบบไม่เชิงเส้น: ฉันเพิ่งอ่านบทความที่พูดคุยเกี่ยวกับอวนประสาทเป็นรูปแบบการจัดหมวดหมู่ที่ไม่ใช่เชิงเส้น แต่ฉันเพิ่งรู้ว่า: ชั้นแรก: h1=x1∗wx1h1+x2∗wx1h2h1=x1∗wx1h1+x2∗wx1h2h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2} h2=x1∗wx2h1+x2∗wx2h2h2=x1∗wx2h1+x2∗wx2h2h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2} ชั้นต่อมา y=b∗wby+h1∗wh1y+h2∗wh2yy=b∗wby+h1∗wh1y+h2∗wh2yy=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y} สามารถทำให้ง่ายขึ้นไป =b'+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x1∗wx1h1+x2∗wx1h2)∗wh1y+(x1∗wx2h1+x2∗wx2h2)∗wh2y=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y} =b'+x1(wh1y∗wx1h1+wx2h1∗wh2y)+x2(wh1y∗wx1h1+wx2h2∗wh2y)=b′+x1(wh1y∗wx1h1+wx2h1∗wh2y)+x2(wh1y∗wx1h1+wx2h2∗wh2y)=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y}) โครงข่ายประสาทสองชั้นเป็นเพียงการถดถอยเชิงเส้นอย่างง่าย =b′+x1∗W′1+x2∗W′2=b′+x1∗W1′+x2∗W2′=b^′+x_1∗W_1^′+x_2∗W_2^′ สิ่งนี้สามารถแสดงให้เห็นถึงจำนวนเลเยอร์ใด ๆ เนื่องจากการรวมกันเชิงเส้นของจำนวนน้ำหนักใด ๆ เป็นเส้นตรงอีกครั้ง อะไรที่ทำให้โครงข่ายประสาทเทียมเป็นแบบจำลองการจำแนกแบบไม่เชิงเส้น ฟังก์ชั่นการเปิดใช้งานจะส่งผลกระทบต่อความไม่เป็นเชิงเส้นของรุ่นอย่างไร คุณอธิบายฉันได้ไหม

4
ความแปรปรวนเป็นแนวคิดพื้นฐานมากกว่าความเบี่ยงเบนมาตรฐานหรือไม่
บนเว็บไซต์ไซโครเมทริกนี้ฉันอ่านแล้ว [A] ความแปรปรวนระดับลึกตาเป็นแนวคิดพื้นฐานมากกว่าส่วนเบี่ยงเบนมาตรฐาน ไซต์ไม่ได้อธิบายเพิ่มเติมว่าทำไมความแปรปรวนจึงมีความสำคัญมากกว่าความเบี่ยงเบนมาตรฐาน แต่มันทำให้ฉันนึกถึงว่าฉันได้อ่านสิ่งที่คล้ายกันในเว็บไซต์นี้ ยกตัวอย่างเช่นในความคิดเห็นนี้ @ kjetil-b-halvorsen เขียนว่า "ค่าเบี่ยงเบนมาตรฐานดีต่อการตีความการรายงานสำหรับการพัฒนาทฤษฎีความแปรปรวนจะดีกว่า" ฉันรู้สึกว่าการอ้างสิทธิ์เหล่านี้เชื่อมโยงกัน แต่ฉันไม่เข้าใจจริงๆ ฉันเข้าใจว่าสแควร์รูทของความแปรปรวนตัวอย่างไม่ใช่ตัวประมาณที่ไม่เอนเอียงของค่าเบี่ยงเบนมาตรฐานของประชากร แต่แน่นอนว่าต้องมีมากกว่านั้น บางทีคำว่า "พื้นฐาน" นั้นคลุมเครือเกินไปสำหรับไซต์นี้ ในกรณีนี้บางทีเราสามารถทำให้คำถามของฉันเป็นคำถามที่ว่าความแปรปรวนสำคัญกว่าการเบี่ยงเบนมาตรฐานจากมุมมองของการพัฒนาทฤษฎีทางสถิติหรือไม่ ทำไม / ทำไมไม่

4
ในสถิติฉันควรถือว่าการ
ฉันกำลังศึกษาสถิติและมักพบสูตรที่มีlogและฉันมักสับสนถ้าฉันควรตีความว่าเป็นความหมายมาตรฐานของlogเช่นฐาน 10 หรือในสถิติสัญลักษณ์log มักจะถือว่าเป็นบันทึกธรรมชาติlnสันนิษฐานโดยทั่วไปจะบันทึกของธรรมชาติ โดยเฉพาะอย่างยิ่งฉันกำลังศึกษาการประมาณค่าความถี่ที่ดีของทัวริงเป็นตัวอย่าง แต่คำถามของฉันเป็นคำถามทั่วไปมากกว่า

4
ทำไมสแควร์ธรรมดาน้อยที่สุดจึงทำงานได้ดีกว่าการถดถอยปัวซอง?
ฉันกำลังพยายามทำให้การถดถอยเพื่ออธิบายจำนวนคดีฆาตกรรมในแต่ละเขตของเมือง แม้ว่าฉันจะรู้ว่าข้อมูลของฉันเป็นไปตามการแจกแจงปัวซอง แต่ฉันก็พยายามปรับให้เหมาะสมกับ OLS ดังนี้: log(y+1)=α+βX+ϵlog(y+1)=α+βX+ϵlog(y+1) = \alpha + \beta X + \epsilon จากนั้นฉันก็ลอง (ปฎิบัติ!) การถดถอยแบบปัวซอง ปัญหาคือว่าฉันมีผลลัพธ์ที่ดีกว่าในการถดถอย OLS: หลอก -สูงกว่า (0.71 เทียบกับ 0.57) และ RMSE เช่นกัน (3.8 vs 8.88 มาตรฐานที่มีหน่วยเดียวกัน)R2R2R^2 ทำไม? เป็นเรื่องปกติหรือไม่ มีอะไรผิดปกติในการใช้ OLS ไม่ว่าการเผยแพร่ข้อมูลจะเป็นอย่างไร แก้ไข ตามคำแนะนำของ kjetil b halvorsen และอื่น ๆ ฉันได้ติดตั้งข้อมูลผ่านสองรุ่น: OLS และ Negative Binomial GLM (NB) ฉันเริ่มด้วยฟีเจอร์ทั้งหมดที่ฉันมีจากนั้นฉันก็ทำการลบฟีเจอร์ที่ไม่สำคัญออกไปทีละแบบ …

1
เราทำการวิเคราะห์ถดถอยแบบหลายตัวแปรด้วยค่าสัมประสิทธิ์ * ตัวแปร * / *
ฉันใช้เวลาเรียนรู้การเรียนรู้ของเครื่องจักร (ขออภัยสำหรับการเรียกซ้ำ :) และฉันอดไม่ได้ที่จะรู้สึกทึ่งกับกฎง่ายๆในการเลือก Gradient Descent ผ่านการแก้สมการโดยตรงสำหรับการคำนวณสัมประสิทธิ์การถดถอยในกรณีของการถดถอยเชิงเส้นหลายตัวแปร Rule of thumb: ถ้าจำนวนคุณสมบัติ (อ่านค่าสัมประสิทธิ์ / ตัวแปรอิสระ) อยู่ระหว่างหรือมากกว่าล้านไปกับ Gradient Descent การคำนวณเมทริกซ์ผกผันอื่นสามารถจัดการได้อย่างเป็นธรรมบนฮาร์ดแวร์สินค้าและทำให้การคำนวณสัมประสิทธิ์โดยตรงควรจะดีพอ .10 , 000 - 1 , 000 , 00010,000-1,000,00010,000 - 1,000,000 ฉันพูดถึงสิ่งที่ได้รับจากการแลกเปลี่ยน / ข้อ จำกัด แต่จากมุมมองทางสถิติเราคำนวณแบบจำลองกับค่าสัมประสิทธิ์จำนวนมากที่เคยทำจริงหรือไม่? ถ้าฉันจำคลาสถดถอยเชิงเส้นหลายตัวแปรในโรงเรียนระดับประถมศึกษาเราได้รับคำเตือนให้ใช้ตัวแปรอิสระมากเกินไปเนื่องจากอาจมีผลกระทบเล็กน้อยต่อตัวแปรตามหรือการกระจายของพวกเขาจะไม่เป็นไปตามสมมติฐานที่เราทำเกี่ยวกับข้อมูล แม้ว่าผมจะไม่ขยายความคิดของฉันที่จะคิดว่า "เกลือจำนวนมาก" ผมยังไม่ได้คิดในล้าน คำถาม (s): สิ่งนี้เกิดขึ้นจริงหรือเป็นประเด็นทางทฤษฎีหรือไม่ จุดประสงค์ของการวิเคราะห์ล้านไอวีคืออะไร? มันทำให้เราได้รับมูลค่าของข้อมูลที่เพิ่มขึ้นอย่างมากเมื่อเทียบกับการเพิกเฉยหรือไม่ หรือเป็นเพราะในตอนแรกเราไม่รู้ว่าอะไรมีประโยชน์ดังนั้นเราจึงเรียกใช้การถดถอยแช่งเพื่อดูว่ามีประโยชน์อะไรและไปจากที่นั่นและอาจตัดชุด IV ฉันยังคงเชื่อเพียงเพราะเราสามารถวิเคราะห์ "ทุกอย่าง" ไม่ได้หมายความว่าเราควรโยนมันเข้าไปในตัวแก้ปัญหา (หรือทำ) และคำถามที่ผ่านมาบางคำถามของฉันสะท้อนถึง …

4
เปรียบเทียบฮิสโตแกรมสองภาพโดยใช้ระยะทาง Chi-Square
ฉันต้องการเปรียบเทียบภาพใบหน้าสองภาพ ฉันคำนวณ LBP-histograms ของพวกเขา ดังนั้นตอนนี้ฉันต้องเปรียบเทียบฮิสโตแกรมสองตัวนี้และรับบางสิ่งที่จะบอกว่าฮิสโทแกรมเหล่านี้เท่ากัน (0 - 100%) มีหลายวิธีในการแก้ปัญหานี้ แต่ผู้เขียนของวิธี LBP เน้น (คำอธิบายใบหน้าด้วยรูปแบบไบนารีท้องถิ่น: การประยุกต์ใช้การจดจำใบหน้า 2004) ที่ Chi-Square ระยะทางดีกว่าการแยกฮิสโทแกรมและสถิติความน่าจะเป็น ผู้เขียนยังแสดงสูตรของระยะทาง Chi-Square: ∑i=1n(xi−yi)2(xi+yi)∑i=1n(xi−yi)2(xi+yi) \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} โดยที่คือจำนวนของถังขยะคือค่าของถังขยะแรกคือค่าของถังขยะที่สองx i y i innnxixix_iyiyiy_i ในงานวิจัยบางชิ้น (ตัวอย่างเช่นตระกูลระยะทางฮิสโตแกรม Quadratic-Chi) ฉันเห็นว่าสูตรของระยะทาง Chi-Square คือ: 12∑i=1n(xi−yi)2(xi+yi)12∑i=1n(xi−yi)2(xi+yi) \cfrac{1}{2}\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} และมีhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htmฉันเห็นสูตรของระยะทาง Chi-Square นั่นคือ: …

4
ความคาดหวังของผลิตภัณฑ์ของตัวแปรสุ่มขึ้นอยู่กับเมื่อ
ให้และ ,... ความคาดหวังของเป็นn \ rightarrow \ inftyคืออะไร?X1∼U[0,1]X1∼U[0,1]X_1 \sim U[0,1]Xi∼U[Xi−1,1]Xi∼U[Xi−1,1]X_i \sim U[X_{i - 1}, 1]i=2,3,...i=2,3,...i = 2, 3,...X1X2⋯XnX1X2⋯XnX_1 X_2 \cdots X_nn→∞n→∞n \rightarrow \infty

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.