สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
p-value 0.04993 เพียงพอที่จะปฏิเสธสมมติฐานว่างได้หรือไม่
ใน Wilcoxon ลงชื่ออันดับทดสอบนัยสำคัญทางสถิติเรามาข้ามข้อมูลบางอย่างที่ผลิต -value ของ0.04993ด้วยเกณฑ์ที่ผลลัพธ์นี้เพียงพอที่จะปฏิเสธสมมติฐานว่างหรือว่าปลอดภัยกว่าที่จะบอกว่าการทดสอบนั้นไม่สามารถสรุปได้เพราะถ้าเราปัดค่า p-value เป็นทศนิยม 3 ตำแหน่งจะกลายเป็นหรือไม่พีพีp0.049930.049930.04993p &lt; 0.05พี&lt;0.05p < 0.050.0500.0500.050

2
ค่าสัมประสิทธิ์ความคล้ายคลึงกันสำหรับข้อมูลไบนารี: ทำไมต้องเลือก Jaccard เหนือ Russell และ Rao
จากสารานุกรมวิทยาศาสตร์สถิติฉันเข้าใจว่าได้รับ dichotomous (binary: 1 = ปัจจุบัน; 0 = ขาด) แอตทริบิวต์ (ตัวแปร) เราสามารถสร้างตารางฉุกเฉินสำหรับวัตถุสองชนิดที่ฉันและjของตัวอย่าง:พีพีp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = number of variables on which both objects i and j are 1 b = number of variables …

2
การเรียนรู้การเสริมแรงที่เกิดขึ้นคืออะไร
ฉันเพิ่งเจอคำว่า "การเรียนรู้เสริมกำลังกำเริบ" ฉันเข้าใจว่า "เครือข่ายประสาทที่เกิดขึ้นอีก" คืออะไรและ "การเรียนรู้การเสริมแรง" คืออะไร แต่ไม่สามารถหาข้อมูลได้มากนักเกี่ยวกับสิ่งที่ มีคนอธิบายให้ฉันได้ไหมว่า "การเรียนรู้การเสริมแรงแบบเกิดซ้ำ" กับอะไรคือความแตกต่างระหว่าง "การเรียนรู้การเสริมแรงแบบกำเริบ" และสิ่งที่ปกติคือ

3
ทดสอบการแยกเชิงเส้น
มีวิธีทดสอบการแยกเชิงเส้นของชุดข้อมูลสองระดับในมิติที่สูงหรือไม่? คุณสมบัติเวคเตอร์ของฉันมีความยาว 40 ฉันรู้ว่าฉันสามารถใช้การทดลองการถดถอยโลจิสติกและกำหนดอัตราการเตือนภัยที่ผิดพลาดเพื่อสรุปว่าทั้งสองคลาสนั้นแยกกันเป็นเส้นตรงหรือไม่ แต่ก็เป็นการดีที่จะรู้ว่ามีกระบวนการมาตรฐานอยู่แล้ว

5
แรงจูงใจของอัลกอริธึมการเพิ่มความคาดหวัง
คำถามนี้ถูกย้ายจาก Mathematics Stack Exchange เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 6 ปีที่แล้ว ในแนวทางของอัลกอริทึม EM ที่เราใช้ความไม่เท่าเทียมกันของเซ่นจะมาถึงที่logp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlog⁡p(x|θ)≥∫log⁡p(z,x|θ)p(z|x,θ(k))dz−∫log⁡p(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz และกำหนดθ(k+1)θ(k+1)\theta^{(k+1)}โดยθ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=arg⁡maxθ∫log⁡p(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz ทุกอย่างที่ฉันอ่าน EM ก็แค่ลดทอนลง แต่ฉันก็รู้สึกไม่สบายใจอยู่เสมอโดยไม่มีคำอธิบายว่าทำไมอัลกอริธึม EM จึงเกิดขึ้นเองตามธรรมชาติ ฉันเข้าใจว่าโอกาสในการloglog\logโดยทั่วไปแล้วจะจัดการกับการเพิ่มนอกเหนือจากการคูณ แต่การปรากฏตัวของloglog\logในคำจำกัดความของθ(k+1)θ(k+1)\theta^{(k+1)}ทำให้ฉันรู้สึกไม่คุ้นเคย เหตุใดจึงควรพิจารณาloglog\logและไม่ใช่ฟังก์ชั่นอื่น ๆ ? ด้วยเหตุผลต่าง ๆ ฉันสงสัยว่า "ความหมาย" หรือ "แรงจูงใจ" เบื้องหลังการเพิ่มความคาดหวังมีคำอธิบายบางอย่างในแง่ของทฤษฎีข้อมูลและสถิติที่เพียงพอ หากมีคำอธิบายดังกล่าวที่จะพอใจมากกว่าเพียงแค่อัลกอริทึมนามธรรม

2
เราสามารถเห็นรูปร่างของเส้นโค้งปกติที่ใดที่หนึ่งในธรรมชาติหรือไม่?
ฉันไม่ต้องการทราบว่าปรากฏการณ์บางอย่างในธรรมชาติมีการแจกแจงแบบปกติหรือไม่ แต่เราสามารถเห็นรูปร่างของเส้นโค้งปกติที่ใดที่หนึ่งที่เราสามารถเห็นได้ในกล่อง Galton หรือไม่ ดูรูปนี้จากWikipedia โปรดทราบว่ารูปร่างหรือเส้นโค้งทางคณิตศาสตร์จำนวนมากสามารถมองเห็นได้โดยตรงในธรรมชาติตัวอย่างเช่นค่าเฉลี่ยสีทองและเกลียวลอการิทึมสามารถพบได้ในหอยทาก คำตอบที่ไร้เดียงสาอันดับแรกคือไม่ว่าเนินเขาที่ไม่ถูกต้องมักจะ "พอดี" การกระจายแบบปกติ :-)

1
ตัวแปรสุ่มมีความสัมพันธ์หากว่าอันดับของพวกเขามีความสัมพันธ์กันหรือไม่
สมมติว่าเป็นตัวแปรสุ่มแบบต่อเนื่องโดยมีช่วงเวลาที่ จำกัด ประชากรรุ่นของสเปียร์แมนยศค่าสัมประสิทธิ์สหสัมพันธ์สามารถกำหนดเป็นผลิตภัณฑ์ที่ช่วงเวลาที่มีค่าสัมประสิทธิ์ρของเพียร์สันน่าจะเป็นปริพันธ์แปลงF_X (X)และF_Y (Y)ที่F_X, F_Yเป็น CDF ของXและYคือρ s F X ( X ) F Y ( Y ) F X , F Y X YX, วายX,YX,Yρsρsρ_sFX( X)FX(X)F_X(X)FY( Y)FY(Y)F_Y(Y)FX, FYFX,FYF_X,F_YXXXYYY ρs( X, วาย) = ρ ( F( X) , F( Y) )ρs(X,Y)=ρ(F(X),F(Y))ρ_s(X,Y)=ρ(F(X),F(Y))(Y)) ฉันสงสัยว่าคนทั่วไปสามารถสรุปได้หรือไม่ ρ (X, วาย) ≠ 0 ↔ ρ …

2
อัลกอริทึม EM ดำเนินการด้วยตนเอง
ฉันต้องการใช้อัลกอริทึม EM ด้วยตนเองแล้วเปรียบเทียบกับผลลัพธ์normalmixEMของmixtoolsแพ็คเกจ แน่นอนฉันจะมีความสุขถ้าพวกเขาทั้งสองนำไปสู่ผลลัพธ์เดียวกัน อ้างอิงหลักคือเจฟฟรีย์ McLachlan (2000) จำกัด ผสมรุ่น ฉันมีความหนาแน่นของสอง Gaussians ในรูปแบบทั่วไปบันทึกความเป็นไปได้ที่ได้รับ (McLachlan หน้า 48): logLc(Ψ)=∑i=1g∑j=1nzij{logπi+logfi(yi;θi)}.log⁡Lc(Ψ)=∑i=1g∑j=1nzij{log⁡πi+log⁡fi(yi;θi)}. \log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}. เป็นถ้าสังเกตได้จาก THความหนาแน่นของส่วนประกอบมิฉะนั้น0คือความหนาแน่นของการกระจายปกติ เป็นสัดส่วนผสมดังนั้นความน่าจะเป็นที่สังเกตจากการกระจายแบบเกาส์เป็นครั้งแรกและความน่าจะเป็นที่สังเกตจากการกระจายเสียนที่สองzijzijz_{ij}111ผมผมi000ฉผมฉผมf_iππ\piπ1π1\pi_1π2π2\pi_2 Eขั้นตอนคือตอนนี้การคำนวณของความคาดหวังที่มีเงื่อนไข: Q ( Ψ ; Ψ( 0 )) = EΨ ( 0 ){ บันทึกLค( | Ψ ) | Y} .Q(Ψ;Ψ(0))=EΨ(0){เข้าสู่ระบบ⁡Lค(|Ψ)|Y}. Q(\Psi;\Psi^{(0)}) …

4
การแจกแจงปัวซงทำงานอย่างไรเมื่อสร้างแบบจำลองข้อมูลต่อเนื่องและทำให้ข้อมูลสูญหาย
เพื่อนร่วมงานกำลังวิเคราะห์ข้อมูลทางชีววิทยาบางอย่างเพื่อทำวิทยานิพนธ์ของเธอด้วย Heteroscedasticity ที่น่ารังเกียจ (ดังรูปด้านล่าง) เธอวิเคราะห์ด้วยโมเดลผสม แต่ยังคงมีปัญหากับส่วนที่เหลือ การเปลี่ยนบันทึกการตอบสนองตัวแปรการทำความสะอาดสิ่งต่าง ๆ ขึ้นอยู่กับความคิดเห็นของคำถามนี้ดูเหมือนจะเป็นวิธีการที่เหมาะสม อย่างไรก็ตามในขั้นต้นเราคิดว่ามีปัญหาในการใช้ตัวแปรที่แปลงแล้วกับตัวแบบผสม ปรากฎว่าเราตีความคำแถลงผิด ๆ ในSASของ Littell &amp; Milliken (2006) สำหรับแบบจำลองผสมซึ่งชี้ให้เห็นว่าเหตุใดจึงไม่เหมาะสมในการแปลงข้อมูลการนับและวิเคราะห์ด้วยแบบจำลองเชิงเส้นเชิงเส้นปกติ(ใบเสนอราคาเต็มด้านล่าง) . วิธีการที่ปรับปรุงส่วนที่เหลือคือการใช้โมเดลเชิงเส้นทั่วไปกับการแจกแจงปัวซอง ฉันได้อ่านแล้วว่าการแจกแจงปัวซงสามารถใช้สำหรับการสร้างแบบจำลองข้อมูลต่อเนื่อง (เช่นที่กล่าวถึงในโพสต์นี้) และแพคเกจสถิติอนุญาต แต่ฉันไม่เข้าใจว่าเกิดอะไรขึ้นเมื่อแบบจำลองนั้นพอดี เพื่อจุดประสงค์ในการทำความเข้าใจวิธีการคำนวณที่แฝงอยู่คำถามของฉันคือ: เมื่อคุณใส่การแจกแจงแบบปัวซงเป็นข้อมูลแบบต่อเนื่อง1)ข้อมูลจะถูกปัดเศษเป็นจำนวนเต็มที่ใกล้ที่สุด2) หรือไม่3)เมื่อใดควรใช้แบบจำลองปัวซองสำหรับข้อมูลต่อเนื่องหรือไม่ Littel &amp; Milliken 2006, pg 529 "การแปลงข้อมูล [count] อาจเป็นการต่อต้านตัวอย่างเช่นการแปลงสามารถบิดเบือนการแจกแจงของเอฟเฟกต์แบบสุ่มหรือความเป็นเชิงเส้นของโมเดลที่สำคัญกว่าการแปลงข้อมูลยังคงเปิดโอกาส ของจำนวนที่คาดการณ์เชิงลบดังนั้นการอนุมานจากตัวแบบผสมที่ใช้ข้อมูลที่แปลงแล้วเป็นที่น่าสงสัยอย่างมาก "

3
การเชื่อมต่อระหว่างตัวชี้วัดฟิชเชอร์และเอนโทรปีสัมพัทธ์
บางคนสามารถพิสูจน์การเชื่อมต่อต่อไปนี้ระหว่างตัวชี้วัดข้อมูลฟิชเชอร์กับเอนโทรปีสัมพัทธ์ (หรือ KL divergence) อย่างเคร่งครัดทางคณิตศาสตร์อย่างหมดจด? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3)= ( 1 , ... , n ) , วันที่= ( วันที่1 , ... , วันที่n ) กรัมฉัน, J = ∫ ∂ ฉัน ( เข้าสู่ระบบP ( x ; a ) …

4
การเปลี่ยนรูปเพื่อเพิ่มความโด่งและความเบ้ของค่าปกติ
ฉันกำลังทำงานกับอัลกอริทึมที่อาศัยข้อเท็จจริงที่ว่าการสังเกตของนั้นได้รับการแจกแจงตามปกติและฉันต้องการที่จะทดสอบความทนทานของอัลกอริทึมกับสมมติฐานนี้โดยประจักษ์YYY การทำเช่นนี้ผมกำลังมองหาลำดับของการเปลี่ยนแปลงที่จะมีความก้าวหน้าทำลายปกติของYตัวอย่างเช่นถ้าเป็นเรื่องปกติพวกเขาจะมีความเบ้และ kurtosisและมันจะเป็นการดีที่จะหาลำดับของการเปลี่ยนแปลงที่เพิ่มขึ้นอย่างต่อเนื่องY Y = 0 = 3T1( ) , … , Tn( )T1(),…,Tn()T_1(), \dots, T_n()YYYYYY= 0=0= 0= 3=3= 3 ความคิดของฉันคือการจำลองข้อมูลที่กระจายโดยประมาณประมาณและทดสอบอัลกอริทึมในนั้น กว่าอัลกอริธึมการทดสอบในชุดข้อมูลที่ถูกแปลงแต่ละชุดเพื่อดูว่าเอาต์พุตมีการเปลี่ยนแปลงมากน้อยเพียงใดYYYT1( Y) , … , Tn( y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y) โปรดสังเกตว่าฉันไม่ได้ควบคุมการกระจายตัวของจำลองดังนั้นฉันไม่สามารถจำลองพวกมันโดยใช้การแจกแจงที่วางตัวแบบปกติ (เช่นการกระจายข้อผิดพลาดทั่วไปแบบเบ้)YYY

1
คำเตือน libsvm“ ถึงจำนวนสูงสุดของการวนซ้ำ” และการตรวจสอบความถูกต้องข้าม
ฉันกำลังใช้ libsvm ในโหมด C-SVC กับเคอร์เนลโพลิโนเมียลระดับ 2 และฉันต้องฝึก SVM หลายตัว ชุดฝึกอบรมแต่ละชุดมี 10 คุณสมบัติและ 5,000 เวกเตอร์ ในระหว่างการฝึกอบรมฉันได้รับคำเตือนนี้สำหรับ SVM ส่วนใหญ่ที่ฉันฝึก: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 มีคนช่วยอธิบายอธิบายคำเตือนนี้ได้อย่างไรและอาจจะหลีกเลี่ยงได้อย่างไร ฉันต้องการใช้การตรวจสอบข้ามสำหรับรุ่นของฉันเพื่อกำหนดตัวเลือกที่ดีที่สุดสำหรับแกมม่าและ C แผนของฉันคือลองใช้การรวมกันของค่า 10 ค่าเหล่านี้: 0.00001, 0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1,000, 10,000, 10,000 สำหรับพารามิเตอร์ทั้งสองและดูว่าชุดค่าผสมใดให้ความแม่นยำที่ดีที่สุดระหว่างการตรวจสอบ เพียงพอหรือไม่ ฉันควรใช้ค่ามากขึ้นในช่วงเวลานี้หรือฉันควรเลือกช่วงเวลาที่กว้างขึ้น?

5
จับคู่กับการทดสอบ t แบบไม่จับคู่
สมมติว่าฉันมีหนู 20 ตัว ฉันจับคู่เมาส์ด้วยวิธีใดวิธีหนึ่งเพื่อให้ได้ 10 คู่ สำหรับจุดประสงค์ของคำถามนี้อาจเป็นการจับคู่แบบสุ่มหรืออาจเป็นการจับคู่ที่เหมาะสมเช่นพยายามจับคู่หนูจากครอกเดียวกันที่มีเพศเดียวกันมีน้ำหนักเท่ากันหรืออาจเป็นการจับคู่ที่โง่อย่างจงใจ พยายามจับคู่หนูด้วยน้ำหนักที่ไม่เท่าที่ควรจะเป็น จากนั้นฉันใช้ตัวเลขสุ่มเพื่อกำหนดเมาส์หนึ่งตัวในแต่ละคู่ให้กับกลุ่มควบคุมและอีกเมาส์หนึ่งไปยังกลุ่มที่ต้องปฏิบัติ ตอนนี้ฉันทำการทดลองโดยรักษาเฉพาะหนูที่จะได้รับการรักษา แต่อย่างอื่นก็ไม่ได้สนใจว่าจะมีการเตรียมการอะไรก็ตาม เมื่อมีใครมาวิเคราะห์ผลลัพธ์คนหนึ่งอาจใช้การทดสอบ t แบบไม่คู่หรือการทดสอบแบบจับคู่ ถ้ามีคำตอบจะแตกต่างกันอย่างไร? (โดยทั่วไปฉันสนใจในความแตกต่างอย่างเป็นระบบของพารามิเตอร์ทางสถิติใด ๆ ที่จำเป็นต้องมีการประมาณ) เหตุผลที่ฉันถามสิ่งนี้คือกระดาษที่ฉันเพิ่งมีส่วนร่วมถูกวิพากษ์วิจารณ์จากนักชีววิทยาในการใช้การทดสอบแบบจับคู่ t-test มากกว่าการทดสอบแบบไม่มีคู่ แน่นอนในการทดลองจริงสถานการณ์ไม่ได้รุนแรงอย่างที่สถานการณ์ฉันร่างไว้และในความคิดของฉันเหตุผลที่ดีสำหรับการจับคู่ แต่นักชีววิทยาไม่เห็นด้วย ฉันคิดว่ามันเป็นไปไม่ได้ที่จะปรับปรุงนัยสำคัญทางสถิติอย่างไม่ถูกต้อง (ลดค่า p) ในสถานการณ์ที่ฉันร่างโดยใช้การทดสอบแบบจับคู่ t- การทดสอบมากกว่าการทดสอบแบบไม่มีคู่แม้ว่ามันจะไม่เหมาะสมในการจับคู่ อย่างไรก็ตามมันอาจแย่ลงอย่างมีนัยสำคัญทางสถิติถ้าหนูถูกจับคู่ไม่ดี ถูกต้องหรือไม่

1
ทำไมการตัดแต่งกิ่งจึงไม่จำเป็นสำหรับต้นไม้ป่าแบบสุ่ม?
Breiman กล่าวว่าต้นไม้นั้นโตโดยไม่ต้องตัดแต่งกิ่ง ทำไม? ฉันหมายความว่าต้องมีเหตุผลที่ชัดเจนว่าทำไมต้นไม้ในป่าสุ่มไม่ถูกตัด ในทางกลับกันก็ถือว่าสำคัญมากที่จะตัดต้นไม้การตัดสินใจเดียวเพื่อหลีกเลี่ยงการกระชับ มีวรรณกรรมให้อ่านด้วยเหตุผลนี้ไหม แน่นอนว่าต้นไม้อาจไม่มีความสัมพันธ์กัน แต่ก็ยังมีความเป็นไปได้ที่จะเกิดความเหมาะสม

3
ฉันจะใช้การทดสอบอะไรเพื่อยืนยันว่ามีการกระจายสารตกค้างตามปกติ
ฉันมีข้อมูลบางอย่างซึ่งดูจากการพล็อตกราฟของส่วนที่เหลือเทียบกับเวลาเกือบปกติ แต่ฉันต้องการให้แน่ใจ ฉันจะทดสอบความเป็นปกติของข้อผิดพลาดที่เหลือได้อย่างไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.