สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
การทำให้เป็นมาตรฐานของ Quantile ทำงานอย่างไร?
ในการศึกษาการแสดงออกของยีนโดยใช้ microarrays ข้อมูลความเข้มจะต้องเป็นมาตรฐานเพื่อให้ความเข้มสามารถเปรียบเทียบระหว่างบุคคลระหว่างยีน แนวคิดและอัลกอริทึมทำงาน "การทำให้เป็นมาตรฐานของควอไทล์" ได้อย่างไรและคุณจะอธิบายสิ่งนี้กับนักสถิติได้อย่างไร

8
วิธีการไม่ใช้สถิติ
นี่เป็นคำถามปลายเปิด แต่ฉันต้องการชัดเจน เมื่อพิจารณาจากจำนวนประชากรที่เพียงพอคุณอาจเรียนรู้บางสิ่งบางอย่าง (นี่เป็นส่วนที่เปิด) แต่อะไรก็ตามที่คุณเรียนรู้เกี่ยวกับประชากรของคุณเมื่อใดที่จะใช้กับสมาชิกของประชากรได้? จากสิ่งที่ฉันเข้าใจเกี่ยวกับสถิติมันไม่สามารถใช้ได้กับสมาชิกคนเดียวของประชากร แต่ทั้งหมดฉันมักจะพบว่าตัวเองอยู่ในการสนทนาที่คนอื่นไป "ฉันอ่านว่า 10% ของประชากรโลกมีโรคนี้" และยังคง สรุปได้ว่าทุกคนที่สิบในห้องมีโรคนี้ ฉันเข้าใจว่าสิบคนในห้องนี้ไม่ได้เป็นตัวอย่างที่ใหญ่พอสำหรับสถิติที่เกี่ยวข้อง แต่ดูเหมือนจะไม่มาก จากนั้นมีสิ่งนี้เกี่ยวกับตัวอย่างที่มีขนาดใหญ่พอ คุณจำเป็นต้องสำรวจประชากรจำนวนมากพอที่จะได้รับสถิติที่เชื่อถือได้ แม้ว่านี่จะไม่เป็นสัดส่วนกับความซับซ้อนของสถิติหรือไม่ หากฉันวัดบางสิ่งที่หายากมากนั่นไม่ได้หมายความว่าฉันต้องการตัวอย่างที่ใหญ่กว่ามากเพื่อให้สามารถระบุความเกี่ยวข้องสำหรับสถิติดังกล่าวได้หรือไม่ ฉันถามคำถามถึงความถูกต้องของหนังสือพิมพ์หรือบทความใด ๆ เมื่อเกี่ยวข้องกับสถิติพวกเขาใช้วิธีสร้างความมั่นใจ นั่นเป็นพื้นหลังเล็กน้อย กลับไปที่คำถามในสิ่งที่วิธีที่คุณสามารถไม่ได้หรือคุณอาจไม่ใช้สถิติในรูปแบบการโต้แย้ง ฉันปฏิเสธคำถามเพราะฉันต้องการค้นหาข้อมูลเพิ่มเติมเกี่ยวกับความเข้าใจผิดทั่วไปเกี่ยวกับสถิติ

2
อะไรคือความแตกต่างระหว่าง“ การสร้างแบบผสมเอฟเฟ็กต์” และ“ การสร้างแบบจำลองการเติบโตแบบแฝง”?
ฉันคุ้นเคยกับโมเดลมิกซ์เอฟเฟกต์ (MEM) แต่เพื่อนร่วมงานคนหนึ่งเพิ่งถามฉันว่ามันเปรียบเทียบกับโมเดลการเติบโตที่ซ่อนเร้น (LGM) อย่างไร ฉันทำ googling นิดหน่อยและดูเหมือนว่า LGM เป็นตัวแปรของการสร้างแบบจำลองสมการโครงสร้างที่ใช้กับสถานการณ์ที่ได้รับมาตรการซ้ำ ๆ ในแต่ละระดับอย่างน้อยหนึ่งเอฟเฟกต์แบบสุ่มดังนั้นเวลาจึงเป็นผลคงที่ในแบบจำลอง มิฉะนั้น MEM และ LGM ดูเหมือนจะค่อนข้างคล้ายกัน (เช่นพวกเขาทั้งคู่อนุญาตให้สำรวจโครงสร้างความแปรปรวนร่วมที่แตกต่างกัน ฯลฯ ) ฉันถูกต้องหรือไม่ว่า LGM เป็นกรณีพิเศษของ MEM หรือมีความแตกต่างระหว่างสองแนวทางที่เกี่ยวกับสมมติฐานหรือความสามารถในการประเมินทฤษฎีประเภทต่าง ๆ หรือไม่?

1
GSVD ใช้เทคนิคหลายตัวแปรเชิงเส้นทั้งหมดหรือไม่
ฉันเจอบทความโดยHervé Abdiเกี่ยวกับ SVD ทั่วไป ผู้เขียนกล่าวถึง: SVD ทั่วไป (GSVD) จะสลายเมทริกซ์สี่เหลี่ยมและคำนึงถึงข้อ จำกัด ทางบัญชีที่กำหนดในแถวและคอลัมน์ของเมทริกซ์ GSVD ให้การประมาณค่าน้ำหนักน้อยที่สุดแบบทั่วไปของเมทริกซ์ที่กำหนดโดยเมทริกซ์อันดับที่ต่ำกว่าดังนั้นด้วยการเลือกข้อ จำกัด ที่เพียงพอ GSVD ใช้เทคนิคหลายตัวแปรเชิงเส้นทั้งหมด (เช่นความสัมพันธ์แบบแคนนอน, การวิเคราะห์เชิงเส้น -regression) ฉันสงสัยว่า GSVD เกี่ยวข้องกับเทคนิคหลายตัวแปรเชิงเส้นทั้งหมด (เช่นสหสัมพันธ์แบบแคนนอน, การวิเคราะห์จำแนกเชิงเส้น, การวิเคราะห์เชิงเส้น, การวิเคราะห์จดหมาย, PLS-regression)

1
จะตรวจสอบแบบจำลองใดได้ดีกว่าในการวิเคราะห์อนุกรมเวลาในสภาวะอวกาศ?
ฉันกำลังทำการวิเคราะห์ข้อมูลอนุกรมเวลาโดยวิธีการของพื้นที่รัฐ ด้วยข้อมูลของฉันแบบจำลองระดับท้องถิ่นแบบสุ่มที่ทำได้ดีกว่าแบบกำหนดแน่นอน แต่แบบกำหนดระดับและแบบลาดชันให้ผลลัพธ์ที่ดีกว่าระดับสุ่มและความชันแบบสุ่ม เป็นเรื่องปกติหรือไม่ วิธีการทั้งหมดใน R ต้องการค่าเริ่มต้นและฉันอ่านบางแห่งที่เหมาะสมกับแบบจำลอง ARIMA ก่อนและรับค่าจากที่นั่นเนื่องจากค่าเริ่มต้นสำหรับการวิเคราะห์พื้นที่ของรัฐเป็นวิธีหนึ่ง ไปได้หรือไม่ หรือข้อเสนออื่น ๆ ? ฉันควรสารภาพที่นี่ว่าฉันใหม่ทั้งหมดในการวิเคราะห์พื้นที่ของรัฐ

2
วิธีการลงจุดวงรีจากค่าลักษณะเฉพาะและค่าลักษณะเฉพาะใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา มีใครมากับรหัสRเพื่อพล็อตวงรีจากค่าลักษณะเฉพาะและ eigenvectors ของเมทริกซ์ต่อไปนี้ A = ( 2.20.40.42.8)A=(2.20.40.42.8) \mathbf{A} = \left( \begin{array} {cc} 2.2 & 0.4\\ 0.4 & 2.8 \end{array} \right)

3
การใช้ระยะทางแมนฮัตตันกับการเชื่อมโยงระหว่างคลัสเตอร์ของวอร์ดในการจัดกลุ่มตามลำดับชั้นเป็นเรื่องที่ดีหรือไม่?
ฉันใช้การจัดกลุ่มแบบลำดับชั้นเพื่อวิเคราะห์ข้อมูลอนุกรมเวลา รหัสของฉันถูกนำไปใช้โดยใช้ฟังก์ชั่นMathematicaDirectAgglomerate[...]ซึ่งสร้างกลุ่มแบบลำดับชั้นซึ่งกำหนดอินพุตต่อไปนี้: เมทริกซ์ระยะทาง D ชื่อของวิธีการที่ใช้เพื่อกำหนดการเชื่อมโยงระหว่างคลัสเตอร์ ฉันคำนวณระยะทางเมทริกซ์ D โดยใช้ระยะทางแมนฮัตตัน: d(x,y)=∑i|xi−yi|d(x,y)=∑i|xi−yi|d(x,y) = \sum_i|x_i - y_i| โดยที่และn ≈ 150คือจำนวนจุดข้อมูลในอนุกรมเวลาของฉันi=1,⋯,ni=1,⋯,ni = 1,\cdots, nn≈150n≈150n \approx 150 คำถามของฉันคือการใช้การเชื่อมโยงระหว่างคลัสเตอร์ของวอร์ดกับแมนฮัตตันนั้น แหล่งข้อมูลบางแหล่งชี้ให้เห็นว่าการเชื่อมโยงของวอร์ดควรใช้กับระยะยูคลิดเท่านั้น โปรดทราบว่าDirectAgglomerate[...]คำนวณการเชื่อมโยงของ Ward โดยใช้เมทริกซ์ระยะทางเท่านั้นไม่ใช่แบบสำรวจดั้งเดิม น่าเสียดายที่ฉันไม่แน่ใจว่าMathematicaแก้ไขอัลกอริทึมดั้งเดิมของ Ward ซึ่ง (จากความเข้าใจของฉัน) ทำงานอย่างไรโดยการลดผลรวมของข้อผิดพลาดของกำลังสองของการสังเกตให้เหลือน้อยที่สุดซึ่งคำนวณโดยเทียบกับค่าเฉลี่ยของคลัสเตอร์ ตัวอย่างเช่นสำหรับคลัสเตอร์ที่ประกอบด้วยเวกเตอร์ของการสังเกตแบบ univariate Ward จะกำหนดผลรวมข้อผิดพลาดของกำลังสองเป็น:ccc (∑j||cj−mean(c)||2)2(∑j||cj−mean(c)||2)2(\sum_j||c_j - mean(c)||_2)^2 (เครื่องมือซอฟต์แวร์อื่น ๆ เช่น Matlab และ R ยังใช้การจัดกลุ่มของ Ward โดยใช้เมทริกซ์ระยะทางดังนั้นคำถามจึงไม่เฉพาะเจาะจงกับ Mathematica)

1
การทำคลัสเตอร์: ฉันควรใช้ Jensen-Shannon Divergence หรือจตุรัสของมันหรือไม่?
ฉันจัดกลุ่มการแจกแจงความน่าจะเป็นโดยใช้อัลกอริธึมการขยายความสัมพันธ์และฉันวางแผนที่จะใช้ Jensen-Shannon Divergence เป็นตัวชี้วัดระยะทางของฉัน มันถูกต้องหรือไม่ที่จะใช้ JSD เป็นระยะทางหรือ JSD กำลังสอง? ทำไม? ความแตกต่างอะไรจะเป็นผลมาจากการเลือกอย่างใดอย่างหนึ่ง?

1
มีข้อแตกต่างระหว่างคำว่า“ paired t-test” และ“ pairwise t-test” หรือไม่?
การทดสอบจับคู่แบบคู่คืออะไรและภายใต้สถานการณ์ใดที่ฉันควรใช้การทดสอบแบบจับคู่ มีความแตกต่างระหว่าง paired t-test และ pairwise t-test หรือไม่

2
การเชื่อมต่อระหว่างสถิติแบบเบย์และแบบจำลองกำเนิด
ใครสามารถแนะนำฉันอ้างอิงที่ดีที่อธิบายการเชื่อมต่อระหว่างสถิติแบบเบย์และเทคนิคการสร้างแบบจำลองกำเนิด? ทำไมเรามักจะใช้แบบจำลองกำเนิดกับเทคนิคแบบเบย์? ทำไมมันจึงเป็นเรื่องน่าสนใจเป็นพิเศษที่จะใช้สถิติแบบเบย์ในกรณีที่ไม่มีข้อมูลที่สมบูรณ์ถ้าเลย? โปรดทราบว่าฉันมาจากมุมมองการเรียนรู้ของเครื่องมากขึ้นและฉันสนใจที่จะอ่านเพิ่มเติมเกี่ยวกับมันจากชุมชนสถิติ การอ้างอิงที่ดีที่กล่าวถึงประเด็นเหล่านี้จะได้รับการชื่นชมอย่างมาก ขอบคุณ

3
จะรวมข้อมูลนาทีเป็นเวลาหนึ่งสัปดาห์เป็นรายชั่วโมงได้อย่างไร
คุณจะได้รับค่าเฉลี่ยรายชั่วโมงสำหรับคอลัมน์ข้อมูลหลายรายการเป็นระยะเวลารายวันอย่างไรและแสดงผลลัพธ์สำหรับ "โฮสต์" สิบสองรายการในกราฟเดียวกัน นั่นคือฉันต้องการกราฟว่าระยะเวลา 24 ชั่วโมงเป็นอย่างไรสำหรับสัปดาห์ที่มีค่าของข้อมูล เป้าหมายสุดท้ายคือการเปรียบเทียบข้อมูลสองชุดนี้ก่อนและหลังการสุ่มตัวอย่าง dates Host CPUIOWait CPUUser CPUSys 1 2011-02-11 23:55:12 db 0 14 8 2 2011-02-11 23:55:10 app1 0 6 1 3 2011-02-11 23:55:09 app2 0 4 1 ฉันสามารถเรียกใช้ xyplot (CPUUser ~ เดท | โฮสต์) ได้ดี อย่างไรก็ตามแทนที่จะแสดงแต่ละวันในสัปดาห์ฉันต้องการให้แกน X เป็นชั่วโมงของวัน การพยายามนำข้อมูลนี้ไปไว้ในวัตถุ xts ทำให้เกิดข้อผิดพลาดเช่น"order.by ต้องใช้วัตถุตามเวลาที่เหมาะสม" นี่คือ str …

5
ความแตกต่างระหว่างคำว่า 'การกระจายแบบร่วม' และ 'การกระจายแบบหลายตัวแปร' หรือไม่?
ฉันกำลังเขียนเกี่ยวกับการใช้ 'การแจกแจงความน่าจะเป็นร่วม' สำหรับผู้ชมที่มีแนวโน้มที่จะเข้าใจ 'การกระจายหลายตัวแปร' ดังนั้นฉันจึงพิจารณาใช้ในภายหลัง อย่างไรก็ตามฉันไม่ต้องการคลายความหมายขณะทำสิ่งนี้ Wikipediaดูเหมือนจะบ่งบอกว่าสิ่งเหล่านี้เป็นคำพ้องความหมาย ที่พวกเขา? ถ้าไม่ทำไมล่ะ

2
ความเบ้เคลื่อนไหวแบบเอกซ์โพเนนเชียล
มีที่รู้จักกันดีสูตรในบรรทัดสำหรับการคำนวณถ่วงน้ำหนักชี้แจงค่าเฉลี่ยเคลื่อนที่และค่าเบี่ยงเบนมาตรฐานของกระบวนการ(xn)n=0,1,2,…(xn)n=0,1,2,…(x_n)_{n=0,1,2,\dots} ... สำหรับค่าเฉลี่ย μn=(1−α)μn−1+αxnμn=(1−α)μn−1+αxn\mu_n = (1-\alpha) \mu_{n-1} + \alpha x_n และสำหรับความแปรปรวน σ2n=(1−α)σ2n−1+α(xn−μn−1)(xn−μn)σn2=(1−α)σn−12+α(xn−μn−1)(xn−μn)\sigma_n^2 = (1-\alpha) \sigma_{n-1}^2 + \alpha(x_n - \mu_{n-1})(x_n - \mu_n) ซึ่งคุณสามารถคำนวณค่าเบี่ยงเบนมาตรฐานได้ มีสูตรที่คล้ายกันสำหรับการคำนวณแบบออนไลน์ของช่วงเวลาที่สามและสี่ที่ศูนย์กลางถ่วงน้ำหนักแบบเอ็กซ์โปเนนเชียลหรือไม่? สัญชาตญาณของฉันคือพวกเขาควรจะใช้แบบฟอร์ม M3,n=(1−α)M3,n−1+αf(xn,μn,μn−1,Sn,Sn−1)M3,n=(1−α)M3,n−1+αf(xn,μn,μn−1,Sn,Sn−1)M_{3,n} = (1-\alpha) M_{3,n-1} + \alpha f(x_n,\mu_n,\mu_{n-1},S_n,S_{n-1}) และ M4,n=(1−α)M4,n−1+αf(xn,μn,μn−1,Sn,Sn−1,M3,n,M3,n−1)M4,n=(1−α)M4,n−1+αf(xn,μn,μn−1,Sn,Sn−1,M3,n,M3,n−1)M_{4,n} = (1-\alpha) M_{4,n-1} + \alpha f(x_n,\mu_n,\mu_{n-1},S_n,S_{n-1},M_{3,n},M_{3,n-1}) ซึ่งคุณสามารถคำนวณความเบ้γn=M3,n/σ3nγn=M3,n/σn3\gamma_n = M_{3,n} / \sigma_n^3และ kurtosis kn=M4,n/σ4nkn=M4,n/σn4k_n = M_{4,n}/\sigma_n^4แต่ฉันไม่สามารถหานิพจน์แบบปิดแบบง่ายสำหรับฟังก์ชั่นfffและGggg แก้ไข:ข้อมูลเพิ่มเติมบางอย่าง สูตรการอัพเดทสำหรับความแปรปรวนการเคลื่อนย้ายเป็นกรณีพิเศษของสูตรสำหรับการแปรปรวนร่วมแบบถ่วงน้ำหนักแบบเอ็กซ์โปเนนเชียลซึ่งสามารถคำนวณได้ผ่าน …

3
การแนะนำที่ดีกับอนุกรมเวลา (พร้อม R)
ขณะนี้ฉันกำลังรวบรวมข้อมูลสำหรับการทดลองในลักษณะทางจิตสังคมที่เกี่ยวข้องกับประสบการณ์ความเจ็บปวด เป็นส่วนหนึ่งของเรื่องนี้ฉันกำลังรวบรวมการวัด GSR และ BP ทางอิเล็กทรอนิกส์จากผู้เข้าร่วมของฉันพร้อมกับรายงานตนเองและมาตรการโดยนัย ฉันมีภูมิหลังทางจิตวิทยาและรู้สึกสบายใจกับการวิเคราะห์ปัจจัยตัวแบบเชิงเส้นและการวิเคราะห์เชิงทดลอง คำถามของฉันคือทรัพยากรที่มีประโยชน์ (ฟรี) ที่ดีสำหรับการเรียนรู้เกี่ยวกับการวิเคราะห์อนุกรมเวลา ฉันเป็น newb รวมเมื่อมันมาถึงพื้นที่นี้ดังนั้นความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก ฉันมีข้อมูลนำร่องที่จะฝึกปฏิบัติ แต่ต้องการให้แผนวิเคราะห์ของฉันทำงานโดยละเอียดก่อนที่ฉันจะรวบรวมข้อมูลให้เสร็จ หากการอ้างอิงที่ให้นั้นเกี่ยวข้องกับ R นั่นก็คงจะวิเศษมาก แก้ไข: เพื่อเปลี่ยนไวยากรณ์และเพื่อเพิ่ม 'รายงานตนเองและมาตรการโดยนัย'

5
Hessian เชิงประจักษ์ของ M-estimator สามารถไม่มีกำหนดได้หรือไม่?
Jeffrey Wooldridge ในการวิเคราะห์เศรษฐมิติของเขาเกี่ยวกับการตัดขวางและข้อมูลพาเนล (หน้า 357) กล่าวว่า Hessian เชิงประจักษ์ "ไม่รับประกันว่าจะแน่นอนแน่นอนหรือแม้กระทั่ง semidefinite บวกสำหรับตัวอย่างเฉพาะที่เรากำลังทำงานอยู่" นี่ดูเหมือนว่าผิดสำหรับฉัน (ปัญหาเชิงตัวเลขแยกกัน) Hessian จะต้องเป็น semidefinite เชิงบวกอันเป็นผลมาจากคำจำกัดความของ M-estimator ว่าเป็นค่าของพารามิเตอร์ที่ลดฟังก์ชั่นวัตถุประสงค์สำหรับตัวอย่างที่ได้รับและความจริงที่รู้จักกันดีว่า อย่างน้อยที่สุด (ในพื้นที่) Hessian นั้นเป็น semidefinite ที่เป็นบวก ข้อโต้แย้งของฉันถูกต้องหรือไม่ [แก้ไข: คำสั่งถูกลบในฉบับที่ 2 ของหนังสือ ดูความคิดเห็น] ภูมิหลังสมมติว่าθ Nเป็นประมาณการที่ได้รับโดยการลด 1θˆNθ^N\widehat \theta_N1N∑i=1Nq(wi,θ),1N∑i=1Nq(wi,θ),{1 \over N}\sum_{i=1}^N q(w_i,\theta), ที่wiwiw_iหมายถึงiiiสังเกต -th เรามาแทน Hessian ของด้วย , qqqHHHH(q,θ)ij=∂2q∂θi∂θjH(q,θ)ij=∂2q∂θi∂θjH(q,\theta)_{ij}=\frac{\partial^2 q}{\partial \theta_i \partial \theta_j} ความแปรปรวนร่วมซีมโทติคของเกี่ยวข้องกับโดยที่เป็นค่าพารามิเตอร์ที่แท้จริง …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.