สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
เหตุใดการกำหนดค่าตัวแปรอิสระให้อยู่ตรงกลางสามารถเปลี่ยนเอฟเฟกต์หลักด้วยการควบคุมได้
ฉันมีคำถามเกี่ยวกับการถดถอยหลายครั้งและการมีปฏิสัมพันธ์ซึ่งได้รับแรงบันดาลใจจากหัวข้อ CV นี้: คำที่ใช้โต้ตอบโดยใช้ตัวแปรกึ่งกลางการวิเคราะห์การถดถอยแบบลำดับชั้น? ตัวแปรใดที่เราควรตั้งศูนย์ เมื่อตรวจสอบเอฟเฟกต์การกลั่นกรองฉันจะวางตัวแปรอิสระไว้ที่กึ่งกลางและคูณตัวแปรกึ่งกลางเพื่อคำนวณระยะการโต้ตอบของฉัน จากนั้นฉันเรียกใช้การวิเคราะห์การถดถอยและตรวจสอบผลหลักและการโต้ตอบซึ่งอาจแสดงการกลั่นกรอง ถ้าฉันทำการวิเคราะห์ซ้ำโดยไม่อยู่ตรงกลางเห็นได้ชัดว่าสัมประสิทธิ์การตัดสินใจ ( ) ไม่เปลี่ยนแปลง แต่สัมประสิทธิ์การถดถอย ( s) ทำ ที่ดูเหมือนชัดเจนและมีเหตุผลR2R2R^2ββ\beta สิ่งที่ฉันไม่เข้าใจ: ค่า p ของเอฟเฟ็กต์หลักเปลี่ยนไปอย่างมากเมื่ออยู่กึ่งกลางแม้ว่าการโต้ตอบไม่ได้ (ซึ่งถูกต้อง) ดังนั้นการตีความของฉันเกี่ยวกับเอฟเฟ็กต์หลักอาจเปลี่ยนไปอย่างมาก - เพียงแค่กำหนดโดยการอยู่กึ่งกลาง (มันยังคงเป็นข้อมูลเดียวกันในการวิเคราะห์ทั้งสอง!) บางคนสามารถอธิบายได้หรือไม่ - เพราะนั่นหมายความว่าตัวเลือกในการกำหนดตัวแปรของฉันให้อยู่ตรงกลางและทุกคนควรทำเพื่อให้ได้ผลลัพธ์เดียวกันกับข้อมูลเดียวกัน ขอบคุณมากสำหรับการแจกจ่ายให้กับปัญหานั้นและคำอธิบายที่ครอบคลุมของคุณ มั่นใจได้ว่าความช่วยเหลือของคุณได้รับการชื่นชมอย่างมาก! สำหรับฉันประโยชน์ที่ใหญ่ที่สุดของการอยู่ตรงกลางคือการหลีกเลี่ยงความไม่ลงรอยกัน มันค่อนข้างสับสนที่จะสร้างกฎไม่ว่าจะอยู่กึ่งกลางหรือไม่ก็ตาม ความประทับใจของฉันคือทรัพยากรส่วนใหญ่แนะนำให้ศูนย์แม้ว่าจะมี "ความเสี่ยง" บางอย่างเมื่อทำมัน อีกครั้งฉันต้องการที่จะนำความจริงออกมาว่านักวิจัย 2 คนที่จัดการกับวัสดุและข้อมูลเดียวกันอาจสรุปผลลัพธ์ที่แตกต่างกันได้ ฉันเพิ่งอ่านบางส่วนของหนังสือโดย Bortz (เขาเป็นศาสตราจารย์และเป็นดาวสถิติในเยอรมนีและยุโรป) และเขาไม่ได้พูดถึงเทคนิคนั้น เพียงชี้ให้เห็นอย่างระมัดระวังในการตีความผลกระทบหลักของตัวแปรเมื่อพวกเขามีส่วนร่วมในการโต้ตอบ ท้ายที่สุดเมื่อคุณทำการถดถอยด้วยหนึ่ง IV หนึ่งโมเดอเรเตอร์ (หรือ IV ที่สอง) และ …

1
ความแตกต่างระหว่างอัลกอริธึมมาตรฐานและทรงกลม k-mean
ฉันต้องการเข้าใจว่าอะไรคือความแตกต่างที่สำคัญในการใช้งานระหว่างอัลกอริธึมการจัดกลุ่ม k-Mean แบบมาตรฐานและทรงกลม ในแต่ละขั้นตอน k-หมายถึงคำนวณระยะทางระหว่างเวกเตอร์องค์ประกอบและเซนทรอยด์ของคลัสเตอร์และกำหนดเอกสารให้กับคลัสเตอร์นี้อีกครั้งซึ่งเซนทรอยด์อยู่ใกล้ที่สุด จากนั้นเซนทรอยด์ทั้งหมดจะถูกคำนวณใหม่ ในรูป k k- หมายถึงเวกเตอร์ทั้งหมดจะถูกทำให้เป็นมาตรฐานและการวัดระยะทางเป็นความแตกต่างของโคไซน์ นั่นคือทั้งหมดหรือมีอย่างอื่นหรือไม่

4
ผูกพันกับความสัมพันธ์ของตัวแปรสุ่มสามตัว
มีสามตัวแปรสุ่มเป็นx,y,zx,y,zx,y,z Z ความสัมพันธ์สามประการระหว่างตัวแปรทั้งสามนั้นเหมือนกัน นั่นคือ, ρ=cor(x,y)=cor(x,z)=cor(y,z)ρ=cor(x,y)=cor(x,z)=cor(y,z)\rho=\textrm{cor}(x,y)=\textrm{cor}(x,z)=\textrm{cor}(y,z) แคบผูกคุณสามารถให้สำหรับคืออะไรρρ\rho ?

3
วิธีจัดการกับความหลากสีเมื่อทำการเลือกตัวแปร?
ฉันมีชุดข้อมูลที่มีตัวแปรอิสระต่อเนื่อง 9 ตัว ฉันกำลังพยายามเลือกระหว่างตัวแปรเหล่านี้เพื่อให้พอดีกับแบบจำลองกับตัวแปรเปอร์เซ็นต์ (ขึ้นอยู่) เดียว, Score. น่าเสียดายที่ฉันรู้ว่าจะมีความร่วมมือกันอย่างจริงจังระหว่างตัวแปรหลายตัว ฉันได้ลองใช้stepAIC()ฟังก์ชั่นใน R เพื่อเลือกตัวแปร แต่วิธีการนั้นดูแปลกไปตามลำดับที่ตัวแปรถูกแสดงในสมการ ... นี่คือรหัส R ของฉัน (เนื่องจากเป็นข้อมูลเปอร์เซ็นต์ฉันใช้การแปลง logit สำหรับคะแนน): library(MASS) library(car) data.tst = read.table("data.txt",header=T) data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) step = …

2
เหตุใด RSS จึงกระจายไคสแควร์ถึง np
ฉันต้องการที่จะเข้าใจว่าทำไมภายใต้รูปแบบ OLS ที่ RSS (ผลรวมที่เหลือของสี่เหลี่ยม) มีการกระจาย ( Pเป็นจำนวนของพารามิเตอร์ในรูปแบบที่nจำนวนสังเกต)χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn ฉันขอโทษที่ถามคำถามพื้นฐาน แต่ดูเหมือนว่าฉันจะไม่สามารถหาคำตอบออนไลน์ได้ (หรือในตำราเรียนที่เน้นการประยุกต์ใช้มากขึ้น)

3
ความแตกต่างระหว่างช่วงความมั่นใจและการทดสอบสมมติฐานคืออะไร
ฉันได้อ่านเกี่ยวกับการถกเถียงเกี่ยวกับการทดสอบสมมติฐาน กับนักวิจารณ์บางคนเสนอว่าไม่ควรใช้การทดสอบสมมติฐาน นักวิจารณ์บางคนแนะนำว่าควรใช้ช่วงความมั่นใจแทน ความแตกต่างระหว่างช่วงความมั่นใจและการทดสอบสมมติฐานคืออะไร คำอธิบายที่มีการอ้างอิงและตัวอย่างจะได้รับการชื่นชม

6
t-test สำหรับข้อมูลที่จับคู่บางส่วนและไม่ได้คู่บางส่วน
นักวิจัยต้องการสร้างการวิเคราะห์รวมของชุดข้อมูลหลายชุด ในชุดข้อมูลบางชุดมีการสังเกตแบบคู่สำหรับการรักษา A และ B ในชุดข้อมูลอื่น ๆ มีข้อมูล A และ / หรือ B ที่ไม่ได้รับการจับคู่ ฉันกำลังมองหาข้อมูลอ้างอิงสำหรับการปรับตัวของการทดสอบ t-test หรือการทดสอบอัตราส่วนความน่าจะเป็นสำหรับข้อมูลที่จับคู่บางส่วนเช่นนั้น ฉันยินดี (ตอนนี้) ที่จะยอมรับความเป็นมาตรฐานที่มีความแปรปรวนเท่ากันและประชากรมีความหมายสำหรับ A นั้นเท่ากันสำหรับการศึกษาแต่ละครั้ง (และเช่นเดียวกันสำหรับ B)

4
อะไรคือปัจจัยที่ทำให้การแจกแจงหลังเป็นเรื่องยาก
ในสถิติแบบเบย์มักถูกกล่าวถึงว่าการกระจายหลังนั้นเป็นไปไม่ได้ดังนั้นจึงต้องใช้การอนุมานโดยประมาณ อะไรคือปัจจัยที่ทำให้เกิดความไม่สะดวกนี้

4
วิธีลดขนาดใน R
ฉันมีเมทริกซ์โดยที่ (i, j) บอกฉันกี่ครั้งที่ฉันดูเพจ j มีบุคคล 27K และหน้า 95K ฉันต้องการ "มิติ" หรือ "แง่มุม" จำนวนหนึ่งในพื้นที่ของหน้าเว็บซึ่งจะสอดคล้องกับชุดของหน้าเว็บที่มักจะดูด้วยกัน เป้าหมายสูงสุดของฉันคือเพื่อให้สามารถคำนวณความถี่ที่แต่ละบุคคลที่ฉันได้ดูหน้าเว็บที่อยู่ในส่วนข้อมูล 1 ส่วนข้อมูล 2 และอื่น ๆ ฉันได้อ่านเอกสาร R เกี่ยวกับการวิเคราะห์องค์ประกอบหลักและการสลายตัวของค่าเดียวและดำเนินการคำสั่งเหล่านี้แล้ว แต่ฉันไม่แน่ใจว่าจะดำเนินการอย่างไร ฉันจะใช้การลดขนาดเพื่อทำสิ่งนี้ได้อย่างไร หรือนี่เป็นปัญหาการจัดกลุ่มจริง ๆ และฉันควรมองเข้าไปในอัลกอริทึมการจัดกลุ่มแทนหรือไม่ ขอบคุณมากสำหรับความเข้าใจใด ๆ ~ l

5
ทำไมฟังก์ชั่นเฉลี่ยในกระบวนการเสียนไม่น่าสนใจ
ฉันเพิ่งเริ่มอ่านเกี่ยวกับ GP และคล้ายกับการแจกแจงแบบเกาส์ทั่วไปมันมีลักษณะโดยฟังก์ชันเฉลี่ยและฟังก์ชันความแปรปรวนร่วมหรือเคอร์เนล ฉันกำลังคุยกันอยู่และผู้พูดพูดว่าฟังก์ชั่นเฉลี่ยนั้นค่อนข้างไม่น่าสนใจและใช้ความพยายามในการอนุมานเพื่อประเมินฟังก์ชั่นความแปรปรวนร่วมที่ถูกต้อง มีคนอธิบายให้ฉันฟังได้ไหม

8
กำลังมองหาหนังสือสถิติและความน่าจะเป็นที่ดีและสมบูรณ์
ฉันไม่เคยมีโอกาสไปเยี่ยมชมหลักสูตรสถิติจากคณะคณิตศาสตร์ ฉันกำลังมองหาทฤษฎีความน่าจะเป็นและหนังสือสถิติที่สมบูรณ์และพึ่งพาตนเองได้ โดยสมบูรณ์ฉันหมายความว่ามันมีการพิสูจน์ทั้งหมดและไม่เพียง แต่ระบุผลลัพธ์ พอเพียงฉันหมายความว่าฉันไม่จำเป็นต้องอ่านหนังสือเล่มอื่นเพื่อให้สามารถเข้าใจหนังสือเล่มนี้ได้ แน่นอนว่ามันต้องมีระดับวิทยาลัย (นักเรียนคณิตศาสตร์) แคลคูลัสและพีชคณิตเชิงเส้น ฉันดูหนังสือหลายเล่มและฉันไม่ชอบเลย DeGroot & Schervish (2011) ความน่าจะเป็นและสถิติ (รุ่นที่ 4) Pearson สิ่งนี้ยังไม่สมบูรณ์เพียงพอ มันระบุสิ่งต่าง ๆ มากมายโดยไม่ได้รับมา นอกจากนั้นฉันชอบมัน Wasserman (2004) สถิติทั้งหมด: หลักสูตรรัดกุมในการอนุมานทางสถิติสปริงเกอร์ ไม่ชอบเลย เกือบจะไม่มีคำอธิบาย "การชั่งน้ำหนักราคาต่อรอง" จาก David Williams เป็นทางการมากกว่า DeGroot และดูเหมือนว่าจะสมบูรณ์และพึ่งพาตนเองได้ อย่างไรก็ตามฉันพบว่าสไตล์แปลก ๆ เขายังประดิษฐ์คำศัพท์ใหม่ที่ดูเหมือนว่าเขาจะใช้เท่านั้น ทุกสิ่งที่อธิบายใน DeGroot ก็อธิบายได้ดีกว่าเช่นกัน ถ้าคุณรู้หนังสือที่ดีในภาษาเยอรมันมันก็ใช้ได้เหมือนฉันเป็นคนเยอรมัน

1
การดำรงอยู่ของฟังก์ชั่นการสร้างโมเมนต์และความแปรปรวน
การแจกแจงที่มีค่าเฉลี่ย จำกัด และความแปรปรวนแบบไม่สิ้นสุดมีฟังก์ชันสร้างช่วงเวลาได้หรือไม่? แล้วการกระจายตัวที่มีค่าเฉลี่ย จำกัด และความแปรปรวนอัน จำกัด แต่ช่วงเวลาที่สูงขึ้นไม่มีที่สิ้นสุด?
28 variance  moments  mgf 

4
จะทำการทดสอบแบบทดสอบของนักเรียนที่มีขนาดตัวอย่างค่าเฉลี่ยตัวอย่างและค่าเฉลี่ยประชากรได้อย่างไร
นักเรียน -test ต้องใช้กลุ่มตัวอย่างส่วนเบี่ยงเบนมาตรฐานsอย่างไรก็ตามฉันจะคำนวณหาเมื่อทราบขนาดตัวอย่างและค่าเฉลี่ยตัวอย่างเท่านั้นเสื้อเสื้อtssssss ตัวอย่างเช่นถ้าขนาดตัวอย่างคือและค่าเฉลี่ยตัวอย่างคือฉันจะพยายามสร้างรายการตัวอย่างตัวอย่างที่มีค่าแต่ละตัวอย่าง คาดว่าค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่างเป็น0สิ่งนี้จะสร้างปัญหาการหารด้วยศูนย์ในการทดสอบ494949112112112494949112112112000เสื้อเสื้อt ข้อมูลเพิ่มเติม: รายได้เฉลี่ยของคนงานโรงงาน ACME North เป็น\มีรายงานว่าตัวอย่างที่สุ่มจากคนงานในโรงงาน ACME ใต้มีรายได้ต่อปี\ความแตกต่างนี้มีนัยสำคัญทางสถิติหรือไม่$200$200\$200494949$ 112$112\$112 ฉันถูกต้องในการบอกว่าประชากรเฉลี่ย ?$ 200$200\$200

2
มาตรฐานก่อน Lasso จำเป็นจริงๆหรือ?
ฉันได้อ่านเหตุผลหลักสามข้อสำหรับการกำหนดค่ามาตรฐานให้กับตัวแปรก่อนหน้าบางอย่างเช่นLassoการถดถอย: 1) การตีความค่าสัมประสิทธิ์ 2) ความสามารถในการจัดอันดับความสำคัญของค่าสัมประสิทธิ์โดยขนาดสัมพัทธ์ของการประมาณค่าสัมประสิทธิ์หลังการหดตัว 3) ไม่ต้องมีการสกัดกั้น แต่ฉันสงสัยเกี่ยวกับจุดที่สำคัญที่สุด เรามีเหตุผลหรือไม่ที่จะคิดว่าการสร้างมาตรฐานจะช่วยปรับปรุงการวางนัยทั่วไปของตัวอย่าง? นอกจากนี้ฉันไม่สนใจว่าฉันไม่ต้องการการสกัดกั้นในแบบจำลองของฉันหรือไม่ เพิ่มหนึ่งไม่เจ็บฉัน

5
การจำลองโมเดลการถดถอยโลจิสติก
เป็นไปได้หรือไม่ที่จะจัดโมเดลการถดถอยโลจิสติกให้มากเกินไป? ฉันเห็นวิดีโอที่บอกว่าหากพื้นที่ของฉันภายใต้เส้นโค้ง ROC สูงกว่า 95% ก็น่าจะติดตั้งได้มากกว่า แต่เป็นไปได้หรือไม่ที่จะปรับรูปแบบการถดถอยโลจิสติกให้เหมาะสม?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.