สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
“ ความเท่าเทียมกันอย่างอื่น” หมายถึงอะไรในการถดถอยหลายครั้ง?
เมื่อเราทำการถดถอยหลายครั้งและบอกว่าเรากำลังดูการเปลี่ยนแปลงเฉลี่ยในตัวแปรสำหรับการเปลี่ยนแปลงในตัวแปรถือค่าคงที่ตัวแปรอื่น ๆ ทั้งหมดค่าใดที่เราถือตัวแปรคงที่ที่? หมายความว่าอย่างไร ศูนย์? มีค่าไหม?yyyxxx ฉันอยากจะคิดว่ามันมีค่า แค่มองหาคำอธิบาย หากใครมีหลักฐานก็คงจะดีเช่นกัน

4
วิธี Z-คะแนนของ Stouffer: สิ่งที่ถ้าเราสรุป
ฉันกำลังทำการทดสอบทางสถิติอิสระด้วยสมมติฐานว่างเดียวกันและต้องการรวมผลลัพธ์เป็นค่าpเดียว มันดูเหมือนว่าจะมีสอง "ได้รับการยอมรับ" วิธีการ: วิธีการฟิชเชอร์และวิธีการของ Stoufferยังไม่มีข้อความNNพีpp คำถามของฉันเกี่ยวกับวิธีการของ Stouffer สำหรับการทดสอบแต่ละแยกต่างหากที่ผมได้รับคะแนน Z- ฉัน ภายใต้สมมติฐานแต่ละของพวกเขามีการกระจายและมีการกระจายแบบปกติมาตรฐานดังนั้นผลรวมΣ Z ฉันต่อไปนี้การแจกแจงแบบปกติที่มีความแปรปรวนN ดังนั้นวิธีของ Stouffer แนะนำให้คำนวณΣ z i / √Zผมziz_iΣ zผมΣzi\Sigma z_iยังไม่มีข้อความNNซึ่งควรกระจายตามปกติด้วยความแปรปรวนของหน่วยแล้วใช้สิ่งนี้เป็นคะแนน z ร่วมΣ zผม/ N--√Σzi/N\Sigma z_i / \sqrt{N} นี่เป็นเหตุผล แต่นี่เป็นอีกแนวทางหนึ่งที่ฉันคิดขึ้นและนั่นก็สมเหตุสมผลกับฉันเช่นกัน ในฐานะที่เป็นแต่ละมาจากการกระจายปกติมาตรฐานผลรวมของสี่เหลี่ยมS = Σ Z 2 ฉันควรมาจากการกระจายไคสแควร์กับNองศาอิสระ ดังนั้นเราสามารถคำนวณSและแปลงเป็นp-valueโดยใช้ฟังก์ชันการแจกแจงสะสมแบบ chi-squared ที่มีองศาอิสระN ( p = 1 - X N ( S …

3
ฉันจะตรวจสอบได้อย่างไรว่าข้อมูลของฉันตรงกับการแจกแจงแบบเลขชี้กำลังหรือไม่
ฉันจะตรวจสอบได้อย่างไรว่าข้อมูลของฉันเช่นเงินเดือนมาจากการแจกแจงเลขชี้กำลังแบบต่อเนื่องใน R หรือไม่? นี่คือฮิสโตแกรมของตัวอย่างของฉัน: . ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก!

2
ทำไม PCA ของข้อมูลโดยใช้วิธี SVD ของข้อมูล
คำถามนี้เกี่ยวกับวิธีที่มีประสิทธิภาพในการคำนวณส่วนประกอบหลัก ตำราจำนวนมากในการสนับสนุน PCA เชิงเส้นโดยใช้การสลายตัวเอกพจน์มูลค่าของข้อมูล Casewise นั่นคือถ้าเรามี dataและต้องการแทนที่ตัวแปร ( คอลัมน์ของมัน) ด้วยองค์ประกอบหลักเราจะทำ SVD: , ค่าเอกพจน์ (sq. รากของค่าลักษณะเฉพาะ) ครอบครองเส้นทแยงมุมหลักของ , ขวา eigenvectorเป็นเมทริกซ์การหมุนแบบมุมฉากของแกน - ตัวแปรเป็นแกน - องค์ประกอบ, ซ้าย eigenvectorเป็นเช่น , เฉพาะสำหรับกรณี จากนั้นเราสามารถคำนวณค่าองค์ประกอบเป็นCXX\bf X S V U V C = X V = U SX=USV′X=ยูSV'\bf X=USV'SS\bf SVV\bf VUยู\bf UVV\bf VC=XV=USC=XV=ยูS \bf C=XV=US อีกวิธีหนึ่งในการทำ PCA ของตัวแปรก็คือการสลายตัวของ …

3
ประโยชน์ของการใช้ QQ-plot บนฮิสโทแกรม
ในความคิดเห็นนี้ Nick Cox เขียนว่า: การเข้าเรียนเป็นวิธีโบราณ แม้ว่าฮิสโทแกรมจะมีประโยชน์ แต่ซอฟต์แวร์ทางสถิติที่ทันสมัยช่วยให้ง่ายขึ้นรวมถึงแนะนำให้กระจายข้อมูลดิบให้เหมาะสม Binning เพียงแค่โยนรายละเอียดออกไปซึ่งมีความสำคัญในการพิจารณาว่าการแจกแจงแบบใดที่เป็นไปได้ บริบทของความคิดเห็นนี้แสดงให้เห็นว่าการใช้ QQ-plots เป็นทางเลือกในการประเมินความเหมาะสม คำสั่งฟังดูน่าเชื่อถือมาก แต่ฉันต้องการทราบเกี่ยวกับข้อมูลอ้างอิงที่เชื่อถือได้ซึ่งสนับสนุนข้อความนี้ มีกระดาษบ้างไหมที่ทำการตรวจสอบข้อเท็จจริงนี้อย่างละเอียดมากขึ้นนอกเหนือจาก“ ความเรียบง่ายนี่ฟังดูชัดเจน” หรือไม่? มีการเปรียบเทียบผลลัพธ์ที่เป็นระบบจริงหรือชอบอะไร ฉันยังต้องการที่จะดูว่าประโยชน์ของการแปลง QQ- มากกว่าฮิสโทแกรมสามารถยืดออกไปยังแอปพลิเคชันอื่น ๆ คำตอบสำหรับคำถามนี้ยอมรับว่า "พล็อต QQ- […] เพียงแค่บอกคุณว่า" มีอะไรผิดปกติ "" ฉันกำลังคิดที่จะใช้มันเป็นเครื่องมือในการระบุโครงสร้างในข้อมูลที่สังเกตได้เมื่อเปรียบเทียบกับตัวแบบโมฆะและสงสัยว่ามีกระบวนการที่กำหนดไว้ใด ๆ ที่จะใช้ QQ-แปลง (หรือข้อมูลพื้นฐาน) ไม่เพียง แต่ตรวจจับได้เท่านั้น โครงสร้างในข้อมูลที่สังเกตได้ การอ้างอิงซึ่งรวมถึงทิศทางนี้จึงมีประโยชน์อย่างยิ่ง

2
ขั้นตอนต่อไปหลังจาก“ การใช้เหตุผลแบบเบย์และการเรียนรู้ของเครื่อง”
ขณะนี้ฉันกำลังผ่าน "การใช้เหตุผลแบบเบย์และการเรียนรู้ของเครื่อง" โดย David Barber และเป็นหนังสือที่เขียนได้ดีและมีส่วนร่วมในการเรียนรู้พื้นฐาน ดังนั้นคำถามกับคนที่ทำสิ่งนี้ไปแล้ว หนังสือชุดต่อไปที่ฉันควรผ่านหลังจากที่ฉันมีความเชี่ยวชาญที่เหมาะสมกับแนวคิดส่วนใหญ่ใน Barber คืออะไร?

5
การทดสอบแบบไม่อิงพารามิเตอร์ทำอะไรได้บ้างและคุณทำอะไรกับผลลัพธ์
ฉันรู้สึกว่านี่อาจถูกถามที่อื่น แต่ไม่จริงกับประเภทของคำอธิบายพื้นฐานที่ฉันต้องการ ฉันรู้ว่าไม่ใช่พารามิเตอร์อาศัยค่ามัธยฐานแทนค่าเฉลี่ยเพื่อเปรียบเทียบ ... บางสิ่งบางอย่าง ฉันเชื่อว่ามันต้องอาศัย "องศาอิสระ" (?) แทนที่จะเบี่ยงเบนมาตรฐาน ถูกต้องฉันถ้าฉันผิด ฉันได้ทำการวิจัยที่ดีพอสมควรหรืออย่างนั้นฉันก็คิดว่าพยายามเข้าใจแนวคิดว่าผลงานอยู่เบื้องหลังความหมายของผลการทดสอบจริง ๆ และ / หรือจะทำอย่างไรกับผลการทดสอบ อย่างไรก็ตามดูเหมือนว่าจะไม่มีใครกล้าเข้าไปในพื้นที่นั้น เพื่อความเรียบง่ายลองมากับ Mann-Whitney U-test ซึ่งฉันสังเกตเห็นว่ามันค่อนข้างเป็นที่นิยม หากคุณต้องการอธิบายการทดสอบอื่น ๆ ด้วยเช่นกันแม้ว่าฉันจะรู้สึกว่าเมื่อฉันเข้าใจแล้วฉันก็สามารถเข้าใจการทดสอบอื่น ๆ ในลักษณะที่คล้ายคลึงกับการทดสอบ t แบบต่างๆเป็นต้น สมมติว่าฉันทำการทดสอบที่ไม่ใช่พารามิเตอร์กับข้อมูลของฉันและฉันได้รับผลลัพธ์กลับมา: 2 Sample Mann-Whitney - Customer Type Test Information H0: Median Difference = 0 Ha: Median Difference ≠ 0 Size of Customer Large …

3
ทำไมอัลกอริธึมการเพิ่มความคาดหวังสูงสุดจึงถูกใช้
จากสิ่งเล็ก ๆ น้อย ๆ ที่ฉันรู้ว่าอัลกอริทึม EM สามารถใช้เพื่อค้นหาโอกาสสูงสุดเมื่อตั้งค่าเป็นศูนย์ของอนุพันธ์บางส่วนที่เกี่ยวข้องกับพารามิเตอร์ของโอกาสที่จะให้ชุดของสมการที่ไม่สามารถแก้ไขได้วิเคราะห์ แต่จำเป็นต้องใช้อัลกอริทึม EM แทนการใช้เทคนิคเชิงตัวเลขเพื่อค้นหาโอกาสสูงสุดด้วยความเคารพต่อข้อ จำกัด ของชุดสมการที่กล่าวถึง

2
bootstrapping ใน R ทำงานอย่างไร
ฉันได้ดูแพ็คเกจการบูตใน R และในขณะที่ฉันพบไพรเมอร์จำนวนมากเกี่ยวกับวิธีใช้มันฉันยังไม่พบสิ่งใดที่อธิบายสิ่งที่เกิดขึ้น "เบื้องหลัง" ตัวอย่างเช่นในตัวอย่างนี้คู่มือแสดงวิธีการใช้สัมประสิทธิ์การถดถอยมาตรฐานเป็นจุดเริ่มต้นสำหรับการถดถอย bootstrap แต่ไม่ได้อธิบายว่าขั้นตอนการ bootstrap กำลังทำอยู่เพื่อให้ได้สัมประสิทธิ์การถดถอย bootstrap ดูเหมือนว่ามีกระบวนการวนซ้ำบางอย่างที่เกิดขึ้น แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าเกิดอะไรขึ้น

3
มันสำคัญหรือไม่ที่นักสถิติต้องเรียนรู้การเรียนรู้ของเครื่อง?
การเรียนรู้ของเครื่องเป็นเรื่องสำคัญสำหรับนักสถิติคนใดที่จะทำความคุ้นเคยหรือไม่? ดูเหมือนว่าการเรียนรู้ของเครื่องเป็นสถิติ ทำไมโปรแกรมวิชาสถิติ (ระดับปริญญาตรีและบัณฑิต) จึงไม่จำเป็นต้องเรียนรู้ด้วยเครื่อง?

2
เครื่อง Boltzmann ที่ถูก จำกัด เทียบกับเครือข่ายประสาทหลายชั้น
ฉันต้องการทดลองกับเครือข่ายประสาทเทียมสำหรับปัญหาการจำแนกประเภทที่ฉันกำลังเผชิญอยู่ ฉันพบเอกสารที่พูดถึง RBM แต่จากสิ่งที่ฉันเข้าใจได้พวกเขาไม่ต่างจากการมีเครือข่ายประสาทหลายชั้น ถูกต้องหรือไม่ ยิ่งไปกว่านั้นฉันทำงานกับ R และฉันไม่เห็นแพ็คเกจใด ๆ สำหรับ RBM ฉันพบเจอวรรณกรรมที่พูดถึงเครือข่ายการเรียนรู้ลึกซึ่งมี RBM แบบเรียงซ้อนโดยทั่วไป แต่ไม่แน่ใจว่ามันคุ้มค่ากับความพยายามที่จะนำไปใช้ในอาร์หรือเปล่าใครจะมีพอยน์เตอร์ได้บ้าง? ขอบคุณ

5
ป่าสุ่มของ R ไม่สามารถจัดการได้มากกว่า 32 ระดับ วิธีแก้ปัญหาคืออะไร
แพ็คเกจสุ่มป่าของ R ไม่สามารถจัดการกับปัจจัยที่มีมากกว่า 32 ระดับ เมื่อได้รับมากกว่า 32 ระดับจะส่งข้อความแจ้งข้อผิดพลาด: ไม่สามารถจัดการตัวทำนายเชิงหมวดหมู่ที่มีมากกว่า 32 หมวดหมู่ แต่ข้อมูลที่ฉันมีมีหลายปัจจัย บางอันมี 1,000+ ระดับและบางอันมี 100+ ระดับ มันยังมี 'สถานะ' ของสหรัฐอเมริกาซึ่งก็คือ 52 ดังนั้นนี่คือคำถามของฉัน ทำไมถึงมีข้อ จำกัด เช่นนี้? RandomForest ปฏิเสธที่จะเรียกใช้แม้ในกรณีง่าย ๆ > d <- data.frame(x=factor(1:50), y=1:50) > randomForest(y ~ x, data=d) Error in randomForest.default(m, y, ...) : Can not handle categorical predictors with …

1
มีเหตุผลที่จะชอบการวัดความหลากหลายแบบโดยเฉพาะหรือไม่?
เมื่อทำงานกับตัวแปรอินพุตจำนวนมากเรามักจะกังวลเกี่ยวกับความสัมพันธ์แบบหลายค่า มีมาตรการหลายอย่างของความหลากสีที่ใช้ในการตรวจจับคิดและ / หรือสื่อสารความหลากหลายทางชีวภาพ คำแนะนำทั่วไปบางประการ ได้แก่ : หลายสำหรับตัวแปรเฉพาะ R2JRJ2R^2_j ความคลาดเคลื่อนสำหรับตัวแปรเฉพาะ 1 - R2J1-RJ21-R^2_j ปัจจัยเงินเฟ้อความแปรปรวนสำหรับตัวแปรเฉพาะ VIF = 1ความอดทนVIF=1ความอดทน\text{VIF}=\frac{1}{\text{tolerance}} หมายเลขเงื่อนไขของเมทริกซ์การออกแบบโดยรวม: max (eigenvalue (X'X))นาที (eigenvalue (X'X))------------------√max (eigenvalue (X'X))นาที (eigenvalue (X'X))\sqrt{\frac{\text{max(eigenvalue(X'X))}}{\text{min(eigenvalue(X'X))}}} (มีตัวเลือกอื่น ๆ ที่กล่าวถึงในบทความ Wikipedia และที่นี่บน SOในบริบทของ R) ความจริงที่ว่าสามข้อแรกเป็นฟังก์ชั่นที่สมบูรณ์แบบของกันและกันแสดงให้เห็นว่าข้อได้เปรียบทางสุทธิที่เป็นไปได้เพียงอย่างเดียวระหว่างพวกเขาจะเป็นเรื่องทางจิตวิทยา ในทางกลับกันสามข้อแรกให้คุณตรวจสอบตัวแปรแต่ละตัวซึ่งอาจเป็นข้อได้เปรียบ แต่ฉันได้ยินมาว่าวิธีหมายเลขเงื่อนไขถือว่าดีที่สุด มันเป็นเรื่องจริงเหรอ? ดีที่สุดสำหรับอะไร หมายเลขเงื่อนไขเป็นฟังก์ชั่นที่สมบูรณ์แบบของหรือไม่? (ฉันคิดว่ามันคงเป็น) R2JRJ2R^2_j ผู้คนพบว่าหนึ่งในนั้นอธิบายได้ง่ายที่สุดหรือไม่ (ฉันไม่เคยพยายามที่จะอธิบายตัวเลขเหล่านี้นอกห้องเรียนฉันแค่ให้คำอธิบายที่หลวมและมีคุณภาพของความหลากสี)

2
การถดถอยสำหรับรูปแบบของ ?
ฉันมีชุดข้อมูลซึ่งเป็นสถิติจากฟอรัมสนทนาทางเว็บ ฉันกำลังดูจำนวนการตอบกลับที่คาดว่าจะมี โดยเฉพาะฉันได้สร้างชุดข้อมูลที่มีรายการของการตอบหัวข้อแล้วจำนวนของหัวข้อที่มีการตอบกลับจำนวนนั้น "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 หากฉันพล็อตชุดข้อมูลบนพล็อตการบันทึกล็อกฉันจะได้รับสิ่งที่เป็นเส้นตรง: (นี่คือการกระจาย Zipfian ) วิกิพีเดียบอกว่าเส้นตรงในแปลงเข้าสู่ระบบเข้าสู่ระบบบ่งบอกถึงฟังก์ชั่นที่สามารถสร้างแบบจำลองโดย monomial ของแบบฟอร์มที่ k และในความเป็นจริงฉันได้ฟังฟังก์ชั่นดังกล่าว:Y= a xkY=axky = ax^k lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green") เห็นได้ชัดว่าดวงตาของฉันไม่แม่นยำเท่ากับอาร์ดังนั้นฉันจะได้ R เพื่อให้พอดีกับพารามิเตอร์ของโมเดลนี้สำหรับฉันได้อย่างแม่นยำมากขึ้นได้อย่างไร? ฉันลองการถดถอยพหุนาม แต่ฉันไม่คิดว่า R พยายามปรับเลขชี้กำลังเป็นพารามิเตอร์ - ชื่อที่เหมาะสมสำหรับรุ่นที่ฉันต้องการคืออะไร แก้ไข: ขอบคุณสำหรับคำตอบทุกคน ตามที่แนะนำตอนนี้ฉันได้จัดวางโมเดลเชิงเส้นตรงกับบันทึกของข้อมูลอินพุตโดยใช้สูตรนี้: data <- read.csv(file="result.txt") # Avoid …

2
การแก้ไขอคติในความแปรปรวนแบบถ่วงน้ำหนัก
สำหรับความแปรปรวนแบบไม่มีน้ำหนัก มีค่าความแปรปรวนตัวอย่างที่มีอคติถูกแก้ไขเมื่อค่าเฉลี่ยถูกประเมินจากข้อมูลเดียวกัน: Var(X):=1n∑i(xi−μ)2Var(X):=1n∑i(xi−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2Var(X):=1n−1∑i(xi−E[X])2Var(X):=1n−1∑i(xi−E[X])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 ฉันกำลังดูค่าเฉลี่ยและความแปรปรวนแบบถ่วงน้ำหนักและสงสัยว่าการแก้ไขความลำเอียงที่เหมาะสมสำหรับความแปรปรวนแบบถ่วงน้ำหนักคืออะไร การใช้: ค่าเฉลี่ย( X)) : = 1ΣผมωผมΣผมωผมxผมค่าเฉลี่ย(X)=1ΣผมωผมΣผมωผมxผม\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i "ไร้เดียงสา" ความแปรปรวนที่ไม่ได้แก้ไขที่ฉันใช้อยู่คือ: Var ( X) : = 1ΣผมωผมΣผมωผม( xผม- ค่าเฉลี่ย( X)) )2Var(X):=1∑iωi∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 ดังนั้นฉันสงสัยว่าวิธีที่ถูกต้องในการแก้ไขอคติคืออะไร A) Var ( X) : = 1Σผมωผม- 1Σผมωผม( xผม−mean(X))2Var(X):=1∑iωi−1∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2 หรือ B) Var …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.