สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
สมมติฐานของการทดสอบการเปลี่ยนแปลงคืออะไร
มันมักจะระบุว่าการทดสอบการเปลี่ยนแปลงไม่มีข้อสันนิษฐานอย่างไรก็ตามเรื่องนี้ไม่เป็นความจริง ตัวอย่างเช่นหากตัวอย่างของฉันมีความสัมพันธ์กันฉันสามารถจินตนาการได้ว่าการอนุญาตให้ใช้ป้ายกำกับของพวกเขาจะไม่ใช่สิ่งที่ถูกต้อง เพียงคิดว่าฉันพบเกี่ยวกับปัญหานี้คือประโยคนี้จากวิกิพีเดีย: "ข้อสมมติฐานที่สำคัญที่อยู่เบื้องหลังการทดสอบการเปลี่ยนแปลงคือการสังเกตสามารถแลกเปลี่ยนได้ภายใต้สมมติฐานว่าง" ซึ่งฉันไม่เข้าใจ ข้อสมมติฐานของการทดสอบการเปลี่ยนรูปคืออะไร? และสมมติฐานเหล่านี้เชื่อมโยงกับแผนการเปลี่ยนแปลงที่เป็นไปได้ที่แตกต่างกันอย่างไร

1
ทำไมการกระจายตัวตัวอย่างของความแปรปรวนเป็นการแจกแจงแบบไคสแควร์
คำสั่ง การแจกแจงตัวอย่างของความแปรปรวนตัวอย่างคือการแจกแจงแบบไคสแควร์ที่มีระดับความเป็นอิสระเท่ากับโดยที่คือขนาดตัวอย่าง (เนื่องจากตัวแปรสุ่มที่น่าสนใจกระจายอยู่ตามปกติ)n−1n−1n-1nnn แหล่ง สัญชาตญาณของฉัน มันค่อนข้างสมเหตุสมผลกับฉัน 1) เพราะการทดสอบไคสแควร์ดูเหมือนผลรวมของสแควร์และ 2) เพราะการแจกแจงแบบไคสแควร์เป็นเพียงผลรวมของการแจกแจงแบบปกติกำลังสอง แต่ถึงกระนั้นฉันไม่เข้าใจมัน คำถาม คำพูดนั้นเป็นจริงหรือไม่? ทำไม?

2
การแปลความหมายของข้อผิดพลาดแบบมาตราส่วนค่าเฉลี่ย (MASE)
Mean แน่นอนข้อผิดพลาดที่ปรับขนาด (MASE) เป็นตัวชี้วัดของความถูกต้องคาดการณ์ที่เสนอโดยซานโตสและ Hyndman (2006) MSE= MEMEฉันn - s a m p l e ,n a i v eMASE=MAEMAEผมn-saม.พีล.อี,naผมโวลต์อีMASE=\frac{MAE}{MAE_{in-sample, \, naive}} โดยที่คือข้อผิดพลาดแบบสัมบูรณ์ที่เกิดจากการคาดการณ์จริง ในขณะที่เป็นข้อผิดพลาดแบบสัมบูรณ์ที่เกิดจากการคาดการณ์ไร้เดียงสา (เช่นไม่มีการเปลี่ยนแปลงการคาดการณ์สำหรับอนุกรมเวลา ) ซึ่งคำนวณจากข้อมูลในตัวอย่างM E ฉันn - s มพีลิตรอี,MEMAEMAE I(1)MEฉันn - s a m p l e ,n a i v eMAEผมn-saม.พีล.อี,naผมโวลต์อีMAE_{in-sample, \, naive}ผม( 1 )ผม(1)I(1) (ตรวจสอบกระดาษKoehler …

3
ตีความแกน y ของแปลงที่พึ่งพาบางส่วน
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 5 ปีที่ผ่านมา ฉันได้อ่านหัวข้ออื่น ๆ เกี่ยวกับพล็อตพึ่งพาบางส่วนและส่วนใหญ่อยู่ในวิธีการที่คุณพล็อตพวกเขาด้วยแพคเกจที่แตกต่างกันไม่ใช่วิธีที่คุณสามารถตีความได้อย่างถูกต้องดังนั้น: ฉันอ่านและสร้างแผนการพึ่งพาบางส่วนในปริมาณที่พอใช้ ฉันรู้ว่าพวกเขาวัดผลกระทบเล็กน้อยของตัวแปรในฟังก์ชั่นƒS (withS) ด้วยค่าเฉลี่ยผลกระทบของตัวแปรอื่นทั้งหมด ((c) จากแบบจำลองของฉัน ค่า y ที่สูงกว่าหมายความว่าพวกเขามีอิทธิพลต่อการทำนายชั้นเรียนของฉันอย่างแม่นยำ อย่างไรก็ตามฉันไม่พอใจกับการตีความเชิงคุณภาพนี้ โมเดลของฉัน (ฟอเรสต์แบบสุ่ม) กำลังทำนายคลาสรอบคอบสองคลาส "ใช่ต้นไม้" และ "ไม่มีต้นไม้" TRI เป็นตัวแปรที่พิสูจน์แล้วว่าเป็นตัวแปรที่ดีสำหรับเรื่องนี้ สิ่งที่ฉันเริ่มคิดว่าค่า Y กำลังแสดงความน่าจะเป็นสำหรับการจำแนกประเภทที่ถูกต้อง ตัวอย่าง: y (0.2) แสดงว่าค่า TRI ของ> ~ 30 มีโอกาส 20% ในการระบุการจำแนกประเภท True Positive อย่างถูกต้อง อยู่ที่ไหนตรงกันข้าม y (-0.2) แสดงว่าค่า TRI …

5
วิธีแบ่งชุดข้อมูลสำหรับการทำนายอนุกรมเวลา
ฉันมีข้อมูลการขายในอดีตจากร้านเบเกอรี่ (ทุกวันมากกว่า 3 ปี) ตอนนี้ฉันต้องการสร้างแบบจำลองเพื่อทำนายยอดขายในอนาคต (โดยใช้คุณสมบัติเช่นวันทำงานตัวแปรสภาพอากาศ ฯลฯ ) ฉันจะแยกชุดข้อมูลเพื่อปรับและประเมินโมเดลได้อย่างไร มันจำเป็นต้องเป็นรถไฟตามลำดับเวลา / การตรวจสอบ / แยกทดสอบหรือไม่? จากนั้นฉันจะทำการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์กับชุดรถไฟและการตรวจสอบความถูกต้องหรือไม่? การตรวจสอบข้าม (ซ้อนกัน) เป็นกลยุทธ์ที่ไม่ดีสำหรับปัญหาอนุกรมเวลาหรือไม่ แก้ไข นี่คือลิงค์ที่ฉันเจอหลังจากติดตาม URL ที่แนะนำโดย @ ene100: Rob Hyndman อธิบาย "ต้นกำเนิดการพยากรณ์แบบหมุน" ในทางทฤษฎีและในทางปฏิบัติ (พร้อมรหัส R) คำศัพท์อื่น ๆ สำหรับต้นกำเนิดการคาดการณ์แบบหมุนคือ "การเพิ่มประสิทธิภาพการเดินไปข้างหน้า" ( ที่นี่หรือที่นี่ ), "ขอบฟ้าที่กลิ้ง" หรือ "ต้นกำเนิดที่กำลังเคลื่อนที่" ดูเหมือนว่าเทคนิคเหล่านี้จะไม่ถูกรวมเข้ากับ scikit เรียนรู้ในอนาคตอันใกล้เพราะ "ความต้องการและความหมายของเทคนิคเหล่านี้ไม่ชัดเจน" (ระบุไว้ที่นี่ ) และนี่คือข้อเสนอแนะอื่นสำหรับการตรวจสอบความถูกต้องข้ามอนุกรมเวลา

2
ทำไมฉันถึงได้รับผลต่างแบบไม่มีศูนย์ของเอฟเฟกต์แบบสุ่มในโมเดลผสมของฉันแม้ว่าข้อมูลจะมีการเปลี่ยนแปลงบ้าง
เราได้เรียกใช้การถดถอยโลจิสติกเอฟเฟ็กต์แบบผสมโดยใช้ไวยากรณ์ต่อไปนี้ # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) หัวเรื่องและรายการเป็นเอฟเฟกต์แบบสุ่ม เราได้ผลลัพธ์ที่แปลกซึ่งมีค่าสัมประสิทธิ์และความเบี่ยงเบนมาตรฐานสำหรับเทอมที่เป็นทั้งคู่ Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: GoalEncoding ~ 1 + Group + (1 | …

2
คุณจะหาน้ำหนักสำหรับการถดถอยกำลังสองน้อยที่สุดได้อย่างไร?
ฉันหลงทางเล็กน้อยในกระบวนการถดถอยของ WLS ฉันได้รับชุดข้อมูลแล้วและหน้าที่ของฉันคือการทดสอบว่ามีความแตกต่างที่แน่นอนและถ้าเป็นเช่นนั้นฉันควรรัน WLS regression ฉันได้ทำการทดสอบและพบหลักฐานเกี่ยวกับความแตกต่างระหว่างดังนั้นฉันจึงต้องเรียกใช้ WLS ฉันได้รับแจ้งว่า WLS นั้นโดยทั่วไปแล้วการถดถอย OLS ของโมเดลที่แปลงแล้ว แต่ฉันสับสนเล็กน้อยเกี่ยวกับการค้นหาฟังก์ชันการแปลง ฉันได้อ่านบทความที่แนะนำว่าการเปลี่ยนแปลงสามารถเป็นหน้าที่ของส่วนที่เหลือกำลังสองจากการถดถอย OLS แต่ฉันจะขอบคุณถ้ามีคนสามารถช่วยฉันในการติดตามที่ถูกต้อง

3
ทำไมความน่าจะเป็นสูงสุดและไม่น่าจะเป็นไปได้?
เหตุใดจึงเป็นเรื่องธรรมดาที่จะได้รับการประมาณการความน่าจะเป็นสูงสุดของพารามิเตอร์ แต่คุณแทบไม่เคยได้ยินเกี่ยวกับการประมาณค่าพารามิเตอร์ความน่าจะเป็นที่คาดหวัง (กล่าวคืออิงจากค่าที่คาดหวังมากกว่าโหมดของฟังก์ชันโอกาส) นี่เป็นเหตุผลหลักในเชิงประวัติศาสตร์หรือมีเหตุผลทางเทคนิคหรือเชิงทฤษฎีมากกว่านี้หรือไม่? จะมีข้อได้เปรียบที่สำคัญและ / หรือข้อเสียในการใช้การประมาณความน่าจะเป็นที่คาดหวังมากกว่าการประมาณการความเป็นไปได้สูงสุดหรือไม่? มีบางพื้นที่ที่คาดการณ์ความน่าจะเป็นใช้เป็นประจำหรือไม่?

4
ฟิชเชอร์ของ LSD เลวร้ายอย่างที่บอกหรือเปล่า?
เมื่อเราทำการทดลอง (ขนาดตัวอย่างเล็ก ๆ (โดยปกติขนาดตัวอย่างต่อกลุ่มการรักษาประมาณ 7 ~ 8)) ในสองกลุ่มเราใช้การทดสอบ t-test เพื่อทดสอบความแตกต่าง อย่างไรก็ตามเมื่อเราทำการ ANOVA (เห็นได้ชัดว่ามีมากกว่าสองกลุ่ม) เราใช้บางสิ่งบางอย่างตามแนวของ Bonferroni (LSD / # ของการเปรียบเทียบแบบเป็นคู่) หรือ Tukey เป็นโพสต์เฉพาะกิจและในฐานะนักเรียนฉันถูกเตือนให้ออกจาก ใช้ความแตกต่างที่สำคัญน้อยที่สุดของฟิชเชอร์(LSD) ทีนี้ก็คือตอนนี้ LSD คล้ายกับ pairwise t-test (ใช่ไหม?) และสิ่งเดียวที่มันไม่ได้อธิบายก็คือเรากำลังทำการเปรียบเทียบหลายครั้ง มีความสำคัญเพียงใดเมื่อพูดถึง 6 กลุ่มถ้า ANOVA นั้นมีความสำคัญ? หรืออีกนัยหนึ่งมีเหตุผลทางวิทยาศาสตร์ / สถิติสำหรับการใช้ LSD ของฟิชเชอร์หรือไม่?

3
วิธีที่ไม่เหมาะสมก่อนนำไปสู่การกระจายหลังที่เหมาะสมได้อย่างไร
เรารู้ว่าในกรณีที่มีการกระจายก่อนที่เหมาะสม P( θ ∣ X) = P( X| θ ) P(θ )P( X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} )α P(X∣ θ) P( θ )∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta) เหตุผลปกติสำหรับขั้นตอนนี้ก็คือการกระจายตัวของ , P ( X )นั้นคงที่เมื่อเทียบกับθและสามารถถูกละเว้นได้เมื่อได้รับการแจกแจงหลังXXXP(X)P(X)P(X)θθ\theta อย่างไรก็ตามในกรณีที่ไม่เหมาะสมมาก่อนคุณจะรู้ได้อย่างไรว่าการกระจายหลังมีอยู่จริง? ดูเหมือนจะมีบางสิ่งที่ขาดหายไปในข้อโต้แย้งที่เป็นวงกลม กล่าวอีกนัยหนึ่งถ้าฉันคิดว่ามีอยู่หลังฉันเข้าใจกลไกของการได้รับมา แต่ฉันดูเหมือนจะหายไปในทางทฤษฎีเหตุผลว่าทำไมมันถึงมีอยู่ ป.ล. ฉันยังรับรู้ว่ามีบางกรณีที่ก่อนหน้านี้ไม่เหมาะสมนำไปสู่การหลังที่ไม่เหมาะสม

5
วิธีการวิเคราะห์ชุดข้อมูลขนาดใหญ่แบบสำรวจอย่างต่อเนื่อง?
เมื่อฉันเริ่มการวิเคราะห์เชิงสำรวจในชุดข้อมูลขนาดใหญ่ (ตัวอย่างจำนวนมากหลายตัวแปร) ฉันมักจะพบว่าตัวเองมีหลายร้อยตัวแปรที่ได้รับและตันของแปลงที่แตกต่างกันและไม่มีทางที่จะติดตามสิ่งที่เกิดขึ้นจริง รหัสจบลงเหมือนปาเก็ตตี้เพราะไม่มีทิศทางจากจุดเริ่มต้น ... มีวิธีการใดบ้างที่แนะนำให้ทำการวิเคราะห์เชิงสำรวจอย่างเป็นระเบียบและเป็นระเบียบหรือไม่? โดยเฉพาะอย่างยิ่งคุณจะจัดการกับการสำรวจหลายแขนงได้อย่างไร (รวมถึงการสำรวจที่ปลายตาย) และแผนการที่แตกต่างกัน? สำหรับการอ้างอิงฉันกำลังทำงานกับข้อมูลทางธรณีวิทยา (ตัวแปรหลายตัวตามเวลา ฉันมักจะทำงานร่วมกับ Python หรือ R และเก็บทุกอย่างไว้ในคอมไพล์และลองใช้ IPython Notebook เช่นกัน อย่างไรก็ตามมันจะดีถ้าคำตอบนั้นค่อนข้างกว้างและมีประโยชน์สำหรับคนในทุกสาขาพร้อมกับข้อมูล (ใหญ่?) ประเภทอื่น

2
การทำคลัสเตอร์เมทริกซ์ไบนารี
ฉันมีเมทริกซ์กึ่งกึ่งกลางของคุณสมบัติไบนารีของมิติ 250k x 100 แต่ละแถวเป็นผู้ใช้และคอลัมน์เป็น "แท็ก" แบบไบนารีของพฤติกรรมผู้ใช้บางอย่างเช่น "Likes_cats" user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 ฉันต้องการให้ผู้ใช้พอดีกับ 5-10 คลัสเตอร์และวิเคราะห์การโหลดเพื่อดูว่าฉันสามารถตีความกลุ่มพฤติกรรมของผู้ใช้ได้หรือไม่ ดูเหมือนจะมีวิธีการค่อนข้างน้อยในการปรับคลัสเตอร์ให้เหมาะสมกับข้อมูลไบนารี - เราคิดว่าอะไรอาจเป็นกลยุทธ์ที่ดีที่สุดสำหรับข้อมูลนี้ PCA การสร้างเมทริกซ์ความคล้ายคลึงกันของ Jaccardติดตั้งคลัสเตอร์แบบลำดับขั้นจากนั้นใช้ "โหนด" ด้านบน K-มีเดีย K-medoids พร็อกซิมัส ? แอกเนส …

3
เอาต์พุตสถิติ W โดย wilcox.test () ใน R เหมือนกับสถิติ U หรือไม่
ฉันเพิ่งได้อ่านเกี่ยวกับการทดสอบ Mann-Whitney U ปรากฎว่าการทดสอบนี้ใน R คุณจำเป็นต้องทำการทดสอบ Wilcoxon จริง ๆ ! คำถามของฉัน: เป็น W สถิติของwilcox.testใน R เหมือนกับสถิติ U?

3
ทำความเข้าใจกับความขัดแย้งของซิมป์สัน: ตัวอย่างของแอนดรูว์เจลแมนด้วยการลดรายได้เกี่ยวกับเรื่องเพศและส่วนสูง
Andrew Gelman หนึ่งในบล็อกโพสต์ล่าสุดของเขาพูดว่า: ฉันไม่คิดว่าการต่อต้านหรือผลที่อาจเกิดขึ้นเป็นสิ่งจำเป็นสำหรับความขัดแย้งของซิมป์สัน ฉันพูดแบบนี้เพราะเราสามารถตั้งค่าความขัดแย้งของซิมป์สันด้วยตัวแปรที่ไม่สามารถจัดการได้หรือการจัดการที่ไม่ได้สนใจโดยตรง ความขัดแย้งของซิมป์สันเป็นส่วนหนึ่งของปัญหาทั่วไปที่โคย์การถดถอยเปลี่ยนแปลงหากคุณเพิ่มตัวทำนายมากขึ้นการพลิกสัญญาณไม่จำเป็นจริงๆ นี่คือตัวอย่างที่ฉันใช้ในการสอนที่แสดงทั้งสองประเด็น: ฉันสามารถใช้การถดถอยเพื่อทำนายรายได้จากเพศและส่วนสูง ฉันพบว่า coef ของเพศคือ$ 10,000 (เช่นการเปรียบเทียบชายและหญิงที่มีความสูงเท่ากันโดยเฉลี่ยแล้วผู้ชายจะเพิ่มอีก$ 10,000) และค่าสัมประสิทธิ์ของความสูงคือ$ 500 (เช่นการเปรียบเทียบผู้ชายสองคนหรือผู้หญิงสองคน ความสูงที่แตกต่างกันโดยเฉลี่ยคนที่สูงกว่าจะทำเงินได้สูงกว่า$ 500 ต่อนิ้ว) ฉันจะแปลความหมายเหล่านี้ได้อย่างไร ฉันรู้สึกว่า coef of height นั้นง่ายต่อการตีความ (มันเป็นเรื่องง่ายที่จะจินตนาการเปรียบเทียบคนสองคนที่มีเพศเดียวกันกับความสูงที่แตกต่างกัน) แน่นอนว่ามันผิด“ ผิด” ที่จะถอยกลับที่ความสูงโดยไม่ควบคุมเพศ ความแตกต่างระหว่างคนที่สั้นและสูงสามารถ“ อธิบาย” ได้โดยการเป็นความแตกต่างระหว่างผู้ชายกับผู้หญิง แต่การมีเพศสัมพันธ์ในโมเดลด้านบนนั้นยากที่จะตีความ: ทำไมเปรียบเทียบผู้ชายกับผู้หญิงที่สูง 66 นิ้ว? นั่นจะเป็นการเปรียบเทียบชายร่างเตี้ยกับผู้หญิงสูง เหตุผลทั้งหมดนี้ดูเหมือนว่ามีสาเหตุเชิงลบ แต่ฉันไม่คิดว่ามันสมเหตุสมผลที่จะใช้ผลลัพธ์ที่เป็นไปได้ ฉันไตร่ตรองมากกว่านั้น (และแสดงความคิดเห็นในโพสต์) และคิดว่ามีบางสิ่งที่จะเข้าใจได้ชัดเจนยิ่งขึ้นที่นี่ จนกว่าส่วนในการตีความของเพศมันก็โอเค แต่ฉันไม่เห็นสิ่งที่เป็นปัญหาที่อยู่เบื้องหลังการเปรียบเทียบชายสั้นและผู้หญิงสูง นี่คือประเด็นของฉัน: ในความเป็นจริงมันสมเหตุสมผลดีกว่า (จากสมมติฐานที่ว่าผู้ชายสูงโดยเฉลี่ย) คุณไม่สามารถเปรียบเทียบ 'ชายร่างเตี้ย' …

2
การเลือกอัลฟาที่ดีที่สุดในการถดถอยโลจิสติกเน็ตแบบยืดหยุ่น
ฉันกำลังทำการถดถอยโลจิสติกส์แบบยืดหยุ่นบนชุดข้อมูลด้านการดูแลสุขภาพโดยใช้glmnetแพ็คเกจใน R โดยเลือกค่าแลมบ์ดาในตารางของจาก 0 ถึง 1 รหัสย่อของฉันอยู่ด้านล่าง:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for (i in 1:11) {print(min(elasticnet[[i]]$cvm))} ซึ่งส่งออกข้อผิดพลาดการตรวจสอบความถูกต้องข้ามเฉลี่ยสำหรับแต่ละค่าของอัลฟาจากถึงโดยเพิ่มขึ้น :1.0 0.10.00.00.01.01.01.00.10.10.1 [1] 0.2080167 [1] 0.1947478 [1] 0.1949832 [1] 0.1946211 [1] 0.1947906 [1] 0.1953286 [1] 0.194827 [1] 0.1944735 [1] 0.1942612 [1] 0.1944079 [1] 0.1948874 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.