สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
CHAID vs CRT (หรือรถเข็น)
ฉันใช้การจำแนกประเภทต้นไม้ตัดสินใจโดยใช้SPSSในชุดข้อมูลที่มีตัวพยากรณ์ประมาณ 20 ตัว (จัดหมวดหมู่ด้วยบางประเภท) CHAID (การตรวจจับปฏิกิริยาอัตโนมัติไคสแควร์) และ CRT / CART (การจำแนกและต้นไม้การถดถอย) กำลังให้ต้นไม้ที่ต่างกัน ใครสามารถอธิบายข้อดีของ CHAID กับ CRT ได้บ้าง ความหมายของการใช้วิธีหนึ่งกับอีกวิธีหนึ่งคืออะไร?
23 spss  cart 

5
ตอนนี้ฉันได้ปฏิเสธสมมติฐานว่างอะไรต่อไป
ฉันมีเวลาแล้วที่ปฏิเสธอีกครั้งหรือล้มเหลวในการปฏิเสธสมมติฐานว่าง ในกรณีที่ไม่สามารถปฏิเสธได้คุณสรุปได้ว่าไม่มีหลักฐานเพียงพอที่จะปฏิเสธและคุณ "ดำเนินการต่อ" (เช่นรวบรวมข้อมูลเพิ่มเติมยุติการทดลอง ฯลฯ ) แต่เมื่อคุณ "ทำ" ปฏิเสธสมมติฐานว่างการให้หลักฐานบางอย่างสำหรับสมมติฐานทางเลือกคุณไม่สามารถ "พิสูจน์" ได้จริง ๆ ว่าสมมติฐานทางเลือกของคุณมีความจริง ดังนั้นขั้นตอนต่อไปสามัญเมื่อคุณปฏิเสธสมมติฐานว่างคืออะไร? เครื่องมือ / เทคนิคใดที่นำไปใช้เพื่อ "วิเคราะห์ปัญหาเพิ่มเติม" เพื่อให้ข้อสรุปที่ชัดเจนยิ่งขึ้น อะไรคือ "ขั้นตอนต่อไป" เชิงตรรกะในฐานะนักสถิติที่รับประกันการวิเคราะห์เพิ่มเติม? ตัวอย่างเช่น: H0:μ1=μ0H0:μ1=μ0H_0: \mu_1 = \mu_0 (บอกว่าเรารู้ทิศทางที่คาดหวัง)H1:μ1>μ0H1:μ1>μ0H_1: \mu_1 > \mu_0 เมื่อเราปฏิเสธสมมติฐานว่างในระดับความสำคัญเรามี "หลักฐานบางอย่าง" เพื่อเป็นทางเลือกให้เป็นจริง แต่เราไม่สามารถสรุปได้ หากฉันต้องการที่จะสรุปข้อสรุปอย่างแท้จริง (ให้อภัยการเล่นคำคู่) ฉันควรทำอย่างไร ฉันไม่เคยไตร่ตรองคำถามนี้ในช่วงวันปริญญาตรีของฉัน แต่ตอนนี้ฉันกำลังทำการทดสอบสมมติฐานอย่างยุติธรรมฉันอดไม่ได้ที่จะสงสัยว่ามีอะไรรออยู่ข้างหน้า :)

2
ค่าเฉลี่ยเปอร์เซ็นต์ความผิดพลาด (MAPE) ใน Scikit-Learn [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา เราจะคำนวณค่าเฉลี่ยเปอร์เซ็นต์ความผิดพลาด (MAPE) ของการคาดคะเนของเราโดยใช้ Python และ scikit-Learn ได้อย่างไร จากเอกสารเรามีเพียง 4 ฟังก์ชันเมตริกสำหรับการถดถอยเท่านั้น: metrics.explained_variance_score (y_true, y_pred) metrics.mean_absolute_error (y_true, y_pred) metrics.mean_squared_error (y_true, y_pred) metrics.r2_score (y_true, y_pred)

2
ความเสถียรของหัวข้อในแบบจำลองหัวข้อ
ฉันกำลังทำงานในโครงการที่ฉันต้องการดึงข้อมูลบางอย่างเกี่ยวกับเนื้อหาของเรียงความแบบปลายเปิด ในโครงการนี้โดยเฉพาะ 148 คนเขียนบทความเกี่ยวกับองค์กรนักศึกษาสมมุติซึ่งเป็นส่วนหนึ่งของการทดลองที่ใหญ่กว่า แม้ว่าในสาขาของฉัน (จิตวิทยาสังคม) วิธีทั่วไปในการวิเคราะห์ข้อมูลเหล่านี้คือการเขียนเรียงความด้วยมือ แต่ฉันต้องการทำปริมาณเชิงปริมาณเนื่องจากการเขียนโค้ดด้วยมือนั้นใช้ทั้งแรงงานและบิตส่วนตัวเกินไปสำหรับฉัน ลิ้มรส ในระหว่างการสืบสวนเกี่ยวกับวิธีการวิเคราะห์ข้อมูลการตอบสนองเชิงปริมาณฉันพบวิธีการสร้างหัวข้อ (หรือการปันส่วน Dirichlet หรือ LDA) การสร้างแบบจำลองหัวข้อใช้ตัวแทนข้อมูลของคุณ (เมทริกซ์เอกสารระยะ) และใช้ข้อมูลเกี่ยวกับคำว่าเหตุการณ์ร่วมเพื่อแยกหัวข้อแฝงของข้อมูล วิธีนี้เหมาะสำหรับการสมัครของฉัน น่าเสียดายที่เมื่อฉันใช้การสร้างแบบจำลองหัวข้อกับข้อมูลของฉันฉันได้ค้นพบสองประเด็น: หัวข้อที่เปิดโดยการสร้างแบบจำลองหัวข้อบางครั้งยากที่จะตีความ เมื่อฉันเรียกใช้แบบจำลองหัวข้อของฉันอีกครั้งด้วยเมล็ดพันธุ์แบบสุ่มที่แตกต่างกันหัวข้อดูเหมือนจะเปลี่ยนไปอย่างมาก ปัญหาที่ 2 โดยเฉพาะเกี่ยวกับฉัน ดังนั้นฉันมีคำถามที่เกี่ยวข้องสองคำถาม: มีสิ่งใดบ้างที่ฉันสามารถทำได้ในโพรซีเดอร์ LDA เพื่อปรับโมเดลโพรซีเดอร์ของฉันให้เหมาะสมสำหรับการตีความและความเสถียร โดยส่วนตัวฉันไม่สนใจมากนักเกี่ยวกับการหาแบบจำลองที่มีความสับสนและ / หรือแบบจำลองที่ดีที่สุด - ส่วนใหญ่ฉันต้องการใช้ขั้นตอนนี้เพื่อช่วยให้ฉันเข้าใจและอธิบายลักษณะที่ผู้เข้าร่วมในการศึกษานี้เขียนไว้ในบทความของพวกเขา อย่างไรก็ตามฉันไม่ต้องการให้ผลลัพธ์ของฉันเป็นสิ่งประดิษฐ์ของเมล็ดสุ่ม! เกี่ยวข้องกับคำถามข้างต้นมีมาตรฐานใดสำหรับข้อมูลที่คุณต้องใช้ในการทำ LDA เอกสารส่วนใหญ่ที่ฉันเคยเห็นที่ใช้วิธีนี้วิเคราะห์ corpora ขนาดใหญ่ (เช่นเอกสารวิทยาศาสตร์ทั้งหมดที่เก็บไว้ในช่วง 20 ปีที่ผ่านมา) แต่เนื่องจากฉันใช้ข้อมูลการทดลองคลังเอกสารของฉันจึงเล็กกว่ามาก ฉันโพสต์ข้อมูลเรียงความที่นี่สำหรับทุกคนที่ต้องการทำให้มือของเขาหรือเธอสกปรกและฉันได้วางรหัส R ที่ฉันใช้ด้านล่าง require(tm) require(topicmodels) # Create …

2
การคำนวณขนาดตัวอย่างสำหรับแบบผสม
ฉันสงสัยว่ามีวิธีใดในการคำนวณขนาดตัวอย่างในโมเดลผสมหรือไม่ ฉันใช้lmerใน R เพื่อให้พอดีกับโมเดล (ฉันมีความลาดชันและจุดตัดแบบสุ่ม)

2
จะจัดการกับความแตกต่างระหว่างการกระจายตัวของชุดทดสอบและชุดฝึกอบรมอย่างไร?
ฉันคิดว่าสมมติฐานพื้นฐานหนึ่งของการเรียนรู้ของเครื่องหรือการประมาณค่าพารามิเตอร์คือข้อมูลที่มองไม่เห็นมาจากการแจกแจงแบบเดียวกับชุดการฝึกอบรม อย่างไรก็ตามในบางกรณีการกระจายชุดทดสอบเกือบจะแตกต่างจากชุดฝึกอบรม พูดสำหรับปัญหาการจัดหมวดหมู่หลากหลายขนาดใหญ่ที่พยายามแบ่งคำอธิบายผลิตภัณฑ์ออกเป็นประมาณ 17,000 คลาส ชุดการฝึกอบรมจะมีนักบวชชั้นสูงอย่างมากบางชั้นอาจมีตัวอย่างการฝึกอบรมมากมาย แต่บางคนอาจมีเพียงไม่กี่คน สมมติว่าเราได้รับชุดทดสอบที่มีเลเบลคลาสที่ไม่รู้จักจากลูกค้า เราพยายามจัดประเภทผลิตภัณฑ์แต่ละชิ้นในชุดทดสอบเป็นหนึ่งใน 17,000 คลาสโดยใช้ตัวจําแนกที่ฝึกในชุดฝึกอบรม ชุดทดสอบอาจมีการแจกแจงแบบเบ้ แต่อาจแตกต่างจากชุดการฝึกอบรมเนื่องจากอาจเกี่ยวข้องกับธุรกิจที่แตกต่างกัน หากการแจกแจงสองระดับแตกต่างกันมากลักษณนามที่ผ่านการฝึกอบรมอาจทำงานได้ไม่ดีในชุดทดสอบ เรื่องนี้ดูเหมือนชัดเจนโดยเฉพาะกับตัวจําแนก Naive Bayes มีวิธีใดที่สามารถจัดการความแตกต่างระหว่างชุดการฝึกอบรมและชุดทดสอบที่กำหนดสำหรับตัวแยกประเภทความน่าจะเป็นหรือไม่ ฉันได้ยินเกี่ยวกับการที่ "transductive SVM" ทำสิ่งที่คล้ายกันใน SVM มีเทคนิคที่คล้ายกันในการเรียนรู้ลักษณนามที่มีประสิทธิภาพดีที่สุดในชุดการทดสอบที่กำหนดหรือไม่? จากนั้นเราสามารถฝึกตัวจําแนกใหม่สําหรับชุดการทดสอบที่แตกต่างกันตามที่ได้รับอนุญาตในสถานการณ์จริงนี้

3
นักเรียนเป็นส่วนผสมของ Gaussian
ใช้เสื้อนักเรียนกับการกระจายองศาอิสระพารามิเตอร์ที่ตั้งและขนาดพารามิเตอร์มีความหนาแน่นลิตรsk>0k>0k > 0lllsss Γ ( k + 12)Γ ( k2k πs2----√){ 1 + k- 1( x - ls) }- ( k + 1 ) / 2,Γ(k+12)Γ(k2kπs2){1+k−1(x−ls)}−(k+1)/2,\frac{\Gamma \left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\sqrt{k \pi s^2}\right)} \left\{ 1 + k^{-1}\left( \frac{x-l}{s}\right)\right\}^{-(k+1)/2}, ทำอย่างไรจึงจะแสดงให้เห็นว่านักเรียน -distribution สามารถเขียนเป็นส่วนผสมของการแจกแจงแบบเกาส์โดยให้ ,และรวมความหนาแน่นของข้อต่อเพื่อให้ได้ความหนาแน่นของส่วนขอบ ? อะไรคือพารามิเตอร์ของผลลัพธ์ -distribution ซึ่งเป็นฟังก์ชั่นของ ?X ∼ N ( μ , σ 2 …

4
เกิดอะไรขึ้นกับการสุ่มหลอก (บางคน)
ฉันเจอการศึกษาที่ผู้ป่วยซึ่งอายุมากกว่า 50 ปีถูกสุ่มหลอกโดยปีเกิด ถ้าปีเกิดเป็นเลขคู่ให้ดูแลเป็นปกติถ้าจำนวนคี่แทรกแซง ง่ายต่อการติดตั้งใช้งานยากกว่าที่จะล้มล้าง (ง่ายต่อการตรวจสอบสิ่งที่ผู้ป่วยควรได้รับ) รักษาความทรงจำได้ง่าย แต่ถึงกระนั้นฉันไม่ชอบมันฉันรู้สึกว่าการสุ่มที่เหมาะสมจะดีกว่า แต่ฉันไม่สามารถอธิบายได้ว่าทำไม ฉันคิดผิดหรือรู้สึกว่ามีเหตุผลที่ดีที่จะชอบการสุ่มแบบ "ของจริง" หรือไม่?

4
มีการใช้ฟอเรสต์แบบสุ่มที่ทำงานได้ดีกับข้อมูลที่กระจัดกระจายมากหรือไม่?
มีการใช้ฟอเรสต์แบบสุ่ม R ที่ทำงานได้ดีกับข้อมูลที่กระจัดกระจายมากหรือไม่? ฉันมีตัวแปรอินพุตบูลีนหลายพันล้านตัว แต่มีเพียงร้อยหรือมากกว่าเท่านั้นที่จะเป็น TRUE สำหรับตัวอย่างที่กำหนด ฉันค่อนข้างใหม่สำหรับ R และสังเกตว่ามีแพ็คเกจ 'Matrix' สำหรับจัดการกับข้อมูลที่กระจัดกระจาย แต่แพ็คเกจ 'randomForest' มาตรฐานดูเหมือนจะไม่รู้จักชนิดข้อมูลนี้ หากมีความสำคัญข้อมูลอินพุตจะถูกสร้างขึ้นนอก R และนำเข้า คำแนะนำใด ๆ? ฉันสามารถดูการใช้ Weka, Mahout หรือแพ็คเกจอื่น ๆ


2
แม่น Bayesian ก่อน
ฉันต้องการถามคำถามที่ได้รับแรงบันดาลใจจากคำตอบที่ยอดเยี่ยมสำหรับคำถามเกี่ยวกับสัญชาตญาณการแจกแจงเบต้า ฉันต้องการได้รับความเข้าใจที่ดีขึ้นเกี่ยวกับการได้มาของการกระจายก่อนหน้านี้สำหรับค่าเฉลี่ยการตี ดูเหมือนว่าดาวิดกำลังสนับสนุนพารามิเตอร์จากค่าเฉลี่ยและช่วง ภายใต้สมมติฐานที่ว่าค่าเฉลี่ยคือและส่วนเบี่ยงเบนมาตรฐานคือ0.18คุณสามารถถอยออกαและβได้โดยการแก้สมการทั้งสองนี้: α0.270.270.270.180.180.18αα\alphaββ\betaαα+β=0.27α⋅β(α+β)2⋅(α+β+1)=0.182αα+β=0.27α⋅β(α+β)2⋅(α+β+1)=0.182\begin{equation} \frac{\alpha}{\alpha+\beta}=0.27 \\ \frac{\alpha\cdot\beta}{(\alpha+\beta)^2\cdot(\alpha+\beta+1)}=0.18^2 \end{equation}
23 bayesian  prior 

3
การแสดงภาพการสอบเทียบความน่าจะเป็นที่คาดการณ์ของแบบจำลอง
สมมติว่าฉันมีรูปแบบการทำนายที่สร้างความน่าจะเป็นสำหรับแต่ละคลาส ตอนนี้ฉันรู้แล้วว่ามีหลายวิธีในการประเมินโมเดลดังกล่าวหากฉันต้องการใช้ความน่าจะเป็นเหล่านั้นสำหรับการจัดหมวดหมู่ (ความแม่นยำการเรียกคืนและอื่น ๆ ) ฉันยังจำได้ว่าเส้นโค้ง ROC และพื้นที่ใต้นั้นสามารถใช้เพื่อกำหนดว่าแบบจำลองแตกต่างกันอย่างไรระหว่างคลาส นั่นไม่ใช่สิ่งที่ฉันถาม ฉันสนใจที่จะประเมินการสอบเทียบโมเดล ฉันรู้ว่ากฎการให้คะแนนเช่นคะแนน Brierจะมีประโยชน์สำหรับงานนี้ ไม่เป็นไรและฉันจะรวมบางสิ่งบางอย่างไว้ในบรรทัดเหล่านั้น แต่ฉันไม่แน่ใจว่าการวัดที่ใช้งานง่ายเช่นนี้จะใช้กับบุคคลทั่วไปได้อย่างไร ฉันกำลังมองหาบางสิ่งที่มองเห็นได้ชัดเจนขึ้น ฉันต้องการให้บุคคลตีความผลลัพธ์เพื่อให้สามารถเห็นว่าแบบจำลองทำนายบางสิ่งบางอย่าง 70% มีแนวโน้มที่จะเกิดขึ้นจริงหรือไม่ว่าจะเกิดขึ้นจริง ~ 70% ของเวลาเป็นต้น ฉันได้ยินเรื่องแผนการ QQ (แต่ไม่เคยใช้) และในตอนแรกฉันคิดว่านี่คือสิ่งที่ฉันกำลังมองหา แต่ก็ดูเหมือนว่ามีความหมายจริงๆสำหรับการเปรียบเทียบสองการแจกแจงความน่าจะเป็น นั่นไม่ใช่สิ่งที่ฉันมี ฉันมีความน่าจะเป็นที่คาดการณ์ของฉันจากหลาย ๆ กรณีและไม่ว่าจะเกิดขึ้นจริงหรือไม่: Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... พล็อต …

2
Scatterplot พร้อม contour / heat overlay
ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันเห็นพล็อตนี้ในส่วนเสริมของกระดาษเมื่อเร็ว ๆ นี้และฉันชอบที่จะสามารถทำซ้ำได้โดยใช้อาร์มันเป็นแผนการกระจาย ความหนาแน่นมากเกินไป ฉันจะทำสิ่งนี้ได้อย่างไร

4
Tukey HSD มีค่าเทียบเท่าที่ไม่ใช่พารามิเตอร์หรือไม่
ฉันใช้ JMP เพื่อตรวจสอบความแตกต่างในใบพืชในกลุ่มการเจริญเติบโต (ต้นไม้พุ่มไม้ forbs ฯลฯ ) ก่อนและหลังการรักษาสามครั้งด้วยการควบคุม ขนาดตัวอย่างของฉันมีขนาดเล็ก (n = 5) และการแจกแจงส่วนใหญ่ของฉันไม่ได้รับการกระจายตามปกติ สำหรับการแจกแจงแบบปกติฉันใช้ ANOVA เพื่อวิเคราะห์ความแตกต่าง (การเปลี่ยนแปลงเปอร์เซ็นต์) ระหว่างผลลัพธ์ของการรักษาจากนั้นใช้ Tukey HSD เพื่อทดสอบความสำคัญของความแตกต่างระหว่างคู่ของผลลัพธ์ สำหรับข้อมูลที่ไม่กระจายตามปกติฉันใช้การทดสอบ Wilcoxon / Kruskal-Wallis มีค่าเทียบเท่า Tukey HSD ที่ไม่ใช่พารามิเตอร์ที่ฉันสามารถใช้เพื่อตรวจสอบความแตกต่างระหว่างผลลัพธ์เหล่านี้หรือไม่

3
แบบจำลองการพยากรณ์แบบใดที่สามารถมองเห็นเป็นกรณีพิเศษของแบบจำลอง ARIMA
เช้านี้ฉันตื่นขึ้นมาด้วยความสงสัย (อาจเป็นเพราะข้อเท็จจริงที่ว่าเมื่อคืนฉันไม่ได้นอนมาก): เนื่องจากการตรวจสอบข้ามดูเหมือนจะเป็นรากฐานที่สำคัญของการพยากรณ์อนุกรมเวลาที่เหมาะสมแบบจำลองที่ฉันควรจะเป็น "ปกติ "ตรวจสอบข้ามกับ? ฉันมากับคนไม่กี่คน (ง่าย ๆ ) แต่ในไม่ช้าฉันก็รู้ว่าพวกเขาทั้งหมด แต่เป็นกรณีพิเศษของรุ่น ARIMA ดังนั้นตอนนี้ฉันก็สงสัยและนี่คือคำถามที่เกิดขึ้นจริงรูปแบบการพยากรณ์แบบใดที่ Box-Jenknins ได้รวมเข้าด้วยแล้ว ขอผมใช้วิธีนี้: Mean = ARIMA (0,0,0) ที่มีค่าคงที่ ไร้เดียงสา = ARIMA (0,1,0) Drift = ARIMA (0,1,0) ที่มีค่าคงที่ การยกกำลังอย่างง่ายแบบง่าย = ARIMA (0,1,1) การยกกำลังแบบเอ็กซ์โปเนนเชียลของโฮลท์ = ARIMA (0,2,2) Damped Holt's = ARIMA (0,1,2) สารเติมแต่งโฮลท์ - วินเทอร์: SARIMA (0,1, m + …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.