สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
คำแนะนำสำหรับวารสารโอเพนซอร์ซที่ผ่านการตรวจสอบโดยเพื่อน
ฉันมีต้นฉบับบนวิธีบูตสแตรปสำหรับทดสอบสมมุติฐานของค่าเฉลี่ยเดียวและฉันต้องการส่งเพื่อเผยแพร่ แต่ฉันมีปัญหาทางศีลธรรม ฉันได้ลงนามในการประท้วงต่อต้าน Elsevier สำหรับการดำเนินธุรกิจที่ผิดจรรยาบรรณของพวกเขาและการอ่านในประเด็นทั้งหมดทำให้ฉันถามจริยธรรมของวารสารวิชาการที่แสวงหาผลกำไรอื่น ๆ ดังนั้นฉันจึงต้องการที่จะตีพิมพ์ในวารสารที่ไม่แสวงหาผลกำไรโดยเฉพาะโอเพนซอร์สแม้ว่าฉันจะเข้าใจว่าวารสารดังกล่าวยังไม่ได้รับการพิจารณาเทียบเท่ากับวารสารที่เป็นที่ยอมรับมากกว่าเท่าที่มีชื่อเสียง โชคดีที่ฉันมีตำแหน่งนานแล้วนั่นไม่ใช่เรื่องสำคัญสำหรับฉัน ฉันขอขอบคุณคำแนะนำใด ๆ

4
ปรับให้เหมาะสมสำหรับเส้นโค้ง Precision-Recall ภายใต้ความไม่สมดุลของคลาส
ฉันมีงานการจัดหมวดหมู่ที่ฉันมีตัวทำนายจำนวนหนึ่ง (หนึ่งในนั้นมีข้อมูลมากที่สุด) และฉันใช้แบบจำลองMARSเพื่อสร้างตัวจําแนกของฉัน (ฉันสนใจในแบบจําลองง่าย ๆ และใช้ glms เพื่อจุดประสงค์ในการอธิบาย ดีเกินไป). ตอนนี้ฉันมีความไม่สมดุลระดับมากในข้อมูลการฝึกอบรม (ประมาณ 2700 ตัวอย่างลบสำหรับตัวอย่างบวกแต่ละตัวอย่าง) เช่นเดียวกับงานสืบค้นข้อมูลฉันมีความกังวลมากขึ้นเกี่ยวกับการทำนายตัวอย่างการทดสอบเชิงบวกอันดับสูงสุด ด้วยเหตุนี้ประสิทธิภาพในการโค้งแม่นยำของ Recall จึงเป็นสิ่งสำคัญสำหรับฉัน ก่อนอื่นฉันเพียงแค่ฝึกฝนโมเดลข้อมูลการฝึกอบรมของฉันเพื่อรักษาความไม่สมดุลของคลาสเหมือนเดิม ฉันเห็นรูปแบบการฝึกของฉันเป็นสีแดงและอินพุตที่สำคัญที่สุดเป็นสีน้ำเงิน การฝึกอบรมเกี่ยวกับข้อมูลที่ไม่สมดุลการประเมินข้อมูลที่ไม่สมดุล : การคิดว่าความไม่สมดุลในชั้นเรียนกำลังลดลงของแบบจำลองเนื่องจากการเรียนรู้ตัวอย่างเชิงบวกอันดับสูงสุดเป็นส่วนสั้น ๆ ของชุดข้อมูลทั้งหมดฉันเพิ่มจุดฝึกอบรมเชิงบวกเพื่อให้ได้ชุดข้อมูลการฝึกอบรมที่สมดุล เมื่อฉันวางแผนการแสดงในชุดการฝึกอบรมที่สมดุลฉันจะได้รับประสิทธิภาพที่ดี ทั้งในส่วนโค้ง PR และ ROC แบบจำลองที่ผ่านการฝึกอบรมของฉันทำได้ดีกว่าอินพุต การฝึกอบรมเกี่ยวกับข้อมูลที่สมดุล (อัปแซมปิน) การประเมินบนข้อมูลที่สมดุล (อัปแซมปิน): อย่างไรก็ตามหากฉันใช้โมเดลนี้ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่สมดุลเพื่อคาดการณ์ชุดฝึกอบรมที่ไม่สมดุลแบบดั้งเดิมฉันยังคงได้รับประสิทธิภาพที่ไม่ดีบนกราฟเส้นโค้ง การฝึกอบรมเรื่องข้อมูลที่สมดุล (อัปตัวอย่าง), การประเมินข้อมูลที่ไม่สมดุลเดิม: ดังนั้นคำถามของฉันคือ: เหตุผลที่การสร้างภาพข้อมูลของเส้นโค้ง PR แสดงถึงประสิทธิภาพที่ด้อยกว่าของรุ่นที่ได้รับการฝึกอบรมของฉัน (สีแดง) ในขณะที่เส้นโค้ง ROC แสดงการปรับปรุงเนื่องจากความไม่สมดุลของคลาส? วิธี resampling / up-sampling …

3
การแสดงจุดแยกของหลาย ๆ ชุด
มีรูปแบบการสร้างภาพข้อมูลที่ดีสำหรับการแสดงจุดตัดทับซ้อนของหลาย ๆ ชุดหรือไม่? ฉันกำลังคิดอะไรบางอย่างเช่นเวนไดอะแกรม แต่อย่างใดอาจทำให้ตัวเองดีขึ้นสำหรับชุดจำนวนมากเช่น 10 หรือมากกว่า Wikipedia แสดงชุด Venn diagrams ที่สูงขึ้น แต่แม้กระทั่งแผนภาพ 4 ชุดนั้นมีความจำเป็นอย่างมาก ฉันเดาว่าผลลัพธ์สุดท้ายของข้อมูลคือชุดจำนวนมากจะไม่ทับซ้อนกันดังนั้นจึงเป็นไปได้ที่ไดอะแกรมของ Venn จะใช้ได้ แต่ฉันต้องการหาเครื่องมือคอมพิวเตอร์ที่สามารถสร้างสิ่งนั้นได้ ดูเหมือนว่าฉันจะเหมือนกับชาร์ตของ Google ไม่อนุญาตให้มีหลายชุด

3
การจัดหมวดหมู่ R เป็นข้อความได้ดีเพียงใด [ปิด]
ฉันพยายามเพิ่มความเร็วให้สูงขึ้นด้วย R. ในที่สุดฉันก็ต้องการใช้ไลบรารี R สำหรับการจำแนกข้อความ ฉันแค่สงสัยว่าประสบการณ์ของผู้คนเกี่ยวข้องกับความสามารถในการปรับขนาดของ R เมื่อพูดถึงการจำแนกข้อความ ฉันมีแนวโน้มที่จะพบข้อมูลมิติสูง (~ 300k มิติ) ฉันกำลังมองหาการใช้ SVM และ Random Forest โดยเฉพาะอย่างยิ่งเป็นอัลกอริทึมการจำแนกประเภท ไลบรารี R จะปรับขนาดตามขนาดปัญหาของฉันหรือไม่ ขอบคุณ แก้ไข 1: เพื่อชี้แจงชุดข้อมูลของฉันมีแนวโน้มที่จะมี 1,000-3,000 แถว (อาจเพิ่มอีกเล็กน้อย) และ 10 คลาส แก้ไข 2: ตั้งแต่ฉันยังใหม่กับ R ฉันจะขอโปสเตอร์ให้เฉพาะเจาะจงมากที่สุดเท่าที่จะเป็นไปได้ ตัวอย่างเช่นหากคุณกำลังแนะนำเวิร์กโฟลว์ / ไปป์ไลน์โปรดตรวจสอบให้แน่ใจว่าได้ระบุถึงไลบรารี R ที่เกี่ยวข้องในแต่ละขั้นตอนถ้าเป็นไปได้ พอยน์เตอร์เพิ่มเติมบางอย่าง (สำหรับตัวอย่างโค้ดตัวอย่าง ฯลฯ ) จะเป็นไอซิ่งบนเค้ก แก้ไข 3: ก่อนอื่นขอขอบคุณทุกคนสำหรับความคิดเห็นของคุณ และประการที่สองฉันขอโทษบางทีฉันควรจะให้บริบทมากขึ้นสำหรับปัญหา …

4
ตรวจสอบว่าสองตัวอย่างปัวซองมีค่าเฉลี่ยเดียวกัน
นี่เป็นคำถามเบื้องต้น แต่ฉันไม่สามารถหาคำตอบได้ ฉันมีการวัดสองรายการ: เหตุการณ์ n1 ในเวลา t1 และเหตุการณ์ n2 ในเวลา t2 ทั้งคู่ผลิต (พูด) โดยกระบวนการปัวซงด้วยค่าแลมบ์ดาที่แตกต่างกัน อันนี้มาจากบทความข่าวซึ่งอ้างว่าตั้งแต่ที่ทั้งสองแตกต่างกัน แต่ฉันไม่แน่ใจว่าการอ้างสิทธิ์นั้นถูกต้อง สมมติว่าช่วงเวลาไม่ได้ถูกเลือกอย่างมีเจตนาร้าย (เพื่อเพิ่มเหตุการณ์ให้ใหญ่ที่สุดอย่างใดอย่างหนึ่ง)n1/ t1≠ n2/ t2n1/เสื้อ1≠n2/เสื้อ2n_1/t_1\neq n_2/t_2 ฉันสามารถเพียงแค่ทำT -test หรือจะว่าไม่เหมาะสม? จำนวนเหตุการณ์น้อยเกินไปสำหรับฉันที่จะโทรหาการแจกแจงแบบปกติโดยประมาณ

6
กราฟเส้นมีจำนวนบรรทัดมากเกินไปมีวิธีแก้ไขที่ดีกว่าไหม
ฉันพยายามกราฟจำนวนการกระทำของผู้ใช้ (ในกรณีนี้ "ไลค์") เมื่อเวลาผ่านไป ดังนั้นฉันจึงมี "จำนวนการกระทำ" เป็นแกน y ของฉันแกน x ของฉันคือเวลา (สัปดาห์) และแต่ละบรรทัดแสดงถึงผู้ใช้หนึ่งคน ปัญหาของฉันคือฉันต้องการดูข้อมูลนี้สำหรับกลุ่มผู้ใช้ประมาณ 100 คน กราฟเส้นจะกลายเป็นยุ่งเหยิงอย่างรวดเร็วด้วย 100 บรรทัด มีกราฟชนิดที่ดีกว่าที่ฉันสามารถใช้แสดงข้อมูลนี้หรือไม่ หรือฉันควรดูที่ความสามารถในการสลับเปิด / ปิดแต่ละบรรทัด? ฉันต้องการดูข้อมูลทั้งหมดในครั้งเดียว แต่ความสามารถในการมองเห็นจำนวนการกระทำที่มีความแม่นยำสูงนั้นไม่สำคัญอย่างยิ่ง ทำไมฉันถึงทำสิ่งนี้ สำหรับชุดย่อยของผู้ใช้ของฉัน (ผู้ใช้อันดับต้น ๆ ) ฉันต้องการค้นหาว่าแอปพลิเคชันใดที่อาจไม่ชอบเวอร์ชันใหม่ของแอพพลิเคชั่นที่เปิดตัวในวันที่กำหนด ฉันกำลังมองหาจำนวนการกระทำที่ลดลงอย่างมีนัยสำคัญโดยผู้ใช้แต่ละคน

2
การตีความของ biplots ในการวิเคราะห์องค์ประกอบหลัก
ฉันได้พบกับบทช่วยสอนที่ดีนี้: คู่มือการวิเคราะห์ทางสถิติโดยใช้อาร์บทที่ 13 การวิเคราะห์องค์ประกอบหลัก: โอลิมปิกเซพธาลอนเกี่ยวกับวิธีการทำ PCA ในภาษา R ฉันไม่เข้าใจการตีความรูปที่ 13.3: ดังนั้นฉันจึงวางแผน eigenvector แรกเทียบกับ eigenvector ที่สอง นั่นหมายความว่าอย่างไร? สมมติว่าค่าไอเกนค่าที่สอดคล้องกับไอเกนเวอเตอร์ตัวแรกอธิบาย 60% ของการเปลี่ยนแปลงในชุดข้อมูลและค่าไอเกนค่าที่สอง -Eigenvector อธิบายความแปรปรวน 20% การพล็อตสิ่งเหล่านี้กันหมายความว่าอย่างไร

1
สัญชาตญาณเบื้องหลังการโต้ตอบของผลิตภัณฑ์เทนเซอร์ในเกม (แพ็คเกจ MGCV ใน R)
ทั่วไปรุ่นสารเติมแต่งเป็นคนที่ ตัวอย่างเช่น ฟังก์ชั่นนั้นราบรื่นและสามารถประเมินได้ มักจะถูกลงโทษโดยเส้นโค้ง MGCV เป็นแพ็คเกจใน R ที่ทำเช่นนั้นและผู้แต่ง (Simon Wood) เขียนหนังสือเกี่ยวกับแพ็คเกจของเขาด้วยตัวอย่าง R Ruppert และคณะ (2003) เขียนหนังสือที่เข้าถึงได้ง่ายขึ้นเกี่ยวกับสิ่งที่เรียบง่ายกว่าในสิ่งเดียวกัน y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i คำถามของฉันเกี่ยวกับการโต้ตอบภายในแบบจำลองเหล่านี้ ถ้าฉันต้องการทำสิ่งต่อไปนี้: ถ้าเราอยู่ในดินแดน OLS (ที่เป็นเพียงเบต้า) ผมไม่มีปัญหากับการตีความ\หากเราประเมินผ่านเดอร์ไลน์ที่ถูกลงโทษฉันก็ไม่มีปัญหากับการตีความในบริบทเพิ่มเติม ฉฉ 3y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ffff^3f^3\hat{f}_3 แต่แพ็คเกจ MGCV ใน …

6
ช่วงความมั่นใจจะมีประโยชน์เมื่อใด
ถ้าฉันเข้าใจอย่างถูกต้องช่วงความเชื่อมั่นของพารามิเตอร์คือช่วงเวลาที่สร้างขึ้นโดยวิธีการที่ให้ช่วงเวลาที่มีค่าจริงสำหรับสัดส่วนตัวอย่างที่ระบุ ดังนั้น 'ความมั่นใจ' เป็นเรื่องเกี่ยวกับวิธีการมากกว่าช่วงเวลาที่ฉันคำนวณจากตัวอย่างเฉพาะ ในฐานะผู้ใช้งานของสถิติฉันรู้สึกว่าถูกโกงอยู่เสมอเนื่องจากพื้นที่ของกลุ่มตัวอย่างทั้งหมดเป็นสมมุติฐาน ทั้งหมดที่ฉันมีคือตัวอย่างหนึ่งและฉันต้องการรู้ว่าตัวอย่างนั้นบอกอะไรฉันเกี่ยวกับพารามิเตอร์ การตัดสินนี้ผิดหรือเปล่า? มีวิธีการดูช่วงความมั่นใจอย่างน้อยในบางสถานการณ์ซึ่งจะมีความหมายต่อผู้ใช้สถิติหรือไม่ [คำถามนี้เกิดขึ้นจากความคิดที่สองหลังจากหยุดใช้ช่วงความเชื่อมั่นในคำตอบ math.se https://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 # 7572 ]

2
อะไรคือความแตกต่างระหว่างการทดสอบตามปกติของชาปิโร - วิลค์กับการทดสอบภาวะปกติของ Kolmogorov-Smirnov?
อะไรคือความแตกต่างระหว่างการทดสอบตามปกติของชาปิโร - วิลค์กับการทดสอบภาวะปกติของ Kolmogorov-Smirnov? ผลลัพธ์จากทั้งสองวิธีนี้จะแตกต่างกันเมื่อใด

6
การประมาณช่วงความเชื่อมั่นแบบทวินาม - ทำไมมันไม่สมมาตร
ฉันใช้โค้ด r ต่อไปนี้เพื่อประมาณช่วงความเชื่อมั่นของสัดส่วนทวินามเพราะฉันเข้าใจว่าการแทนที่ "การคำนวณกำลังไฟฟ้า" เมื่อออกแบบตัวรับสัญญาณที่มีลักษณะการตรวจหาโรคในประชากร n คือ 150 และเราเชื่อว่าโรคนี้เป็นที่แพร่หลายในประชากร 25% ฉันคำนวณค่าความไว 75% และความเฉพาะเจาะจง 90% (เพราะนั่นคือสิ่งที่ผู้คนดูเหมือนจะทำ) binom.test(c(29,9), p=0.75, alternative=c("t"), conf.level=0.95) binom.test(c(100, 12), p=0.90, alternative=c("t"), conf.level=0.95) ฉันเคยไปที่ไซต์นี้: http://statpages.org/confint.html หน้าใดที่เป็นจาวาซึ่งคำนวณช่วงความเชื่อมั่นทวินามและให้คำตอบเดียวกัน อย่างไรก็ตามหลังจากการตั้งค่าแบบยาวนั้นฉันต้องการถามว่าทำไมช่วงความเชื่อมั่นจึงไม่สมมาตรเช่นความไวคือ 95 percent confidence interval: 0.5975876 0.8855583 sample estimate probability: 0.7631579 ขออภัยถ้านี่เป็นคำถามที่โง่ แต่ทุกที่ที่ฉันมองดูเหมือนจะแนะนำว่าพวกเขาจะสมมาตรและเพื่อนร่วมงานของฉันดูเหมือนจะคิดว่าพวกเขาจะเกินไป

4
ฟังก์ชันการสูญเสียใดที่ถูกต้องสำหรับการถดถอยโลจิสติก
ฉันอ่านเกี่ยวกับฟังก์ชั่นการสูญเสียสองรุ่นสำหรับการถดถอยโลจิสติกส์ซึ่งเป็นรุ่นใดที่ถูกต้องและเพราะเหตุใด จากMachine Learning , Zhou ZH (ภาษาจีน), ด้วย :β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 จากหลักสูตรวิทยาลัยของฉันด้วย :zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = y_if(x_i)=y_i(w^Tx_i + b) L(zi)=log(1+e−zi)(2)(2)L(zi)=log⁡(1+e−zi)L(z_i)=\log(1+e^{-z_i}) \tag 2 ฉันรู้ว่าอันแรกคือการสะสมของตัวอย่างทั้งหมดและอันที่สองสำหรับตัวอย่างเดียว แต่ฉันอยากรู้มากขึ้นเกี่ยวกับความแตกต่างในรูปแบบของฟังก์ชันการสูญเสียสองอย่าง อย่างใดฉันมีความรู้สึกว่าพวกเขาจะเทียบเท่า

1
การจัดกึ่งกลางสร้างความแตกต่างใน PCA ได้อย่างไร (สำหรับการแยกย่อย SVD และ eigen)
การจัดกึ่งกลาง (หรือลบความหมาย) ข้อมูลของคุณมีความแตกต่างจาก PCA อย่างไร ฉันได้ยินมาว่ามันทำให้คณิตศาสตร์ง่ายขึ้นหรือป้องกันพีซีเครื่องแรกไม่ให้ถูกครอบงำด้วยค่าเฉลี่ยของตัวแปร แต่ฉันรู้สึกว่าฉันยังไม่สามารถเข้าใจแนวคิดได้อย่างมั่นคง ตัวอย่างเช่นคำตอบยอดนิยมที่นี่ข้อมูลที่อยู่ตรงกลางกำจัดการสกัดกั้นในการถดถอยและ PCA ได้อย่างไร อธิบายวิธีที่การไม่อยู่ตรงกลางจะดึง PCA แรกผ่านจุดเริ่มต้นแทนที่จะเป็นแกนหลักของคลาวด์พอยต์ จากความเข้าใจของฉันเกี่ยวกับวิธีที่พีซีได้รับจาก eigenvectors เมทริกซ์ความแปรปรวนร่วมฉันไม่สามารถเข้าใจได้ว่าทำไมสิ่งนี้จึงเกิดขึ้น ยิ่งกว่านั้นการคำนวณของฉันเองที่มีและไม่มีการกำหนดกึ่งกลางดูเหมือนจะไม่สมเหตุสมผล พิจารณาดอกไม้ setosa ในirisชุดข้อมูลใน R. ฉันคำนวณค่าลักษณะเฉพาะและค่าลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมตัวอย่างดังนี้ data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 …
30 r  pca  svd  eigenvalues  centering 

3
การทดสอบทางสถิติเพื่อบอกว่าสองตัวอย่างถูกดึงจากประชากรเดียวกันหรือไม่
สมมุติว่าฉันมีสองตัวอย่าง ถ้าฉันต้องการที่จะบอกว่าพวกเขาถูกดึงมาจากประชากรที่แตกต่างกันฉันสามารถเรียกใช้การทดสอบ แต่สมมุติว่าฉันต้องการทดสอบว่ากลุ่มตัวอย่างมาจากประชากรเดียวกันหรือไม่ คนเราจะทำสิ่งนี้ได้อย่างไร นั่นคือฉันจะคำนวณความน่าจะเป็นทางสถิติที่ทั้งสองตัวอย่างถูกดึงจากประชากรเดียวกันได้อย่างไร

6
ความแตกต่างระหว่างเครือข่าย Bayes, โครงข่ายประสาทเทียม, ต้นไม้ตัดสินใจและตาข่ายของ Petri
อะไรคือความแตกต่างระหว่างโครงข่ายประสาทเทียม , เครือข่ายแบบเบย์ , ต้นไม้ตัดสินใจและตาข่ายของ Petriถึงแม้ว่าพวกมันจะเป็นโมเดลกราฟิกทั้งหมดและแสดงให้เห็นถึงความสัมพันธ์เชิงเหตุ - ผล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.