สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

7
แผนที่ความร้อนเป็นหนึ่งในการแสดงข้อมูลที่มีประสิทธิภาพน้อยที่สุดหรือไม่?
คำถาม:เมื่อใด (สำหรับปัญหาการสร้างภาพข้อมูลประเภทใด) แผนที่ความร้อนมีประสิทธิภาพมากที่สุด? (โดยเฉพาะอย่างยิ่งมีประสิทธิภาพมากกว่าเทคนิคการสร้างภาพที่เป็นไปได้อื่น ๆ ทั้งหมดหรือไม่) แผนที่ความร้อนจะมีประสิทธิภาพน้อยที่สุดเมื่อใด มีรูปแบบทั่วไปหรือกฎง่ายๆที่สามารถใช้ในการตัดสินใจหรือไม่ว่าแผนที่ความร้อนน่าจะเป็นวิธีที่มีประสิทธิภาพในการแสดงภาพข้อมูลและเมื่อพวกเขามีแนวโน้มที่จะไม่ได้ผลหรือไม่ (โดยหลักแล้วฉันมีแผนที่ความร้อนสำหรับตัวแปร 2 ประเภทและ 1 ตัวแปรต่อเนื่อง แต่ฉันสนใจที่จะรับฟังความคิดเห็นเกี่ยวกับแผนที่ความร้อนประเภทอื่น ๆ ) บริบท:ฉันกำลังเรียนหลักสูตรออนไลน์เกี่ยวกับการสร้างภาพข้อมูลและตอนนี้พวกเขากำลังพูดถึงประเภทของพล็อตที่ไม่มีประสิทธิภาพและใช้เกิน พวกเขาได้พูดถึงแผนการของไดนาไมต์และแผนภูมิวงกลมแล้วและสาเหตุที่ทำให้พวกมันไม่มีประสิทธิภาพและทำไมมีทางเลือกที่ดีกว่าสำหรับพวกเขาชัดเจนและน่าเชื่อถือสำหรับฉัน ยิ่งไปกว่านั้นมันเป็นเรื่องง่ายที่จะหาแหล่งข้อมูลอื่นที่ยืนยันความคิดเห็นเกี่ยวกับพล็อตไดนาไมต์และแผนภูมิวงกลม อย่างไรก็ตามหลักสูตรนี้ยังกล่าวอีกว่า "แผนที่ความร้อนเป็นหนึ่งในการสร้างภาพข้อมูลที่มีประสิทธิภาพน้อยที่สุด" การถอดความของสาเหตุที่ให้ไว้ด้านล่าง แต่เมื่อฉันพยายามค้นหาสถานที่อื่น ๆ บน Google ที่ยืนยันมุมมองนี้ฉันมีความยากลำบากมากในทางตรงกันข้ามกับการค้นหาความคิดเห็นเกี่ยวกับประสิทธิภาพของแผนภูมิวงกลมและแผนการระเบิด ดังนั้นฉันจึงอยากทราบว่าลักษณะของแผนที่ความร้อนที่กำหนดในหลักสูตรนั้นถูกต้องเพียงใดและเมื่อปัจจัยที่มีต่อพวกเขานั้นสำคัญน้อยที่สุดและสำคัญที่สุดสำหรับบริบทที่กำหนด เหตุผลที่ให้คือ: การแมปสีบนสเกลต่อเนื่องเป็นการยาก มีข้อยกเว้นบางประการสำหรับกฎนี้ดังนั้นจึงไม่ใช่ตัวแบ่งข้อตกลง แต่ในกรณีของแผนที่ความร้อนปัญหานั้นยากเป็นพิเศษเพราะการรับรู้ของเราเกี่ยวกับการเปลี่ยนสีขึ้นอยู่กับสีของเพื่อนบ้าน แผนที่ความร้อนจึงไม่เหมาะสำหรับการดูผลลัพธ์แต่ละรายการแม้ในชุดข้อมูลขนาดเล็ก ซึ่งนำไปสู่: การตอบคำถามที่เฉพาะเจาะจงโดยใช้วิธีการค้นหาแบบตารางนั้นไม่สามารถทำได้เนื่องจากเป็นไปไม่ได้ที่จะอนุมานด้วยความแม่นยำที่เพียงพอค่าตัวเลขที่สอดคล้องกับสีที่กำหนด บ่อยครั้งที่ข้อมูลไม่ได้ถูกจัดกลุ่มในลักษณะที่ทำให้เกิดแนวโน้ม หากไม่มีการจัดกลุ่มดังกล่าวมักเป็นเรื่องยากหรือเป็นไปไม่ได้ที่จะอนุมานอะไรเกี่ยวกับรูปแบบโดยรวมทั่วไป แผนที่ความร้อนมักใช้เพื่อสื่อสาร "ปัจจัยว้าว" หรือดูเท่โดยเฉพาะอย่างยิ่งเมื่อใช้การไล่ระดับสีแบบหลายสี แต่มักจะมีวิธีที่ดีกว่าในการสื่อสารข้อมูล การลงจุดข้อมูลอย่างต่อเนื่องในระดับทั่วไปเป็นตัวเลือกที่ดีที่สุดเสมอ หากมีองค์ประกอบเวลาตัวเลือกที่ชัดเจนที่สุดคือพล็อตบรรทัด

1
ทำไมฟังก์ชั่นต้นทุนของโครงข่ายประสาทเทียมจึงไม่นูน?
มีเธรดที่คล้ายกันที่นี่ ( ฟังก์ชั่นต้นทุนของเครือข่ายประสาทเทียมไม่ใช่แบบนูน? ) แต่ฉันไม่สามารถเข้าใจประเด็นในคำตอบที่นั่นและเหตุผลของฉันในการถามอีกครั้งโดยหวังว่าสิ่งนี้จะชี้แจงปัญหาบางอย่าง: ถ้าฉันใช้ผลรวมของฟังก์ชั่นค่าใช้จ่ายผลต่างยกกำลังสองในที่สุดฉันก็ปรับรูปแบบโดยที่คือค่าฉลากจริงในระหว่างการฝึก เฟสและเป็นค่าป้ายกำกับที่คาดการณ์ไว้ เนื่องจากนี่เป็นรูปสี่เหลี่ยมจัตุรัสจึงควรเป็นฟังก์ชันต้นทุนนูน แล้วอะไรคือสิ่งที่ทำให้นูนใน NN ไม่ได้? Y YΣNi=1(yi−yi^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2yyyy^y^\hat{y}

6
ค่าเฉลี่ยความขัดแย้ง - สิ่งนี้เรียกว่าอะไร?
ฉันมีชุดข้อมูล พูดข้อสังเกตข้อและตัวแปรตัว:3101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 1 บอกว่าเป็นลูกค้าที่ได้ซื้อ ( ) หรือไม่ …

5
เมื่อ A และ B เกี่ยวข้องกับตัวแปรเชิงบวกพวกเขาสามารถมีผลตรงกันข้ามกับตัวแปรผลลัพธ์ C ได้หรือไม่?
A มีความสัมพันธ์เชิงบวกกับ B. C คือผลลัพธ์ของ A และ B แต่ผลของ A ต่อ C นั้นเป็นลบและผลของ B ต่อ C นั้นเป็นบวก เกิดขึ้นได้ไหม?

3
Relu vs Sigmoid vs Softmax เป็นเซลล์ประสาทชั้นที่ซ่อนอยู่
ฉันกำลังเล่นกับ Neural Network ที่มีเลเยอร์ที่ซ่อนเพียงหนึ่งเดียวโดย Tensorflow และจากนั้นฉันลองเปิดใช้งานที่แตกต่างกันสำหรับเลเยอร์ที่ซ่อนอยู่: Relu sigmoid Softmax (ดีมักจะใช้ softmax ในเลเยอร์สุดท้าย .. ) Relu ให้ความแม่นยำและการตรวจสอบความถูกต้องของรถไฟที่ดีที่สุด ฉันไม่แน่ใจว่าจะอธิบายเรื่องนี้อย่างไร เรารู้ว่า Relu มีคุณสมบัติที่ดีเช่น sparsity เช่น no-gradient-vanishing เป็นต้น แต่ ถาม: เซลล์ประสาท Relu โดยทั่วไปนั้นดีกว่าเซลล์ประสาท sigmoid / softmax หรือไม่? เราควรใช้เซลล์ประสาท Relu ใน NN (หรือแม้แต่ CNN) เกือบทุกครั้งหรือไม่? ฉันคิดว่าเซลล์ประสาทที่ซับซ้อนมากขึ้นจะแนะนำผลลัพธ์ที่ดีกว่าอย่างน้อยก็ฝึกความแม่นยำถ้าเรากังวลเกี่ยวกับการมีน้ำหนักเกิน ขอบคุณ PS: โค้ดนั้นมาจาก "Udacity-Machine learning -assignment2" ซึ่งเป็นการรับรู้ของ notMNIST โดยใช้ …

3
ทำไมต้องใช้การไล่ระดับสีด้วยเครือข่ายประสาท
เมื่อทำการฝึกอบรมเครือข่ายประสาทเทียมโดยใช้อัลกอริธึมการขยายพันธุ์แบบย้อนกลับจะใช้วิธีการไล่ระดับสีแบบไล่ระดับสีเพื่อกำหนดน้ำหนักการอัพเดท คำถามของฉันคือ: แทนที่จะใช้วิธีการไล่ระดับสีไล่ระดับเพื่อค้นหาจุดต่ำสุดอย่างช้าๆตามน้ำหนักที่กำหนดทำไมเราไม่ตั้งอนุพันธ์ , และหาค่าของน้ำหนักซึ่งช่วยลดข้อผิดพลาดหรือไม่wd( ข้อผิดพลาด)dW= 0d(Error)dw=0\frac{d(\text{Error})}{dw}=0Www นอกจากนี้เรามั่นใจว่าเหตุใดฟังก์ชันข้อผิดพลาดในการเผยแพร่ย้อนหลังจึงเป็นขั้นต่ำ มันไม่สามารถเปิดฟังก์ชั่นข้อผิดพลาดได้สูงสุดหรือไม่? มีคุณสมบัติเฉพาะของฟังก์ชั่นการบีบอัดที่รับประกันได้ว่าเครือข่ายที่มีจำนวนโหนดที่ซ่อนอยู่ใด ๆ ที่มีน้ำหนักตามอำเภอใจและเวกเตอร์การป้อนข้อมูลจะให้ฟังก์ชั่นข้อผิดพลาดที่มีขนาดเล็กที่สุดหรือไม่?

4
ตัวประมาณโอกาสสูงสุดที่ไม่เอนเอียงเป็นตัวประมาณค่าแบบเป็นกลางที่ดีที่สุดเสมอหรือไม่
ฉันรู้ปัญหาที่เกิดขึ้นเป็นประจำหากเรามีตัวประมาณค่าแบบไม่เอนเอียงที่ดีที่สุดมันต้องเป็นตัวประมาณความเป็นไปได้สูงสุด (MLE) แต่โดยทั่วไปถ้าเรามี MLE ที่ไม่เอนเอียงมันจะเป็นตัวประมาณที่ดีที่สุด (หรือบางทีฉันควรเรียกมันว่า UMVUE ตราบใดที่มันมีความแปรปรวนน้อยที่สุด)

2
วิธีการหาค่าฟังก์ชันความน่าจะเป็นสำหรับการแจกแจงแบบทวินามสำหรับการประมาณค่าพารามิเตอร์
ตามที่มิลเลอร์และ Freund ของความน่าจะเป็นและสถิติสำหรับวิศวกร 8ED (pp.217-218) ฟังก์ชั่นความเป็นไปได้ที่จะขยายใหญ่สุดสำหรับการกระจายทวินาม (Bernoulli ทดลอง) จะได้รับเป็น L ( p ) = ∏ni = 1พีxผม( 1 - p )1 - xผมL(พี)=Πผม=1nพีxผม(1-พี)1-xผมL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} จะมาถึงสมการนี้ได้อย่างไร ดูเหมือนว่าฉันจะค่อนข้างชัดเจนเกี่ยวกับดิสทริบิวชันอื่น ๆ ปัวซองและเกาส์; L ( θ ) = ∏ni = 1PDF หรือ PMF ของ distL(θ)=Πผม=1nPDF หรือ PMF ของ distL(\theta) = \prod_{i=1}^n \text{PDF or PMF …

4
ชื่อของแผนภูมินี้แสดงอัตราบวกที่เป็นเท็จและจริงคืออะไรและสร้างขึ้นอย่างไร
ภาพด้านล่างแสดงเส้นโค้งต่อเนื่องของอัตราบวกเป็นบวกเทียบกับอัตราบวกจริง: อย่างไรก็ตามสิ่งที่ฉันไม่ได้รับทันทีคือวิธีคำนวณอัตราเหล่านี้ หากมีการใช้วิธีการกับชุดข้อมูลจะมีอัตรา FP ที่แน่นอนและอัตรา FN ที่แน่นอน ไม่ได้หมายความว่าแต่ละวิธีควรมีจุดเดียวมากกว่าเป็นเส้นโค้งใช่หรือไม่ แน่นอนว่ามีหลายวิธีในการกำหนดค่าวิธีการสร้างจุดที่แตกต่างกันหลายอย่าง แต่ก็ไม่ชัดเจนสำหรับฉันว่ามีอัตราความต่อเนื่องนี้หรือวิธีที่สร้างขึ้น

4
เหตุใดวิธีการแบบเบย์จึงไม่ต้องการการทดสอบแก้ไขหลายรายการ?
Andrew Gelman เขียนบทความมากมายเกี่ยวกับสาเหตุที่การทดสอบแบบเบย์ไม่ต้องใช้การแก้ไขสมมติฐานหลายประการ: ทำไมเรา (โดยปกติ) ไม่ต้องกังวลเกี่ยวกับการเปรียบเทียบหลายแบบ , 2012 ฉันไม่ค่อยเข้าใจ: ทำไมวิธีการแบบเบย์จึงไม่จำเป็นต้องมีการแก้ไขการทดสอบหลายครั้ง A ~ Distribution1 + Common Distribution B ~ Distribution2 + Common Distribution C ~ Distribution3 + Common Distribution Common Distribution ~ Normal ความเข้าใจของฉันคือว่าวิธีการแบบเบย์ที่แสดงข้างต้นบัญชีสำหรับการกระจายพื้นฐานที่ใช้ร่วมกันโดยสมมติฐานทั้งหมด (ซึ่งแตกต่างจากการแก้ไข Bonferroni บ่อยครั้ง) เหตุผลของฉันถูกต้องหรือไม่

3
การแจกแจงทวินามลบกับการแจกแจงทวินาม
อะไรคือความแตกต่างระหว่างการแจกแจงทวินามลบและการแจกแจงทวินาม ฉันลองอ่านออนไลน์และฉันพบว่าการแจกแจงทวินามลบเมื่อจุดข้อมูลไม่ต่อเนื่อง แต่ฉันคิดว่าแม้กระทั่งการแจกแจงทวินามก็สามารถใช้สำหรับจุดข้อมูลแบบแยก

1
การลงโทษสะพานเทียบกับการทำให้เป็นมาตรฐานสุทธิยืดหยุ่น
ฟังก์ชันการลงโทษและการประมาณค่าบางอย่างนั้นได้รับการศึกษาอย่างดีเช่น LASSO ( L1L1L_1 ) และ Ridge ( L2L2L_2 ) และการเปรียบเทียบเหล่านี้ในการถดถอยอย่างไร ฉันได้อ่านเกี่ยวกับบทลงโทษของบริดจ์ซึ่งเป็นบทลงโทษทั่วไป เปรียบเทียบกับ LASSO ซึ่งมี\ gamma = 1และ Ridge กับ\ gamma = 2ทำให้เป็นกรณีพิเศษ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ] เปรียบเทียบการลงโทษสะพานเมื่อγ≥1γ≥1\gamma \geq 1กับ LASSO แต่ฉันไม่พบการเปรียบเทียบกับการวางตัวแบบยืดหยุ่นสุทธิการรวมกันของการลงโทษ LASSO และแนวสันเขาให้เป็น∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}{1} นี่เป็นคำถามที่น่าสนใจเพราะ Elastic Net และ Bridge เฉพาะนี้มีรูปแบบข้อ จำกัด ที่คล้ายกัน เปรียบเทียบวงกลมหน่วยเหล่านี้โดยใช้การวัดที่แตกต่างกัน …

2
ทำไม Laplace จึงผลิตสารละลายแบบเบาบาง?
ฉันดูวรรณกรรมเกี่ยวกับการทำให้เป็นระเบียบและมักจะเห็นย่อหน้าที่เชื่อมโยงการควบคุม L2 กับ Gaussian ก่อนและ L1 กับ Laplace โดยมีศูนย์เป็นศูนย์ ฉันรู้ว่านักบวชเหล่านี้มีหน้าตาเป็นอย่างไร แต่ฉันไม่เข้าใจว่ามันแปลอย่างไรเช่นตุ้มน้ำหนักในตัวแบบเชิงเส้น ใน L1 ถ้าฉันเข้าใจอย่างถูกต้องเราคาดหวังว่าการแก้ปัญหาแบบกระจัดกระจายนั่นคือน้ำหนักบางส่วนจะถูกผลักจนเหลือศูนย์ และใน L2 เราจะได้น้ำหนักเล็ก ๆ แต่ไม่ให้น้ำหนักเป็นศูนย์ แต่ทำไมมันเกิดขึ้น? โปรดแสดงความคิดเห็นหากฉันต้องการให้ข้อมูลเพิ่มเติมหรือชี้แจงเส้นทางการคิดของฉัน

1
ใช้ความสัมพันธ์เป็นตัวชี้วัดระยะทาง (สำหรับการจัดกลุ่มแบบลำดับชั้น)
ฉันต้องการจัดกลุ่มข้อมูลของฉันแบบลำดับชั้น แต่แทนที่จะใช้ระยะทางแบบยุคลิดฉันต้องการใช้ความสัมพันธ์ นอกจากนี้เนื่องจากค่าสัมประสิทธิ์สหสัมพันธ์มีค่าตั้งแต่ -1 ถึง 1 โดยที่ทั้ง -1 และ 1 แสดงถึง "การควบคุมร่วม" ในการศึกษาของฉันฉันจึงรักษาทั้ง -1 และ 1 เป็น d = 0 ดังนั้นการคำนวณของฉันคือ d= 1 - | r | d=1-|R|\ d = 1-|r| ผมอ่านในคำถามที่แยกต่างหาก (เกี่ยวกับ K-วิธีการจัดกลุ่ม) ที่คุณควรแปลงRเข้าจริง euclidean dใช้ทฤษฎีบทโคไซน์:d= 2 ( 1 - r )-------√d=2(1-R)d = \sqrt{2(1-r)} วิธีที่ถูกต้องที่สุดในการแปลงสหสัมพันธ์เป็นระยะทางสำหรับการจัดกลุ่มแบบลำดับชั้นคืออะไร

2
ฉันควรใช้ตัวอักษร "N" ใน "การแจกแจงแบบปกติ" ในภาษาอังกฤษแบบอังกฤษหรือไม่
คำถามนี้เป็นฟิลด์ซ้ายเล็กน้อย แต่ฉันคิดว่าชุมชนที่นี่อาจมีมุมมองที่แข็งแกร่งในเรื่อง! ฉันกำลังเขียนวิทยานิพนธ์เอกของฉัน อย่างต่อเนื่องเมื่อพูดถึงปริมาณที่เกี่ยวข้องอย่างเป็นทางการกับการแจกแจงแบบเกาส์เซียนฉันได้ใช้ "N" ใน "ปกติ" เพื่ออ้างอิงถึงพวกมัน ตัวอย่างเช่น "[... ภายใต้สถานการณ์เช่นนี้] การกระจายที่ได้นั้นไม่ปกติ แต่อธิบายโดย [... ]" หัวหน้างานของฉันได้อ่านบทที่เกี่ยวข้องและแทนที่พวกเขาทุกคนด้วยตัวพิมพ์เล็ก 'n' ฉันไม่สามารถหาวรรณกรรมที่ชัดเจนใด ๆ ในเรื่อง - สปริงเกอร์เห็นได้ชัดว่าต้องการชื่อทุนอย่างถูกต้องและเป็นไปตามอีกครับสุ่มบนอินเทอร์เน็ตพะวงชื่อกระจายเป็นความคิดที่ดี การขาดแนวทางสไตล์ที่ชัดเจนสำหรับวิทยานิพนธ์ของฉันฉันคิดว่าฉันจะหันไปหาชุมชนผู้เชี่ยวชาญ - สิ่งที่ทำกันทั่วไปและทำไม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.