สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
ความหมายเชิงสัญชาตญาณของการมีความสัมพันธ์เชิงเส้นระหว่างบันทึกของตัวแปรสองตัวคืออะไร?
ฉันมีตัวแปรสองตัวที่ไม่แสดงความสัมพันธ์มากนักเมื่อพล็อตต่อกันอย่างที่เป็นอยู่ แต่ความสัมพันธ์เชิงเส้นที่ชัดเจนมากเมื่อฉันพล็อตบันทึกของตัวแปรแต่ละตัวจะมีความสัมพันธ์กัน ดังนั้นฉันจะจบลงด้วยรูปแบบของประเภท: log(Y)=alog(X)+blog⁡(Y)=alog⁡(X)+b\log(Y) = a \log(X) + bซึ่งยอดเยี่ยมในเชิงคณิตศาสตร์ แต่ดูเหมือนจะไม่มีค่าที่อธิบายได้ของตัวแบบเชิงเส้นปกติ ฉันจะตีความรูปแบบดังกล่าวได้อย่างไร

2
ความแตกต่างระหว่าง initializer scaling initializer และ xavier initializer คืออะไร
ในการใช้งานResNetของ Tensorflow ฉันพบว่าพวกเขาใช้ initializer scaling initializer ฉันยังพบว่า xavier initializer นั้นเป็นที่นิยม ฉันไม่มีประสบการณ์มากเกินไปเกี่ยวกับเรื่องนี้

9
Overfitting และ Underfitting
ฉันได้ทำการวิจัยบางอย่างเกี่ยวกับการให้น้ำหนักมากไปและ underfitting และฉันเข้าใจว่ามันคืออะไร แต่ฉันไม่สามารถหาสาเหตุได้ อะไรคือสาเหตุหลักของการทำ overfitting และ underfitting? ทำไมเราต้องเผชิญกับปัญหาทั้งสองนี้ในการฝึกอบรมนางแบบ?

1
lme () และ lmer () ให้ผลลัพธ์ที่ขัดแย้งกัน
ฉันทำงานกับข้อมูลบางอย่างที่มีปัญหากับการวัดซ้ำ ๆ ในการทำเช่นนั้นฉันสังเกตเห็นพฤติกรรมที่แตกต่างกันมากระหว่างlme()และlmer()ใช้ข้อมูลทดสอบของฉันและต้องการทราบสาเหตุ ชุดข้อมูลปลอมที่ฉันสร้างขึ้นนั้นมีการวัดส่วนสูงและน้ำหนักสำหรับ 10 วิชาถ่ายสองครั้ง ฉันตั้งค่าข้อมูลเพื่อให้ระหว่างวิชาจะมีความสัมพันธ์เชิงบวกระหว่างความสูงและน้ำหนัก แต่ความสัมพันธ์เชิงลบระหว่างการวัดซ้ำภายในแต่ละบุคคล set.seed(21) Height=1:10; Height=Height+runif(10,min=0,max=3) #First height measurement Weight=1:10; Weight=Weight+runif(10,min=0,max=3) #First weight measurement Height2=Height+runif(10,min=0,max=1) #second height measurement Weight2=Weight-runif(10,min=0,max=1) #second weight measurement Height=c(Height,Height2) #combine height and wight measurements Weight=c(Weight,Weight2) DF=data.frame(Height,Weight) #generate data frame DF$ID=as.factor(rep(1:10,2)) #add subject ID DF$Number=as.factor(c(rep(1,10),rep(2,10))) #differentiate between first and second measurement นี่คือพล็อตของข้อมูลที่มีเส้นเชื่อมต่อการวัดทั้งสองจากแต่ละบุคคล …

3
ค้นหาวิธีการจำลองตัวเลขสุ่มสำหรับการแจกแจงนี้
ฉันพยายามเขียนโปรแกรมใน R ที่จำลองตัวเลขสุ่มหลอกจากการแจกจ่ายด้วยฟังก์ชันการแจกแจงสะสม: F(x)=1−exp(−ax−bp+1xp+1),x≥0F(x)=1−exp⁡(−ax−bp+1xp+1),x≥0F(x)= 1-\exp \left(-ax-\frac{b}{p+1}x^{p+1}\right), \quad x \geq 0 โดยที่a,b>0,p∈(0,1)a,b>0,p∈(0,1)a,b>0, p \in (0,1) ฉันพยายามสุ่มตัวอย่างการแปลงผกผัน แต่การผกผันดูเหมือนจะไม่สามารถแก้ไขได้ ฉันจะดีใจถ้าคุณสามารถแนะนำวิธีแก้ปัญหานี้

2
FPR (อัตราบวกเป็นเท็จ) เทียบกับ FDR (อัตราการค้นพบที่ผิด)
ข้อความต่อไปนี้มาจากบทความวิจัยที่มีชื่อเสียงนัยสำคัญทางสถิติสำหรับการศึกษาจีโนมไวด์โดย Storey & Tibshirani (2003): ตัวอย่างเช่นอัตราบวกปลอม 5% หมายความว่าโดยเฉลี่ย 5% ของคุณสมบัติที่เป็นโมฆะจริงในการศึกษาจะเรียกว่ามีนัยสำคัญ FDR (อัตราการค้นพบที่ผิดพลาด) ที่ 5% หมายความว่าในทุกฟีเจอร์ที่เรียกว่าสำคัญ 5% ของฟีเจอร์เหล่านี้มีค่าเฉลี่ยโดยแท้จริง ใครสามารถอธิบายสิ่งที่หมายถึงการใช้ตัวอย่างที่เป็นตัวเลขหรือภาพง่าย? ฉันมีเวลายากที่จะเข้าใจความหมายของมัน ฉันพบโพสต์ต่าง ๆ ใน FDR หรือ FPR เพียงอย่างเดียว แต่ไม่พบที่ ๆ ทำการเปรียบเทียบเฉพาะ มันจะดีเป็นพิเศษหากมีผู้เชี่ยวชาญในพื้นที่นี้สามารถแสดงสถานการณ์ที่คนหนึ่งดีกว่าคนอื่นหรือทั้งสองอย่างนั้นดีหรือไม่ดี

4
ตัวอย่างของการแจกแจงแบบไม่ต่อเนื่องที่ไม่เป็นลบโดยที่ค่าเฉลี่ย (หรือช่วงเวลาอื่น) ไม่อยู่?
ฉันกำลังทำงานใน scipy และการสนทนาเกิดขึ้นกับสมาชิกของกลุ่ม scipy หลักว่าตัวแปรสุ่มแยกแบบไม่ต่อเนื่องสามารถมีช่วงเวลาที่ไม่ได้กำหนด ฉันคิดว่าเขาถูกต้อง แต่ไม่มีข้อพิสูจน์ที่มีประโยชน์ ทุกคนสามารถแสดง / พิสูจน์ข้อเรียกร้องนี้ได้หรือไม่? (หรือถ้าการเรียกร้องนี้ไม่ได้พิสูจน์หักล้างจริง) ฉันไม่ได้มีตัวอย่างที่มีประโยชน์ถ้าตัวแปรสุ่มแบบแยกนั้นสนับสนุนแต่ดูเหมือนว่าการแจกจ่าย Cauchy บางรุ่นที่ไม่ควรนำมาใช้เป็นตัวอย่างเพื่อให้ได้ช่วงเวลาที่ไม่ได้กำหนด เงื่อนไขของการไม่ปฏิเสธ (อาจรวมถึง ) เป็นสิ่งที่ดูเหมือนจะทำให้ปัญหาท้าทาย (อย่างน้อยสำหรับฉัน) 0ZZ\mathbb{Z}000

4
ความน่าจะเป็นในชีวิตประจำวันเป็นเพียงวิธีการจัดการกับสิ่งแปลกปลอม (ไม่ใช่การพูดควอนตัมฟิสิกส์ที่นี่) หรือไม่?
ดูเหมือนว่าในความน่าจะเป็นในชีวิตประจำวัน (ไม่ใช่ฟิสิกส์ควอนตัม) ความน่าจะเป็นเป็นเพียงสิ่งที่ไม่รู้จัก ยกตัวอย่างเช่นการพลิกเหรียญ เราบอกว่ามันเป็น "สุ่ม" การเปลี่ยนแปลงของหัว 50% และมีโอกาส 50% ที่จะก้อย อย่างไรก็ตามถ้าฉันรู้ความหนาแน่นขนาดและรูปร่างของเหรียญอย่างแน่นอน ความหนาแน่นของอากาศ ด้วยแรงที่เหรียญพลิก ตรงที่วางกำลัง; ระยะทางของเหรียญกับพื้น เป็นต้นฉันจะไม่สามารถคาดการณ์ได้โดยใช้ฟิสิกส์พื้นฐานด้วยความแม่นยำ 100% ไม่ว่าจะลงบนหัวหรือก้อย ถ้าใช่ความน่าจะเป็นในสถานการณ์นี้ไม่ใช่วิธีที่ฉันจัดการกับข้อมูลที่ไม่สมบูรณ์ใช่หรือไม่ มันไม่เหมือนกันถ้าฉันสับไพ่ (ซึ่งฉันคิดอะไรเกี่ยวกับมัน) ฉันปฏิบัติตามคำสั่งของการ์ดโดยการสุ่มเพราะฉันไม่รู้ว่าคำสั่งซื้อคืออะไร แต่ก็ไม่เหมือนกับว่ามีโอกาส 1/52 ที่ไพ่ใบแรกที่ฉันจับคือ Ace of Spades - 100% คือ เอซโพดำหรือ 100% ไม่ใช่ ถ้ากลิ้งลูกเต๋าและสับไพ่ไม่สุ่มมันจะไม่ตามเครื่องกำเนิดเลขสุ่มแบบคอมพิวเตอร์ที่ไม่สุ่มเพราะถ้าฉันรู้อัลกอริทึม (และอาจเป็นตัวแปรอื่น ๆ ) ฉันรู้ว่า จำนวนจะเป็นอย่างไร ขอบคุณล่วงหน้าสำหรับทุกคนที่ใช้เวลาในการตอบโดยเฉพาะคำถาม noob จากคนที่ไม่ใช่คณิตศาสตร์อย่างตัวฉัน ฉันไม่ต้องการที่จะไป reddit เพราะคนจำนวนมากแกล้งมีความรู้ แต่ไม่ใช่ ข้อสังเกตเพิ่มเติมเกี่ยวกับเมตา: ครั้งแรกผมรู้ว่ามีคำถามที่คล้ายกันอยู่แล้วรับการตอบรับสุ่ม …

1
การถดถอยสำหรับตัวแปรอิสระอย่างเด็ดขาดและขึ้นอยู่กับอย่างต่อเนื่อง
ฉันเพิ่งรู้ว่าฉันได้ทำงานเสมอปัญหาการถดถอยที่ตัวแปรอิสระเป็นตัวเลขเสมอ ฉันสามารถใช้การถดถอยเชิงเส้นในกรณีที่ตัวแปรอิสระทั้งหมดจัดหมวดหมู่ได้หรือไม่?

5
ตัวอย่างที่หลักการความน่าจะเป็น * สำคัญจริงๆหรือ?
มีตัวอย่างที่การทดสอบที่ป้องกันได้สองแบบที่แตกต่างกันซึ่งมีความน่าจะเป็นสัดส่วนจะนำไปสู่การอนุมานที่แตกต่างกันอย่างชัดเจน (และการป้องกันที่เท่ากัน) อย่างเช่นที่ p-values ​​เป็นลำดับของขนาดไกลออกไป ตัวอย่างทั้งหมดที่ฉันเห็นนั้นโง่มากการเปรียบเทียบทวินามกับลบทวินามโดยที่ p-value ของอันแรกคือ 7% และ 3% ที่สองซึ่งเป็น "แตกต่าง" เพียงอย่างเดียวที่จะทำการตัดสินใจไบนารีบนธรณีประตูตามอำเภอใจ อย่างมีนัยสำคัญเช่น 5% (ซึ่งโดยวิธีการเป็นมาตรฐานที่ค่อนข้างต่ำสำหรับการอนุมาน) และไม่ต้องกังวลกับการดูที่อำนาจ ถ้าฉันเปลี่ยนเกณฑ์เป็น 1% ทั้งคู่นำไปสู่ข้อสรุปเดียวกัน ฉันไม่เคยเห็นตัวอย่างที่จะนำไปสู่ข้อสรุปที่แตกต่างและชัดเจนซึ่งสามารถป้องกันได้ มีตัวอย่างเช่นนี้หรือไม่? ฉันถามเพราะฉันเห็นหมึกจำนวนมากที่ใช้ในหัวข้อนี้ราวกับว่าหลักการความน่าจะเป็นเป็นพื้นฐานในการอนุมานเชิงสถิติ แต่ถ้าตัวอย่างที่ดีที่สุดมีตัวอย่างที่ไร้สาระเหมือนตัวอย่างข้างต้นหลักการนั้นดูเหมือนจะไม่สมบูรณ์ ดังนั้นฉันกำลังมองหาตัวอย่างที่น่าสนใจมากซึ่งหากไม่มีใครทำตาม LP น้ำหนักของหลักฐานจะชี้ไปในทิศทางเดียวอย่างท่วมท้นเมื่อได้รับการทดสอบเพียงครั้งเดียว แต่ในการทดสอบอื่นที่มีความเป็นไปได้สัดส่วนน้ำหนักของหลักฐานจะ จะชี้ไปในทิศทางตรงกันข้ามอย่างท่วมท้นและข้อสรุปทั้งสองดูสมเหตุสมผล ตามหลักการแล้วเราสามารถแสดงให้เห็นว่าเรามีคำตอบที่ห่างไกล แต่มีเหตุผลเช่นการทดสอบด้วยp=0.1พี=0.1p =0.1เทียบกับp=10−10พี=10-10p= 10^{-10}ด้วยความน่าจะเป็นสัดส่วนและพลังงานที่เทียบเท่าในการตรวจหาทางเลือกเดียวกัน PS:คำตอบของบรูซไม่ได้ตอบคำถามเลย

3
การทำความเข้าใจกับพารามิเตอร์ input_shape ใน LSTM ด้วย Keras
ฉันพยายามใช้ตัวอย่างที่อธิบายไว้ในเอกสารประกอบของ Kerasชื่อ "Stacked LSTM สำหรับการจำแนกลำดับ" (ดูรหัสด้านล่าง) และไม่สามารถหาinput_shapeพารามิเตอร์ในบริบทของข้อมูลของฉัน ฉันมีเป็น input เมทริกซ์ของลำดับของ 25 ตัวอักษรที่เป็นไปได้เข้ารหัสในจำนวนเต็มลำดับเบาะของความยาวสูงสุด 31 เป็นผลให้ฉันx_trainมีรูปร่างความหมาย(1085420, 31)(n_observations, sequence_length) from keras.models import Sequential from keras.layers import LSTM, Dense import numpy as np data_dim = 16 timesteps = 8 num_classes = 10 # expected input data shape: (batch_size, timesteps, data_dim) model = Sequential() model.add(LSTM(32, …
20 lstm  keras  shape  dimensions 

1
ทำไม LASSO ถึงไม่หาคู่ทำนายที่สมบูรณ์แบบของฉันในมิติที่สูง?
ฉันใช้การทดลองเล็ก ๆ กับ LASSO regression ใน R เพื่อทดสอบว่ามันสามารถหาคู่ทำนายที่สมบูรณ์แบบได้หรือไม่ ทั้งคู่มีการกำหนดดังนี้: f1 + f2 = result ผลลัพธ์ที่ได้คือเวกเตอร์ที่กำหนดไว้ล่วงหน้าที่เรียกว่า 'อายุ' F1 และ f2 ถูกสร้างขึ้นโดยใช้เวกเตอร์อายุครึ่งหนึ่งและตั้งค่าที่เหลือเป็น 0 ตัวอย่างเช่น: age = [1,2,3,4,5,6], f1 = [1,2,3, 0,0,0] และ f2 = [0,0,0,4,5,6] ฉันรวมคู่ทำนายนี้กับจำนวนที่เพิ่มขึ้นของตัวแปรที่สร้างแบบสุ่มโดยการสุ่มตัวอย่างจากการแจกแจงปกติ N (1,1) สิ่งที่ฉันเห็นคือเมื่อฉันกด 2 ^ 16 ตัวแปร LASSO ไม่พบคู่ของฉันอีกต่อไป ดูผลลัพธ์ด้านล่าง ทำไมสิ่งนี้จึงเกิดขึ้น คุณสามารถทำซ้ำผลลัพธ์ด้วยสคริปต์ด้านล่าง ฉันสังเกตว่าเมื่อฉันเลือกเวกเตอร์อายุที่แตกต่างกันเช่น: [1: 193] ดังนั้น …

4
หากการเปรียบเทียบหลายรายการเป็นแบบ“ วางแผน” คุณยังต้องแก้ไขหลายรายการหรือไม่
ฉันกำลังตรวจสอบกระดาษที่มีการทดสอบ> ทดสอบ 2x2 Chi Square แยกกัน 15 ครั้ง ฉันแนะนำว่าพวกเขาต้องแก้ไขให้ถูกต้องสำหรับการเปรียบเทียบหลาย ๆ ครั้ง แต่พวกเขาได้ตอบว่าการเปรียบเทียบทั้งหมดนั้นมีการวางแผนและดังนั้นจึงไม่จำเป็น ฉันรู้สึกว่าสิ่งนี้จะต้องไม่ถูกต้อง แต่ไม่สามารถค้นหาแหล่งข้อมูลที่ระบุอย่างชัดเจนว่าเป็นกรณีนี้หรือไม่ ใครช่วยได้บ้าง ปรับปรุง: ขอบคุณสำหรับคำตอบที่เป็นประโยชน์ทั้งหมดของคุณ เพื่อตอบสนองต่อคำขอของ @ gung สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการศึกษาและการวิเคราะห์พวกเขากำลังเปรียบเทียบข้อมูลการนับสำหรับผู้เข้าร่วมสองประเภท (นักเรียนที่ไม่ใช่นักเรียน) ในสองเงื่อนไขในช่วงเวลาสามช่วงเวลา การทดสอบ 2x2 Chi Square หลายครั้งจะถูกเปรียบเทียบในแต่ละช่วงเวลาในแต่ละเงื่อนไขสำหรับผู้เข้าร่วมแต่ละประเภท (ถ้าเหมาะสม) เช่นนักเรียนเงื่อนไข 1 ระยะเวลา 1 เทียบกับช่วงเวลา 2) ดังนั้นการวิเคราะห์ทั้งหมดจึงทดสอบสมมติฐานเดียวกัน .

1
จาก Bayesian Networks ไปยัง Neural Networks: วิธีการถดถอยหลายตัวแปรสามารถเปลี่ยนเป็นเครือข่ายหลายเอาท์พุทได้อย่างไร
ฉันกำลังจัดการกับโมเดลเชิงเส้นลำดับชั้นแบบเบย์ที่นี่เครือข่ายอธิบาย YYYหมายถึงยอดขายสินค้ารายวันในซูเปอร์มาร์เก็ต (ปฏิบัติตาม) XXXเป็นเมทริกซ์ที่รู้จักกันดีของผู้ถดถอยซึ่งรวมถึงราคาโปรโมชั่นวันของสัปดาห์สภาพอากาศวันหยุด 1SSSคือระดับสินค้าคงคลังแฝงที่ไม่รู้จักของแต่ละผลิตภัณฑ์ซึ่งทำให้เกิดปัญหามากที่สุดและฉันพิจารณาเวกเตอร์ของตัวแปรไบนารีหนึ่งรายการสำหรับแต่ละผลิตภัณฑ์ที่มีบ่งบอกถึงการออกจากสต็อคและดังนั้นความไม่พร้อมใช้งานของผลิตภัณฑ์ แม้ว่าในทางทฤษฎีไม่ทราบว่าฉันประเมินมันผ่าน HMM สำหรับแต่ละผลิตภัณฑ์ดังนั้นจึงถือได้ว่าเป็นที่รู้จักกันในชื่อ X.ฉันเพิ่งตัดสินใจปลดมันเพื่อพิธีการที่เหมาะสม111 ηη\etaเป็นพารามิเตอร์เอฟเฟกต์แบบผสมสำหรับผลิตภัณฑ์ใด ๆ ก็ตามที่พิจารณาถึงผลกระทบแบบผสมคือราคาผลิตภัณฑ์โปรโมชั่นและสต็อกสินค้า b 1 b 2ββ\betaคือเวกเตอร์ของสัมประสิทธิ์การถดถอยคงที่ในขณะที่และเป็นเวกเตอร์ของสัมประสิทธิ์ผลกระทบผสม กลุ่มหนึ่งบ่งบอกถึงแบรนด์และอีกกลุ่มระบุถึงรสชาติ (นี่คือตัวอย่างในความเป็นจริงฉันมีหลายกลุ่ม แต่ที่นี่ฉันรายงานเพียง 2 เพื่อความชัดเจน)ข1ข1b_1ข2ข2b_2 Σ ข1 Σ ข2ΣηΣη\Sigma_{\eta} ,และเป็นเหนือเอฟเฟกต์ผสมΣข1Σข1\Sigma_{b_1}Σข2Σข2\Sigma_{b_2} เนื่องจากฉันมีข้อมูลจำนวนมากสมมติว่าฉันปฏิบัติต่อยอดขายแต่ละครั้งเนื่องจาก Poisson กระจายเงื่อนไขบน Regressors (แม้ว่าสำหรับผลิตภัณฑ์บางอย่างการประมาณเชิงเส้นจะถือและสำหรับคนอื่นแบบจำลองที่สูงเกินศูนย์จะดีกว่า) ในกรณีเช่นนี้ฉันจะมีผลิตภัณฑ์ ( นี่เป็นเพียงสำหรับผู้ที่สนใจในแบบจำลอง Bayesian เองข้ามไปที่คำถามหากคุณพบว่ามันไม่น่าสนใจหรือไม่สำคัญ :) ):YYY Ση∼ ฉันW( α0, γ0)Ση~ผมW(α0,γ0)\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0) Σข1∼ ฉันW( α1, γ1)Σข1~ผมW(α1,γ1)\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1) …

1
มีคำอธิบายที่เข้าใจได้ง่ายหรือไม่ว่าเหตุใดการถดถอยโลจิสติกจึงไม่สามารถใช้กับกรณีแยกที่สมบูรณ์ได้ และทำไมการเพิ่มการทำให้เป็นมาตรฐานจะแก้ไขได้?
เรามีการสนทนาที่ดีมากมายเกี่ยวกับการแบ่งแยกที่สมบูรณ์แบบในการถดถอยโลจิสติก เช่นการถดถอยโลจิสติกใน R ทำให้เกิดการแยกที่สมบูรณ์แบบ (ปรากฏการณ์ Hauck-Donner) ตอนนี้คืออะไร และรูปแบบการถดถอยโลจิสติกไม่ได้มาบรรจบ ฉันเองก็ยังรู้สึกว่ามันไม่ง่ายสำหรับสาเหตุที่มันเป็นปัญหาและทำไมการเพิ่มการทำให้เป็นมาตรฐานจะแก้ไขได้ ฉันสร้างภาพเคลื่อนไหวและคิดว่ามันจะเป็นประโยชน์ ดังนั้นโพสต์คำถามของเขาและตอบด้วยตนเองเพื่อแบ่งปันกับชุมชน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.