สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
ประจักษ์ CDF vs CDF
ฉันกำลังเรียนรู้เกี่ยวกับฟังก์ชั่นการกระจายการสะสม Empirical แต่ฉันก็ยังไม่เข้าใจ เหตุใดจึงเรียกว่า 'Empirical' Empirical CDF และ CDF ต่างกันหรือไม่?

5
ทฤษฎีบทของเบย์
ฉันได้รับการพยายามที่จะพัฒนาสัญชาตญาณพื้นฐานของการทำความเข้าใจทฤษฎีบท Bayes' ในแง่ของก่อน , หลัง , ความน่าจะเป็นและร่อแร่ความน่าจะเป็น ด้วยเหตุนี้ฉันจึงใช้สมการต่อไปนี้: โดยที่แทนสมมติฐานหรือความเชื่อและแทนข้อมูลหรือหลักฐาน ฉันเข้าใจแนวคิดของคนหลัง - มันเป็นเอนทิตี้แบบรวมที่รวมความเชื่อก่อนหน้านี้และความน่าจะเป็นของเหตุการณ์ สิ่งที่ฉันไม่เข้าใจคือโอกาสที่จะมีความหมายอะไร และทำไมถึงเป็นชายขอบP(B|A)=P(A|B)P(B)P(A)P(B|A)=P(A|B)P(B)P(A)P(B|A) = \frac{P(A|B)P(B)}{P(A)}AAABBBน่าจะเป็นในส่วนหรือไม่ หลังจากตรวจสอบแหล่งข้อมูลสองสามข้อฉันพบคำพูดนี้: ความน่าจะเป็นคือน้ำหนักของเหตุการณ์กำหนดโดยการเกิดของ ...คือความน่าจะเป็นหลังของเหตุการณ์เนื่องจากเหตุการณ์เกิดขึ้นBBBAAAP(B|A)P(B|A)P(B|A)BBBAAA ข้อความ 2 ข้อข้างต้นดูเหมือนกับฉันเพิ่งเขียนในรูปแบบที่แตกต่างกัน ใครช่วยอธิบายความแตกต่างระหว่างสองคนนี้ได้ไหม?

4
ทำไม softmax เอาท์พุตจึงไม่ใช่สิ่งที่ไม่แน่นอนสำหรับการเรียนรู้แบบลึก?
ฉันได้ทำงานกับ Convolutional Neural Networks (CNNs) มาระยะหนึ่งแล้วซึ่งส่วนใหญ่เป็นข้อมูลภาพสำหรับเซกเมนต์เซกเมนต์ / เซกเมนต์อินสแตนซ์ ฉันมักจะเห็นภาพซอฟต์แม็กซ์ของเอาต์พุตเครือข่ายเป็น "แผนที่ความร้อน" เพื่อดูว่าการเปิดใช้งานพิกเซลต่อคลาสสำหรับระดับหนึ่งนั้นสูงเพียงใด ฉันตีความการเปิดใช้งานในระดับต่ำว่า "ไม่แน่นอน" / "ไม่มั่นใจ" และมีการเปิดใช้งานสูงตามการคาดการณ์ "มั่นใจ" / "มั่นใจ" โดยทั่วไปสิ่งนี้หมายถึงการตีความเอาต์พุต softmax (ค่าภายใน( 0 , 1 )(0,1)(0,1) ) เป็นความน่าจะเป็นหรือ (ไม่) การวัดความแน่นอนของโมเดล ( เช่นฉันตีความวัตถุ / พื้นที่ที่มีการเปิดใช้งานซอฟต์แม็กซ์ต่ำโดยเฉลี่ยอยู่ที่พิกเซลของมันยากสำหรับ CNN ในการตรวจจับดังนั้น CNN จึง "ไม่แน่ใจ" เกี่ยวกับการทำนายวัตถุชนิดนี้ ) ในการรับรู้ของฉันนี้มักจะทำงานและเพิ่มตัวอย่างเพิ่มเติมของพื้นที่ "ไม่แน่นอน" เพื่อผลลัพธ์การฝึกอบรมปรับปรุงผลลัพธ์เหล่านี้ อย่างไรก็ตามตอนนี้ฉันได้ยินมาค่อนข้างบ่อยจากหลาย ๆ ด้านที่การใช้ / การตีความเอาต์พุต softmax …

5
การถดถอยพหุนามแบบมุมฉากดิบหรือ?
ฉันต้องการที่จะถอยหลังตัวแปรyYyบนx,x2,…,x5x,x2,...,x5x,x^2,\ldots,x^5 5 ฉันควรทำสิ่งนี้โดยใช้ชื่อพหุนามแบบมุมฉากหรือไม่? ฉันดูคำถามบนเว็บไซต์ที่จัดการกับสิ่งเหล่านี้ แต่ฉันไม่เข้าใจจริงๆว่าอะไรคือความแตกต่างระหว่างการใช้งาน เหตุใดฉันจึงไม่สามารถทำการถดถอยแบบ "ปกติ" เพื่อรับค่าสัมประสิทธิ์βiβผม\beta_iของy=∑5i=0βixiy=∑i=05βixiy=\sum_{i=0}^5 \beta_i x^i (พร้อมกับค่า p และสิ่งอื่น ๆ ที่ดีทั้งหมด) และแทนที่จะต้องกังวลว่าจะใช้หรือไม่ ชื่อพหุนามดิบหรือมุมฉาก? ตัวเลือกนี้ดูเหมือนว่าฉันจะอยู่นอกขอบเขตของสิ่งที่ฉันต้องการจะทำ ในหนังสือสถิติที่ฉันกำลังอ่าน (ISLR โดย Tibshirani และคณะ) สิ่งเหล่านี้ไม่ได้กล่าวถึง ที่จริงแล้วพวกเขาถูกวัดผลในทางใดทางหนึ่ง เหตุผลคือ AFAIK ซึ่งในlm()ฟังก์ชั่นใน R ใช้y ~ poly(x, 2)จำนวนเงินเพื่อใช้ชื่อพหุนามแบบมุมฉากและใช้y ~ x + I(x^2)จำนวนเงินเพื่อใช้วัตถุดิบ แต่ในหน้า 116 ผู้เขียนบอกว่าเราใช้ตัวเลือกแรกเพราะตัวหลังเป็น "ยุ่งยาก" ซึ่งไม่มีข้อบ่งชี้ว่าคำสั่งเหล่านี้จริง ๆ กับสิ่งที่แตกต่างกันโดยสิ้นเชิง (คำถามที่สาม) เหตุใดผู้เขียน ISLR จึงทำให้ผู้อ่านสับสนเช่นนั้น

1
ปล่อยคอลัมน์ใดคอลัมน์หนึ่งเมื่อใช้การเข้ารหัสแบบร้อนแรง
ความเข้าใจของฉันคือในการเรียนรู้ของเครื่องมันอาจเป็นปัญหาหากชุดข้อมูลของคุณมีคุณสมบัติที่มีความสัมพันธ์สูงเนื่องจากจะเข้ารหัสข้อมูลเดียวกันได้อย่างมีประสิทธิภาพ เมื่อเร็ว ๆ นี้มีคนบางคนชี้ให้เห็นว่าเมื่อคุณทำการเข้ารหัสแบบร้อนแรงบนตัวแปรเด็ดขาดคุณจะต้องจบลงด้วยฟีเจอร์ที่สัมพันธ์กันดังนั้นคุณควรวางหนึ่งในนั้นเป็น "อ้างอิง" ตัวอย่างเช่นการเข้ารหัสเพศเป็นตัวแปรสองตัวis_maleและis_femaleสร้างคุณสมบัติสองอย่างที่มีความสัมพันธ์เชิงลบอย่างสมบูรณ์ดังนั้นพวกเขาจึงแนะนำให้ใช้เพียงหนึ่งตัวตั้งค่าพื้นฐานให้พูดว่าเป็นเพศชายได้อย่างมีประสิทธิภาพแล้วดูว่าคอลัมน์ is_female มีความสำคัญ . นั่นทำให้รู้สึกถึงฉัน แต่ฉันไม่ได้พบอะไรออนไลน์เพื่อแนะนำนี้อาจเป็นกรณีดังนั้นผิดหรือฉันขาดอะไรบางอย่าง? เป็นไปได้ (ยังไม่ได้รับคำตอบ) ซ้ำซ้อน: การเชื่อมโยงกันของคุณสมบัติที่เข้ารหัสร้อนแรงมีความสำคัญสำหรับ SVM และ LogReg หรือไม่

2
PCA สามารถใช้กับข้อมูลอนุกรมเวลาได้หรือไม่
ฉันเข้าใจว่าการวิเคราะห์องค์ประกอบหลัก (PCA) สามารถนำไปใช้โดยทั่วไปสำหรับข้อมูลหน้าตัด PCA สามารถใช้สำหรับข้อมูลอนุกรมเวลาได้อย่างมีประสิทธิภาพโดยการระบุปีเป็นตัวแปรอนุกรมเวลาและใช้ PCA ตามปกติหรือไม่ ฉันพบว่าไดนามิก PCA ทำงานกับข้อมูลพาเนลและการเข้ารหัสใน Stata ได้รับการออกแบบสำหรับข้อมูลพาเนลไม่ใช่อนุกรมเวลา PCA ประเภทใดที่ใช้งานกับข้อมูลอนุกรมเวลาได้หรือไม่ ปรับปรุง ให้ฉันอธิบายอย่างละเอียด ปัจจุบันฉันกำลังสร้างดัชนีสำหรับโครงสร้างพื้นฐานในอินเดียด้วยตัวแปรเช่นความยาวถนนความยาวเส้นทางรถไฟความจุการผลิตไฟฟ้าจำนวนผู้ใช้โทรศัพท์ ฯลฯ ฉันมี 12 ตัวแปรตลอด 22 ปีสำหรับ 1 ประเทศ แม้ว่าฉันจะตรวจสอบเอกสารที่ใช้ PCA ในอนุกรมเวลาและแม้แต่ข้อมูลพาเนล PCA ถูกออกแบบมาสำหรับข้อมูลแบบตัดขวางซึ่งถือว่าสมมติฐานของ iid ข้อมูลพาเนลและข้อมูลส่วนตัดละเมิดและ PCA ไม่คำนึงถึงมิติของอนุกรมเวลาในนั้น ฉันเห็นว่ามีการใช้ PCA แบบไดนามิกบนข้อมูลแผงเท่านั้น ฉันต้องการที่จะรู้ว่ามี PCA เฉพาะที่ใช้กับอนุกรมเวลาหรือใช้สแตติก PCA กับปีที่กำหนดเป็นตัวแปรอนุกรมเวลาจะทำงานหรือไม่
22 time-series  pca 

1
ทำไมชื่อ Type 1, 2 error
อะไรคือแรงจูงใจในการแนะนำระดับเพิ่มเติมของการอ้อมไปจากเชิงพรรณนา 'false positive' ถึงจำนวนเต็ม '1'? 'บวกผิด' ยาวเกินไปจริง ๆ หรือ

2
ทำไมชื่อ“ เคอร์เนล” ในสถิติและ ML
สิ่งนี้ถูกถามในไซต์ SE อื่น ๆ ในบริบทของระบบปฏิบัติการและพีชคณิตเชิงเส้น แต่คำถามเดียวกันทำให้ฉันสับสนเกี่ยวกับวิธีเคอร์เนลที่ใช้ในสถิติและการเรียนรู้ของเครื่อง บ่อยครั้งมีการกล่าวว่าเมล็ดเช่นในการประมาณความหนาแน่นของเคอร์เนลหรือ SVMs แสดงถึงความคล้ายคลึงกันบางอย่าง แต่ฉันไม่เข้าใจว่าชื่อ 'เคอร์เนล' มาจากไหนและเป็นสัญลักษณ์ของอะไร ดังนั้นนิรุกติศาสตร์ของเมล็ดในบริบทของสถิติและการเรียนรู้ของเครื่องคืออะไร? เพื่อให้ชัดเจนฉันรู้ดีว่าเคอร์เนลคืออะไรและคุณสมบัติหลักของมันฉันแค่อยากรู้เกี่ยวกับชื่อเนื่องจากฉันไม่เห็นสิ่งที่เกี่ยวข้องกับเมล็ดหรือแกนหลักตามที่กำหนดไว้เป็นส่วนใหญ่ พจนานุกรม หรืออย่างน้อยฉันก็ไม่สามารถมองเห็นความหมายที่ลึกซึ้งยิ่งกว่า 'ส่วนสำคัญของวิธีการ'

3
อะไรคือเมล็ดพันธุ์ในเครื่องกำเนิดเลขสุ่ม?
ฉันลองใช้การค้นหา google ตามปกติ แต่คำตอบส่วนใหญ่ที่ฉันพบนั้นค่อนข้างคลุมเครือหรือเฉพาะภาษา / ห้องสมุดเช่น Python หรือ C ++ stdlib.hเป็นต้นฉันกำลังมองหาผู้ไม่เชื่อเรื่องภาษาคำตอบทางคณิตศาสตร์ไม่ใช่เฉพาะของห้องสมุด ตัวอย่างเช่นหลายคนบอกว่าเมล็ดเป็นจุดเริ่มต้นของตัวสร้างตัวเลขสุ่มและเมล็ดเดียวกันจะสร้างตัวเลขสุ่มแบบเดียวกันเสมอ มันหมายความว่าอะไร? มันหมายความว่าจำนวนเอาท์พุทเป็นฟังก์ชั่นที่กำหนดของเมล็ดพันธุ์ที่เฉพาะเจาะจงและการสุ่มมาจากมูลค่าของเมล็ด? แต่ถ้าเป็นเช่นนั้นถ้าเราให้เมล็ดไม่ใช่พวกเราโปรแกรมเมอร์สร้างแบบแผนแทนการปล่อยให้เครื่องทำ นอกจากนี้จุดเริ่มต้นหมายถึงอะไรในบริบทนี้ นี่เป็นวิธีที่ไม่เข้มงวดในการพูดองค์ประกอบของโดเมนของแผนที่หรือไม่ หรือฉันกำลังทำอะไรผิดพลาด?x∈Xx∈Xx\in\mathfrak{X}f:X→Yf:X→Yf:\mathfrak{X}\rightarrow\mathfrak{Y}

3
มีความแตกต่างระหว่างผู้ถี่ถ้วนและเบย์ในคำจำกัดความของความน่าจะเป็นหรือไม่?
บางแหล่งกล่าวว่าฟังก์ชันความน่าจะเป็นไม่ใช่ความน่าจะเป็นแบบมีเงื่อนไขบางคนบอกว่าเป็น นี่ทำให้ฉันสับสนมาก จากแหล่งข้อมูลส่วนใหญ่ที่ฉันเคยเห็นความน่าจะเป็นของการกระจายด้วยพารามิเตอร์ควรเป็นผลคูณของฟังก์ชันความน่าจะเป็นที่ได้รับจากตัวอย่างของ :θθ\thetannnxixix_i L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(\theta) = L(x_1,x_2,...,x_n;\theta) = \prod_{i=1}^n p(x_i;\theta) ตัวอย่างเช่นใน Logistic Regression เราใช้อัลกอริธึมการปรับให้เหมาะสมเพื่อเพิ่มฟังก์ชั่นความน่าจะเป็นสูงสุด (การประมาณความน่าจะเป็นสูงสุด) เพื่อให้ได้พารามิเตอร์ที่ดีที่สุด จากตัวอย่างการฝึกอบรมซึ่งเราคิดว่าเป็นอิสระจากกันเราต้องการเพิ่มผลลัพธ์ของความน่าจะเป็นสูงสุด (หรือฟังก์ชั่นมวลความน่าจะเป็นร่วม) ดูเหมือนว่าฉันจะค่อนข้างชัดเจนnnn ตามความสัมพันธ์ระหว่าง: ความน่าจะเป็น, ความน่าจะเป็นตามเงื่อนไขและอัตราความล้มเหลว "ความน่าจะเป็นไม่ใช่ความน่าจะเป็นและไม่ใช่ความน่าจะเป็นแบบมีเงื่อนไข" นอกจากนี้ยังกล่าวถึง"ความน่าจะเป็นคือความน่าจะเป็นแบบมีเงื่อนไขเฉพาะในการทำความเข้าใจความน่าจะเป็นแบบเบย์เช่นถ้าคุณคิดว่าเป็นตัวแปรสุ่ม"θθ\theta ฉันอ่านเกี่ยวกับมุมมองที่แตกต่างกันของการรักษาปัญหาการเรียนรู้ระหว่างผู้ใช้บ่อยและ Bayesian แหล่งอ้างอิงสำหรับการอนุมานแบบเบส์เรามีความสำคัญ , โอกาสและเราต้องการที่จะได้รับหลังโดยใช้ทฤษฎีบทแบบเบส์:P(θ)P(θ)P(\theta)P(X|θ)P(X|θ)P(X|\theta)P(θ|X)P(θ|X)P(\theta|X) P(θ|X)=P(X|θ)×P(θ)P(X)P(θ|X)=P(X|θ)×P(θ)P(X)P(\theta|X)=\dfrac{P(X|\theta) \times P(\theta)}{P(X)} ฉันไม่คุ้นเคยกับการอนุมานแบบเบย์ เหตุใดซึ่งเป็นการกระจายของข้อมูลที่สังเกตตามเงื่อนไขในพารามิเตอร์ของมันก็ถูกเรียกว่าเป็นไปได้หรือไม่? ในวิกิพีเดียมันบอกว่าบางครั้งมันก็เป็นลายลักษณ์อักษรtheta) สิ่งนี้หมายความว่า?P(X|θ)P(X|θ)P(X|\theta)L(θ|X)=p(X|θ)L(θ|X)=p(X|θ)L(\theta|X)=p(X|\theta) มีความแตกต่างระหว่างคำจำกัดความของ Frequentistist และ Bayesian เกี่ยวกับความเป็นไปได้หรือไม่? ขอบคุณ แก้ไข: มีหลายวิธีในการตีความทฤษฎีบทของเบย์ - การตีความแบบเบย์และการตีความบ่อย (ดู: ทฤษฎีบทของเบย์ - วิกิพีเดีย …

4
เหตุใดทฤษฎีการ จำกัด ขั้นกลางจึงผิดพลาดในการจำลองของฉัน
สมมติว่าฉันมีหมายเลขต่อไปนี้: 4,3,5,6,5,3,4,2,5,4,3,6,5 ฉันลองตัวอย่างพวกเขาพูดว่า 5 คนแล้วคำนวณผลรวมของ 5 ตัวอย่าง จากนั้นฉันทำซ้ำซ้ำแล้วซ้ำอีกเพื่อให้ได้ผลรวมจำนวนมากและฉันวางแผนค่าผลรวมในฮิสโตแกรมซึ่งจะเป็นแบบเกาส์เนื่องจากทฤษฎีลิมิตกลาง แต่เมื่อพวกเขาติดตามตัวเลขฉันเพิ่งแทนที่ 4 ด้วยจำนวนที่มาก: 4,3,5,6,5,3,10000000,2,5,4,3,6,5 การสุ่มตัวอย่างจำนวน 5 ตัวอย่างจากสิ่งเหล่านี้จะไม่กลายเป็นเกาส์เซียนในฮิสโตแกรม แต่จะแตกและกลายเป็นเกาส์สองอัน ทำไมถึงเป็นอย่างนั้น?

4
คือ 50% 100% สูงกว่า 25% หรือ 25% สูงกว่า 25%?
หากฉันมีสองค่า A และ B ซึ่งทั้งคู่แสดงเป็นเปอร์เซ็นต์ของ C และฉันต้องการแสดงความแตกต่างของขนาดระหว่าง A และ B เป็นเปอร์เซ็นต์ D มันถูกต้องมากกว่าหรือไม่ที่จะแสดง D เป็นเปอร์เซ็นต์ของ C หรือ เป็นเปอร์เซ็นต์ของ B (หรือ A จริง ๆ ) เห็นได้ชัดว่าผู้ว่างงาน 50 คนนั้นใหญ่กว่าผู้ว่างงาน 25% เพราะเห็นได้ชัดว่า '%' ที่นี่หมายถึง '% ของผู้ว่างงาน 25 คน' แต่ใหญ่กว่าการว่างงาน 50% มากกว่าการว่างงาน 25% เป็นการเพิ่มขึ้นของการว่างงาน 100% จาก 25% แต่เพิ่มขึ้นเพียง 25% ของอัตราการว่างงานทั้งหมด

4
จุดประสงค์ของการรายงานสถิติเชิงพรรณนาคืออะไร
ฉันเพิ่งทำการวิเคราะห์ข้อมูลของฉันโดยใช้การถดถอยโลจิสติก แต่ฉันก็จำเป็นต้องมีส่วนสถิติเชิงพรรณนาในรายงานของฉัน ฉันไม่เห็นประเด็นนี้และฉันหวังว่าบางคนอาจอธิบายได้ว่าทำไมถึงจำเป็น ตัวอย่างเช่นถ้าฉันพล็อตฮิสโตแกรมของหนึ่งในตัวแปรอิสระต่อเนื่องของฉันและมันแสดงให้เห็นถึงความปกติหรือมันแสดงให้เห็นความเบ้สิ่งนี้จะเพิ่มมูลค่าให้กับรายงานอย่างไร ข้อมูลของฉันประกอบด้วยตัวแปรตามจริงหรือเท็จในการรับงานและตัวแปรอิสระคือคะแนนในช่วงกลางภาคเรียนเกรดในการสอบปลายภาคและชายหรือหญิง

1
การตีความตัวแปรแฝงของตัวแบบเชิงเส้นทั่วไป (GLM)
เวอร์ชั่นสั้น: เรารู้ว่าการถดถอยโลจิสติกและการถดถอยแบบ probit สามารถตีความได้ว่าเกี่ยวข้องกับตัวแปรแฝงอย่างต่อเนื่องที่ได้รับการแยกตามเกณฑ์คงที่บางส่วนก่อนที่จะสังเกต การตีความตัวแปรแฝงที่คล้ายกันมีให้สำหรับการพูดการถดถอยของปัวซองหรือไม่ วิธีการเกี่ยวกับการถดถอยแบบทวินาม (เช่น logit หรือ probit) เมื่อมีผลลัพธ์ที่ไม่ต่อเนื่องกันมากกว่าสองรายการ ในระดับทั่วไปส่วนใหญ่มีวิธีการตีความ GLM ใด ๆ ในแง่ของตัวแปรแฝงหรือไม่? รุ่นยาว: วิธีมาตรฐานในการสร้างแรงจูงใจให้กับโมเดล probit สำหรับผลลัพธ์ไบนารี (เช่นจาก Wikipedia ) มีดังต่อไปนี้ เรามีไม่มีใครสังเกต / แฝงผลตัวแปรที่มีการกระจายตามปกติเงื่อนไขในการทำนายXตัวแปรแฝงนี้อยู่ภายใต้กระบวนการ thresholding เพื่อให้ผลที่ไม่ต่อเนื่องเราจริงสังเกตคือถ้า ,ถ้า<\ สิ่งนี้นำไปสู่ความน่าจะเป็นของให้เพื่อให้อยู่ในรูปแบบของ CDF ปกติพร้อมค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานฟังก์ชันของ thresholdและความชันของการถดถอยของบนX U = 1 Y ≥ γ U = 0 Y < γ U = 1 X …

4
ด้วยขนาดตัวอย่างที่ใหญ่พอการทดสอบจะแสดงผลลัพธ์ที่สำคัญเสมอเว้นแต่ขนาดของผลจริงจะเป็นศูนย์ ทำไม?
ฉันอยากรู้เกี่ยวกับการอ้างสิทธิ์ในบทความของ Wikipedia เกี่ยวกับขนาดของเอฟเฟกต์ โดยเฉพาะ: [... ] การเปรียบเทียบทางสถิติที่ไม่เป็นโมฆะมักจะแสดงผลลัพธ์ที่มีนัยสำคัญทางสถิติเว้นแต่ขนาดผลกระทบของประชากรจะเป็นศูนย์ ฉันไม่แน่ใจว่าสิ่งนี้หมายถึง / นัยให้อาร์กิวเมนต์เพื่อสำรอง ฉันเดาหลังจากทั้งหมดผลคือสถิติคือค่าที่คำนวณจากตัวอย่างที่มีการแจกแจงของตัวเอง นี่หมายความว่าเอฟเฟ็กต์ไม่เคยเกิดจากการเปลี่ยนแปลงแบบสุ่ม (ซึ่งเป็นสิ่งที่ฉันเข้าใจว่ามันไม่สำคัญ) ถ้าอย่างนั้นเราเพียงแค่พิจารณาว่าผลกระทบนั้นแข็งแกร่งเพียงพอหรือไม่ - มีค่าสัมบูรณ์สูง ฉันกำลังพิจารณาถึงผลกระทบที่ฉันคุ้นเคยมากที่สุด: สัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน r ดูเหมือนจะขัดแย้งกับเรื่องนี้ ทำไมใด ๆถึงมีนัยสำคัญทางสถิติ? ถ้ามีขนาดเล็กเส้นถดถอยของเราคือ r y = a x + b = r ( s yRRrRRrY= a x + b = r ( sYsx) =ϵx+bY=ax+ข=R(sYsx)=εx+ข y=ax+b = r\left(\frac {s_y}{s_x}\right) = \epsilon …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.