สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล


2
เหตุใด CDF ของตัวอย่างกระจายอย่างสม่ำเสมอ
ฉันอ่านที่นี่ที่ได้รับตัวอย่างจากการกระจายอย่างต่อเนื่องกับ cdfตัวอย่างที่สอดคล้องกับเป็นไปตามการแจกแจงแบบมาตรฐานF X U ฉัน = F X ( X i )X1,X2,...,XnX1,X2,...,Xn X_1,X_2,...,X_n FXFX F_X Ui=FX(Xi)Ui=FX(Xi) U_i = F_X(X_i) ฉันตรวจสอบสิ่งนี้โดยใช้แบบจำลองเชิงคุณภาพใน Python และฉันสามารถตรวจสอบความสัมพันธ์ได้อย่างง่ายดาย import matplotlib.pyplot as plt import scipy.stats xs = scipy.stats.norm.rvs(5, 2, 10000) fig, axes = plt.subplots(1, 2, figsize=(9, 3)) axes[0].hist(xs, bins=50) axes[0].set_title("Samples") axes[1].hist( scipy.stats.norm.cdf(xs, 5, 2), bins=50 ) axes[1].set_title("CDF(samples)") …
17 pdf  uniform  cdf  intuition 

3
เมื่อใดที่ฉันไม่ควรใช้ตัวจําแนกทั้งหมดของ ensemble
โดยทั่วไปแล้วในปัญหาการจำแนกประเภทที่เป้าหมายคือการทำนายการเป็นสมาชิกคลาสนอกกลุ่มตัวอย่างได้อย่างถูกต้องเมื่อใดฉันจึงไม่ควรใช้ตัวจําแนก ensemble คำถามนี้เกี่ยวข้องกับทำไมไม่ใช้การเรียนรู้ทั้งมวลเสมอไป . คำถามนั้นถามว่าทำไมเราไม่ใช้วงดนตรีตลอดเวลา ฉันต้องการที่จะรู้ว่ามีบางกรณีที่วงดนตรีเป็นที่รู้กันว่าแย่กว่านี้ (ไม่ใช่แค่ "ไม่ดีขึ้นและเสียเวลา") มากกว่ากลุ่มที่ไม่ใช่ทั้งมวล และโดย "ensemble ลักษณนาม" ฉันหมายถึงตัวแยกประเภทเช่น AdaBoost และฟอเรสต์แบบสุ่มโดยเฉพาะซึ่งตรงกันข้ามกับเครื่องเวกเตอร์สนับสนุนแบบม้วนของคุณเอง

2
ความแตกต่างระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้ง
ใครช่วยอธิบายความแตกต่างที่แท้จริงระหว่างการวิเคราะห์การถดถอยและการปรับเส้นโค้งให้ฉันได้ไหมถ้าเป็นไปได้ ดูเหมือนว่าทั้งคู่พยายามค้นหาความสัมพันธ์ระหว่างสองตัวแปร (ขึ้นอยู่กับอิสระ) จากนั้นกำหนดพารามิเตอร์ (หรือสัมประสิทธิ์) ที่เกี่ยวข้องกับแบบจำลองที่เสนอ ตัวอย่างเช่นหากฉันมีชุดข้อมูลเช่น: Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] ใครช่วยแนะนำสูตรสหสัมพันธ์ระหว่างตัวแปรทั้งสองนี้ได้ไหม ฉันมีปัญหาในการเข้าใจความแตกต่างระหว่างสองแนวทางนี้ หากคุณต้องการที่จะสนับสนุนคำตอบของคุณกับชุดข้อมูลอื่นมันก็โอเคเพราะชุดนั้นดูเหมือนจะยาก (อาจเป็นสำหรับฉันเท่านั้น) ชุดข้อมูลข้างต้นแสดงถึงแกนและของเส้นโค้งลักษณะการทำงานของตัวรับ (ROC) โดยที่คืออัตราบวกที่แท้จริง (TPR) และคืออัตราบวกเป็นบวก (FPR)xxxyyyyyyxxx ฉันกำลังพยายามหาเส้นโค้งหรือทำการวิเคราะห์การถดถอยตามคำถามเดิมของฉันยังไม่แน่ใจในจุดเหล่านี้เพื่อประเมิน TPR สำหรับ FPR ใด ๆ (หรือในทางกลับกัน) ข้อแรกเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นการปรับโค้งให้เหมาะสมระหว่างตัวแปรอิสระสองตัว (TPR และ FPR)? ประการที่สองมันเป็นที่ยอมรับทางวิทยาศาสตร์หรือไม่ที่จะหาฟังก์ชั่นดังกล่าวถ้าฉันรู้ว่าการแจกแจงของลบจริงและกรณีบวกจริงไม่ปกติ?

5
เราควรสอน kurtosis ในหลักสูตรสถิติประยุกต์หรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร
แนวโน้มที่เป็นศูนย์กลางการแพร่กระจายและความเบ้สามารถกำหนดได้ค่อนข้างดีอย่างน้อยบนพื้นฐานที่เข้าใจง่าย มาตรการทางคณิตศาสตร์มาตรฐานของสิ่งเหล่านี้ยังสอดคล้องกับแนวคิดที่ใช้งานง่ายของเรา แต่ดูเหมือนว่าจะแตกต่าง Kurtosis มันสับสนมากและมันก็ไม่เข้ากันกับสัญชาตญาณเกี่ยวกับรูปร่างการกระจาย คำอธิบายทั่วไปของ kurtosis ในการตั้งค่าที่ใช้อาจเป็นสารสกัดจากสถิติประยุกต์สำหรับธุรกิจและการจัดการโดยใช้ Microsoft Excel :[1][1]^{[1]} Kurtosis หมายถึงการกระจายของจุดสูงสุดหรือในทางกลับกันว่ามันกระจายตัวอย่างไร หากมีค่าของข้อมูลในก้อยมากกว่าที่คุณคาดหวังจากการแจกแจงแบบปกติ Kurtosis จะเป็นค่าบวก ในทางกลับกันหากมีค่าข้อมูลในก้อยน้อยกว่าที่คุณคาดหวังจากการแจกแจงแบบปกติ kurtosis จะเป็นค่าลบ Excel ไม่สามารถคำนวณสถิตินี้เว้นแต่ว่าคุณมีค่าข้อมูลอย่างน้อยสี่ค่า นอกเหนือจากความสับสนระหว่าง "kurtosis" และ "เกิน kurtosis" (เช่นเดียวกับในหนังสือเล่มนี้มันเป็นเรื่องธรรมดาที่จะใช้คำเดิมเพื่อหมายถึงสิ่งที่ผู้เขียนคนอื่นเรียกหลัง) การตีความในแง่ของ "แหลม" หรือ "เรียบ" ถูกยุ่งเหยิงโดยสวิตช์ของความสนใจกับจำนวนข้อมูลในส่วนท้าย พิจารณาทั้ง "ยอด" และ "ก้อย" เป็นสิ่งจำเป็น - Kaplansky[2][2]^{[2]}บ่นในปี 1945 ว่าตำราหลายเล่มในเวลาที่ระบุไว้อย่างไม่ถูกต้อง kurtosis จะทำอย่างไรกับยอดสูงของการกระจายเมื่อเทียบกับที่ของการกระจายปกติโดยไม่ต้องพิจารณาหาง แต่เห็นได้ชัดว่าต้องพิจารณารูปร่างทั้งที่จุดสูงสุดและในหางทำให้สัญชาตญาณยากที่จะเข้าใจจุดที่ยกมาเหนือข้ามไปโดยแยกออกจากยอดแหลมจนถึงหางของหางราวกับว่าแนวคิดเหล่านี้เหมือนกัน ยิ่งไปกว่านั้นคำอธิบาย "จุดสูงสุดและก้อย" แบบคลาสสิกของ kurtosis ใช้งานได้ดีสำหรับการกระจายแบบสมมาตรและแบบ unimodal …

3
สถิติเชิงพรรณนามีค่า p หรือไม่?
ฉันถูกขอให้ค้นหาค่า p สำหรับสถิติเชิงพรรณนา อย่างไรก็ตามฉันเข้าใจว่าค่า p ใช้สำหรับสถิติการทดสอบ ถ้าฉันไม่เข้าใจผิดค่า p คือความน่าจะเป็นในการสังเกตค่ามากที่สุดเท่าที่สถิติการทดสอบหากสมมติฐานว่างเป็นจริง

1
การวาด n ช่วงเวลาอย่างสม่ำเสมอโดยบังเอิญความน่าจะเป็นที่อย่างน้อยหนึ่งช่วงเวลาทับซ้อนกับส่วนอื่น ๆ ทั้งหมด
สุ่มวาดnnnช่วงเวลาจาก[ 0 , 1 ][0,1][0,1]ซึ่งแต่ละจุดสิ้นสุด A, B ได้รับการคัดเลือกจากการจำหน่ายเครื่องแบบระหว่าง[ 0 , 1[0,1][0,1] ] ความน่าจะเป็นที่อย่างน้อยหนึ่งช่วงเวลาซ้อนทับกับช่วงเวลาอื่น ๆ ทั้งหมดคืออะไร

1
อะไรรับประกันทางทฤษฎีของการบรรจุถุง
ฉันได้ยิน (โดยประมาณ) ว่า: การห่อเป็นเทคนิคที่ช่วยลดความแปรปรวนของอัลกอริทึมตัวทำนาย / ตัวประมาณ / การเรียนรู้ อย่างไรก็ตามฉันไม่เคยเห็นหลักฐานทางคณิตศาสตร์อย่างเป็นทางการของข้อความนี้ ไม่มีใครรู้ว่าทำไมสิ่งนี้ถึงเป็นจริงในเชิงคณิตศาสตร์? ดูเหมือนว่าจะเป็นความจริงที่เป็นที่ยอมรับ / เป็นที่รู้จักอย่างกว้างขวางซึ่งฉันคาดหวังว่าจะมีการอ้างอิงโดยตรงกับสิ่งนี้ ฉันจะแปลกใจถ้าไม่มี นอกจากนี้ไม่มีใครรู้ว่าสิ่งนี้มีผลกระทบต่อความลำเอียง? มีการรับรองทางทฤษฎีอื่น ๆ เกี่ยวกับวิธีการบรรจุถุงที่ทุกคนรู้และคิดว่ามีความสำคัญและต้องการแบ่งปันหรือไม่

1
จะคำนวณระยะเวลาการทำนายสำหรับ LOESS ได้อย่างไร
ฉันมีข้อมูลบางส่วนที่ฉันใช้กับรุ่น LOESS ใน R ให้สิ่งนี้กับฉัน: ข้อมูลมีตัวทำนายหนึ่งตัวและคำตอบเดียวและเป็นแบบเฮเทอโรเซดีติก ฉันยังเพิ่มช่วงความมั่นใจ ปัญหาคือว่าช่วงเวลาเป็นช่วงความมั่นใจสำหรับสายในขณะที่ฉันสนใจในช่วงเวลาการทำนาย ตัวอย่างเช่นพาเนลด้านล่างเป็นตัวแปรมากกว่าจากนั้นจะเป็นพาเนลด้านบน แต่จะไม่ถูกบันทึกในช่วงเวลา คำถามนี้เป็นคำถามที่เกี่ยวข้องเล็กน้อย: การทำความเข้าใจวงความเชื่อมั่นจากการถดถอยพหุนามโดยเฉพาะอย่างยิ่งคำตอบโดย @AndyW แต่ในตัวอย่างของเขาที่เขาใช้ค่อนข้างตรงไปตรงมาinterval="predict"โต้แย้งที่มีอยู่ในแต่มันก็จะหายไปจากpredict.lmpredict.loess ดังนั้นฉันมีสองคำถามที่เกี่ยวข้องมาก: ฉันจะได้รับช่วงเวลาการทำนายแบบจุดตามจุดสำหรับ LOESS ได้อย่างไร ฉันจะทำนายค่าที่จะจับช่วงเวลานั้นได้อย่างไรเช่นสร้างตัวเลขสุ่มจำนวนมากซึ่งในที่สุดจะมีลักษณะคล้ายกับข้อมูลต้นฉบับ เป็นไปได้ว่าฉันไม่ต้องการมีน้ำหนักเกินและควรใช้อย่างอื่น แต่ฉันไม่คุ้นเคยกับตัวเลือกของฉัน โดยพื้นฐานแล้วมันควรจะพอดีกับบรรทัดที่ใช้การถดถอยท้องถิ่นหรือการถดถอยเชิงเส้นหลายเส้นให้ฉันประเมินข้อผิดพลาดสำหรับบรรทัดและนอกจากนี้ยังมีความแปรปรวนที่แตกต่างกันสำหรับตัวแปรอธิบายที่แตกต่างกันดังนั้นฉันสามารถทำนายการกระจายของตัวแปรตอบสนอง (y) .

2
คำอธิบายที่เข้าใจง่ายของ Echo State Networks คืออะไร?
ฉันใหม่สำหรับ Recurrent Neural Networks (RNN) และยังคงเรียนรู้แนวคิด ฉันเข้าใจในระดับนามธรรมว่า Echo State Network (ESN) สามารถสร้างลำดับของอินพุตเช่นสัญญาณแม้หลังจากอินพุตถูกลบออกแล้ว อย่างไรก็ตามฉันพบว่าบทความของ Scholarpedia นั้นยากเกินกว่าจะเข้าใจและเข้าใจได้อย่างสมบูรณ์ ใครช่วยได้โปรดอธิบายว่าการเรียนรู้การทำงานเชิงคณิตศาสตร์ในรูปแบบที่ง่ายที่สุดได้อย่างไร

2
ตัวอย่างก่อนหน้านี้ซึ่งแตกต่างจาก Jeffreys นำไปสู่การหลังที่ไม่คงที่
ฉันกำลังโพสต์ข้อความ "คำตอบ" สำหรับคำถามที่ฉันให้ไว้เมื่อสองสัปดาห์ก่อนที่นี่: ทำไม Jeffreys จึงมีประโยชน์มาก่อน มันเป็นคำถามจริงๆ (และฉันไม่มีสิทธิ์ในการโพสต์ความคิดเห็นในเวลานั้น) อย่างไรก็ตามดังนั้นฉันหวังว่าจะเป็นเช่นนั้น: ในลิงก์ด้านบนมีการกล่าวถึงคุณสมบัติที่น่าสนใจของ Jeffreys ก่อนคือเมื่อทำการวิเคราะห์รูปแบบซ้ำการกระจายหลังทำให้เกิดความน่าจะเป็นหลังซึ่งเป็นไปตามข้อ จำกัด ที่กำหนดโดยการเปลี่ยนแปลง กล่าวว่าตามที่กล่าวไว้ที่นั่นเมื่อย้ายจากความสำเร็จที่น่าจะเป็นθθ\thetaในตัวอย่าง Beta-Bernoulli อัตราต่อรองψ=θ/(1−θ)ψ=θ/(1−θ)\psi=\theta/(1-\theta)ก็ควรจะเป็นกรณีที่มีความพึงพอใจหลังP(1/3≤θ≤2/3∣X=x)=P(1/2≤ψ≤2∣X=x)P(1/3≤θ≤2/3∣X=x)=P(1/2≤ψ≤2∣X=x)P(1/3\leq\theta\leq 2/3\mid X=x)=P(1/2\leq\psi\leq 2\mid X=x) ) ฉันอยากจะสร้างตัวอย่างที่ตัวเลขของการแปรเปลี่ยนของฟรีย์ก่อนสำหรับการเปลี่ยนθθ\thetaอัตราต่อรองψψ\psiและอื่น ๆ อีกมากมายที่น่าสนใจขาดมันของไพรเออร์อื่น ๆ (พูด, Haldane เครื่องแบบหรือคนโดยพล) ตอนนี้ถ้าหลังสำหรับความน่าจะเป็นความสำเร็จคือเบต้า (Beta สำหรับการใด ๆ ก่อนฟรีย์ไม่ได้เท่านั้น) หลังของราคาดังต่อไปนี้การกระจายเบต้าของประเภทที่สอง (ดูวิกิพีเดีย) กับพารามิเตอร์เดียวกัน จากนั้นดังที่ไฮไลต์ในตัวอย่างตัวเลขด้านล่างมันไม่น่าแปลกใจเกินไป (สำหรับฉันอย่างน้อย) ที่มีค่าคงที่สำหรับตัวเลือกเบต้าใด ๆ ก่อนหน้านี้ (เล่นรอบ ๆ ด้วยalpha0_Uและbeta0_U) ไม่ใช่แค่ Jeffreys, cf ผลลัพธ์ของโปรแกรม library(GB2) …

2
สำหรับการแจกแจงแบบสมมาตรคือตัวอย่างใดหมายถึงตัวประมาณที่มีประสิทธิภาพมากกว่ามัธยฐานตัวอย่าง
ฉันทำงานหนักภายใต้ความเชื่อที่ว่าค่ามัธยฐานตัวอย่างเป็นตัวชี้วัดแนวโน้มกลางที่แข็งแกร่งกว่าค่าเฉลี่ยตัวอย่างเนื่องจากมันไม่สนใจค่าผิดปกติ ฉันจึงประหลาดใจที่ได้เรียนรู้ (ในคำตอบของคำถามอื่น ) ว่าสำหรับตัวอย่างที่ดึงมาจากการแจกแจงแบบปกติความแปรปรวนของค่าเฉลี่ยตัวอย่างจะน้อยกว่าความแปรปรวนของค่ามัธยฐานตัวอย่าง (อย่างน้อยสำหรับขนาดใหญ่nnn ) ฉันเข้าใจทางคณิตศาสตร์ว่าทำไมสิ่งนี้ถึงเป็นจริง มีวิธี "ปรัชญา" ในการมองสิ่งนี้หรือไม่ที่จะช่วยให้มีสัญชาตญาณว่าจะใช้มัธยฐานแทนที่จะใช้ค่าเฉลี่ยสำหรับการแจกแจงแบบอื่นหรือไม่? มีเครื่องมือทางคณิตศาสตร์ที่ช่วยตอบคำถามสำหรับการแจกแจงแบบเจาะจงหรือไม่?

2
การกระจายตัวของคือ ,คือการแจกแจงแบบสม่ำเสมอ?
ฉันมีสี่อิสระตัวแปรกระจายอย่างสม่ำเสมอ , ในแต่ละ [0,1]ฉันต้องการที่จะคำนวณการกระจายของ(โฆษณา)ฉันคำนวณการกระจายตัวของเป็น (ดังนั้น ) และจากจะเป็นตอนนี้การกระจายของจำนวนเงินที่คือ (นอกจากนี้ยังมี อิสระ)เพราะa,b,c,da,b,c,da,b,c,d[0,1][0,1][0,1](a−d)2+4bc(a−d)2+4bc(a-d)^2+4bcu2=4bcu2=4bcu_2=4bcf2(u2)=−14lnu24f2(u2)=−14ln⁡u24f_2(u_2)=-\frac{1}{4}\ln\frac{u_2}{4}u2∈(0,4]u2∈(0,4]u_2\in(0,4]u1=(a−d)2u1=(a−d)2u_1=(a-d)^2 f1(u1)=1−u1−−√u1−−√.f1(u1)=1−u1u1.f_1(u_1)=\frac{1-\sqrt{u_1}}{\sqrt{u_1}}.u1+u2u1+u2u_1+u_2u1,u2u1,u2u_1,\, u_2fu1+u2(x)=∫+∞−∞f1(x−y)f2(y)dy=−14∫401−x−y−−−−√x−y−−−−√⋅lny4dy,fu1+u2(x)=∫−∞+∞f1(x−y)f2(y)dy=−14∫041−x−yx−y⋅ln⁡y4dy,f_{u_1+u_2}(x)=\int_{-\infty}^{+\infty}f_1(x-y)f_2(y)dy=-\frac{1}{4}\int_0^4\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy,y∈(0,4]y∈(0,4]y\in(0,4]. ที่นี่จะต้องเป็นดังนั้นอินทิกรัลเท่ากับตอนนี้ฉันแทรกมันลงใน Mathematica และรับx>yx>yx>yfu1+u2(x)=−14∫x01−x−y−−−−√x−y−−−−√⋅lny4dy.fu1+u2(x)=−14∫0x1−x−yx−y⋅ln⁡y4dy.f_{u_1+u_2}(x)=-\frac{1}{4}\int_0^{x}\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy.fu1+u2(x)=14[−x+xlnx4−2x−−√(−2+lnx)].fu1+u2(x)=14[−x+xln⁡x4−2x(−2+ln⁡x)].f_{u_1+u_2}(x)=\frac{1}{4}\left[-x+x\ln\frac{x}{4}-2\sqrt{x}\left(-2+\ln x\right)\right]. ฉันสร้างชุดอิสระสี่ชุดประกอบด้วยตัวเลข10 ^ 6แต่ละชุดและดึงฮิสโตแกรมของ(โฆษณา) ^ 2 + 4bc :10 6 ( a - d ) 2 + 4 b ca,b,c,da,b,c,da,b,c,d10610610^6(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc และดึงพล็อตfu1+u2(x)fu1+u2(x)f_{u_1+u_2}(x) : โดยทั่วไปพล็อตจะคล้ายกับฮิสโตแกรม แต่ในช่วงเวลา(0,5)(0,5)(0,5)ส่วนใหญ่จะเป็นลบ (รากอยู่ที่ 2.27034) และหนึ่งของส่วนที่เป็นบวกคือ≈0.77≈0.77\approx 0.770.77 ความผิดพลาดอยู่ที่ไหน หรือฉันหายไปบางสิ่ง แก้ไข:ฉันปรับฮิสโตแกรมเพื่อแสดง PDF แก้ไข 2:ฉันคิดว่าฉันรู้ว่ามีปัญหาในการให้เหตุผลของฉัน - ในข้อ …

3
ทำไม“ อนุกรมเวลา” จึงเรียกเช่นนี้
ทำไม“ อนุกรมเวลา” จึงเรียกเช่นนี้ ซีรีส์หมายถึงผลรวมของลำดับ เหตุใดจึงเป็นอนุกรมเวลาไม่ใช่ลำดับเวลา คือเวลาตัวแปรอิสระ?

3
ทำไมเราถึงหารด้วยค่าเบี่ยงเบนมาตรฐานและไม่ใช่ปัจจัยมาตรฐานอื่น ๆ ก่อนทำ PCA
ฉันกำลังอ่านเหตุผลต่อไปนี้ (จากบันทึกหลักสูตร cs229) ว่าทำไมเราแบ่งข้อมูลดิบด้วยค่าเบี่ยงเบนมาตรฐาน: แม้ว่าฉันจะเข้าใจสิ่งที่คำอธิบายพูด แต่ก็ไม่ชัดเจนสำหรับฉันว่าทำไมการหารด้วยค่าเบี่ยงเบนมาตรฐานจะบรรลุเป้าหมายดังกล่าว มันบอกว่าเพื่อให้ทุกคนอยู่ใน "ระดับ" มากกว่าเดิม อย่างไรก็ตามมันไม่ชัดเจนเลยว่าทำไมการหารด้วยค่าเบี่ยงเบนมาตรฐานจึงทำได้ ชอบมีอะไรผิดปกติกับการหารด้วยความแปรปรวน? ทำไมไม่ลองปริมาณอื่นล่ะ ชอบ ... ผลรวมของค่าสัมบูรณ์? หรือบรรทัดฐานอื่น ๆ ... มีเหตุผลทางคณิตศาสตร์ในการเลือก STD หรือไม่? การอ้างสิทธิ์ในสารสกัดนี้เป็นข้อความเชิงทฤษฎีที่สามารถได้มา / พิสูจน์ผ่านทางคณิตศาสตร์ (และ / หรือสถิติ) หรือเป็นอีกหนึ่งประโยคที่เราทำเพราะดูเหมือนจะทำงานใน "ฝึกหัด" หรือไม่? โดยพื้นฐานแล้วเราสามารถให้คำอธิบายทางคณิตศาสตร์อย่างเข้มงวดว่าทำไมสัญชาตญาณนั้นเป็นความจริง หรือถ้าเป็นเพียงการสังเกตเชิงประจักษ์ทำไมเราคิดว่ามันใช้งานได้ทั่วไปก่อนทำ PCA นอกจากนี้ในบริบทของ PCA นี่คือกระบวนการของการทำให้เป็นมาตรฐานหรือทำให้เป็นมาตรฐานหรือไม่ ความคิดอื่น ๆ ที่ฉันมีที่อาจ "อธิบาย" ทำไม STD: เนื่องจาก PCA สามารถหาได้จากการเพิ่มความแปรปรวนให้มากที่สุดฉันเดาว่าการหารด้วยปริมาณที่เกี่ยวข้องเช่น STD อาจเป็นหนึ่งในเหตุผลที่เราหารด้วย STD แต่ฉันก็คิดว่าบางทีถ้าเรานิยาม "ความแปรปรวน" …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.