สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

10
คำที่ดีที่สุดสำหรับการสร้างข้อมูล?
ฉันกำลังเขียนตัวอย่างและสร้างข้อมูลขึ้นมา ฉันต้องการให้ผู้อ่านเข้าใจอย่างชัดเจนว่านี่ไม่ใช่ข้อมูลจริง แต่ฉันก็ไม่ต้องการที่จะแสดงความอาฆาตพยาบาทเพราะมันเป็นเพียงตัวอย่างเท่านั้น ไม่มีองค์ประกอบแบบสุ่ม (หลอก) สำหรับข้อมูลนี้ดังนั้นฉันคิดว่า 'จำลอง' ไม่เหมาะสม ถ้าฉันเรียกมันว่าเป็นเรื่องโกหกหรือสิ่งประดิษฐ์สิ่งนั้นจะสร้างความประทับใจให้กับข้อมูลที่ฉ้อฉลหรือไม่? คำว่า 'สร้างขึ้น' เป็นคำที่เหมาะกับบริบททางวิทยาศาสตร์หรือไม่ คำศัพท์ในวรรณคดีเชิงสถิติสำหรับข้อมูลที่สร้างขึ้นแบบไม่จำลองคืออะไร

4
ทำไมอัลกอริธึมการปรับให้เหมาะสมได้ถูกกำหนดไว้ในแง่ของปัญหาการเพิ่มประสิทธิภาพอื่น ๆ ?
ฉันกำลังทำการวิจัยเกี่ยวกับเทคนิคการปรับให้เหมาะสมสำหรับการเรียนรู้ของเครื่อง แต่ฉันประหลาดใจที่พบว่ามีการกำหนดอัลกอริธึมการเพิ่มประสิทธิภาพจำนวนมากในแง่ของปัญหาการเพิ่มประสิทธิภาพอื่น ๆ ฉันแสดงตัวอย่างบางอย่างดังต่อไปนี้ ตัวอย่างเช่นhttps://arxiv.org/pdf/1511.05133v1.pdf ทุกอย่างดูดีและดี แต่แล้วก็มีนี้ในการอัปเดตz k + 1 .... ดังนั้นอัลกอริทึมที่แก้ปัญหาสำหรับargminคืออะไร? เราไม่รู้และมันก็ไม่พูด อย่างน่าอัศจรรย์เราต้องแก้ปัญหาการหาค่าเหมาะที่สุดอีกอันซึ่งก็คือการหาเวกเตอร์ที่ย่อขนาดเล็กสุดเพื่อให้ผลิตภัณฑ์ชั้นในมีค่าอย่างน้อยที่สุด - จะทำอย่างไรได้บ้าง?argminxargminx\text{argmin}_xzk+1zk+1z^{k+1}argminargmin\text{argmin} ใช้ตัวอย่างอื่น: https://arxiv.org/pdf/1609.05713v1.pdf ทุกอย่างดูดีและดีจนกว่าคุณจะพบตัวดำเนินการใกล้เคียงที่อยู่ตรงกลางของอัลกอริทึมและนิยามของตัวดำเนินการนั้นคืออะไร Boom: argminxargminx\text{argmin}_xfff ใครบางคนได้โปรดให้ความกระจ่างแก่ฉันเพื่อ: ทำไมอัลกอริธึมการปรับให้เหมาะสมจำนวนมากถึงกำหนดไว้ในแง่ของปัญหาการเพิ่มประสิทธิภาพอื่น ๆ (นี่จะไม่ใช่ปัญหาของไก่และไข่ในการแก้ปัญหาที่ 1 คุณต้องแก้ปัญหาที่ 2 โดยใช้วิธีการแก้ปัญหาที่ 3 ซึ่งขึ้นอยู่กับการแก้ปัญหา .... ) xk+1=argminxreally complicated loss functionxk+1=argminxreally complicated loss functionx^{k+1} = \text{argmin}_x \text{really complicated loss function} argminxargminx\text{argmin}_x (Bounty: ทุกคนสามารถอ้างอิงกระดาษที่ผู้เขียนทำให้ชัดเจนอัลกอริทึมสำหรับปัญหาย่อยที่ฝังอยู่ในอัลกอริทึมการเพิ่มประสิทธิภาพระดับสูง?)

1
คำอธิบายของ Nate Silver ที่พูดถึงเหลือง
ในคำถามที่ฉันถามเมื่อเร็ว ๆ นี้ฉันได้รับการบอกว่ามันเป็นเรื่องใหญ่ "ไม่ห้าม" ในการคาดการณ์ด้วยเหลือง แต่ในบทความล่าสุดของ Nate Silver ใน FiveThirtyEight.comเขาได้พูดคุยกันโดยใช้คำทำนายการเลือกตั้ง เขากำลังพูดถึงลักษณะเฉพาะของการคาดการณ์ที่ก้าวร้าวและอนุรักษ์นิยมกับดินเหลือง แต่ฉันอยากรู้ว่าความถูกต้องของการคาดการณ์ในอนาคตจะเป็นอย่างไร ฉันยังสนใจในการสนทนานี้และมีทางเลือกอื่นที่อาจมีประโยชน์คล้ายกับเหลือง

3
การลดขนาดสำหรับการสร้างภาพควรได้รับการพิจารณาว่าเป็นปัญหา "ปิด" แก้ไขโดย t-SNE หรือไม่
ฉันอ่านเกี่ยวกับอัลกอริทึม -sne มากสำหรับการลดขนาด ฉันประทับใจมากกับประสิทธิภาพของชุดข้อมูล "คลาสสิค" เช่น MNIST ซึ่งทำให้สามารถแยกตัวเลขได้อย่างชัดเจน ( ดูบทความต้นฉบับ ):เสื้อเสื้อt ฉันยังใช้มันเพื่อแสดงคุณสมบัติที่เรียนรู้โดยเครือข่ายประสาทที่ฉันกำลังฝึกอบรมและฉันก็พอใจกับผลลัพธ์มาก ดังนั้นฉันเข้าใจ: เสื้อเสื้อt -sne มีผลลัพธ์ที่ดีในชุดข้อมูลส่วนใหญ่และมีการนำไปใช้อย่างมีประสิทธิภาพ - ด้วยวิธีการประมาณ Barnes-Hut จากนั้นเราอาจพูดได้ว่าปัญหา "การลดมิติ" อย่างน้อยก็เพื่อจุดประสงค์ในการสร้างการสร้างภาพข้อมูล 2D / 3D ที่ดีตอนนี้เป็นปัญหา "ปิด" หรือไม่O ( n บันทึกn )O(nเข้าสู่ระบบ⁡n)O(n \log n) ฉันรู้ว่านี่เป็นคำสั่งที่ค่อนข้างหนา ฉันสนใจที่จะเข้าใจว่า "หลุมพราง" ที่เป็นไปได้ของวิธีการนี้คืออะไร นั่นคือมีกรณีใดบ้างที่เรารู้ว่าไม่มีประโยชน์หรือไม่ นอกจากนี้ปัญหา "เปิด" ในฟิลด์นี้คืออะไร

2
การสุ่มตัวอย่างที่สำคัญคืออะไร?
ฉันพยายามเรียนรู้การเสริมแรงและหัวข้อนี้ทำให้ฉันสับสนจริงๆ ฉันได้แนะนำสถิติไปแล้ว แต่ฉันไม่เข้าใจหัวข้อนี้อย่างสังหรณ์ใจ

1
คุณสมบัติของ PCA สำหรับการสังเกต
เรามักจะใช้ PCA เป็นเทคนิคการลดขนาดสำหรับข้อมูลที่กรณีจะถือว่าเป็น iid คำถาม:อะไรคือความแตกต่างทั่วไปในการใช้ PCA สำหรับข้อมูลที่ขึ้นกับข้อมูลที่ไม่ใช่ของ iid คุณสมบัติที่ดี / มีประโยชน์ของ PCA ที่เก็บไว้สำหรับข้อมูล iid นั้นถูกบุกรุก (หรือสูญหายทั้งหมด)? ตัวอย่างเช่นข้อมูลอาจเป็นอนุกรมเวลาหลายตัวแปรในกรณีที่ autocorrelation หรือ autorgressive heteroskedasticity ตามเงื่อนไข (ARCH) สามารถคาดหวังได้ มีคำถามที่เกี่ยวข้องหลายประการเกี่ยวกับการใช้ PCA กับข้อมูลอนุกรมเวลาซึ่งเคยมีการถามมาก่อนเช่น1 , 2 , 3 , 4แต่ฉันกำลังมองหาคำตอบทั่วไปและครอบคลุมมากขึ้น แก้ไข:ตามที่บันทึกไว้โดย @ttnphns ตัว PCA เองไม่ใช่การวิเคราะห์เชิงอนุมาน อย่างไรก็ตามหนึ่งอาจสนใจในการวางนัยทั่วไปของ PCA คือการเน้นไปที่ประชากรของ PCA ตัวอย่าง เช่นเขียนในNadler (2008) : สมมติว่าข้อมูลที่ได้รับเป็นตัวอย่าง จำกัด และสุ่มจากการแจกแจง (โดยทั่วไปไม่ทราบ) …

1
ที่ผ่านมาอัตราการเรียนรู้ของสิงคโปร์ลดลงเป็นอย่างไร
หากคุณดูเอกสารประกอบhttp://keras.io/optimizers/จะมีพารามิเตอร์ในค่า SGD สำหรับการสลายตัว ฉันรู้ว่าสิ่งนี้ช่วยลดอัตราการเรียนรู้เมื่อเวลาผ่านไป อย่างไรก็ตามฉันไม่สามารถคิดออกว่ามันทำงานอย่างไร มันเป็นค่าที่คูณด้วยอัตราการเรียนรู้เช่นlr = lr * (1 - decay) มันเป็นเลขชี้กำลังหรือไม่? ฉันจะดูได้อย่างไรว่าคะแนนการเรียนรู้ของฉันที่ใช้อยู่ เมื่อฉันพิมพ์model.optimizer.lr.get_value()หลังจากทำงานพอดีกับช่วงเวลาสองสามครั้งมันจะให้อัตราการเรียนรู้ดั้งเดิมแม้ว่าฉันจะตั้งค่าการสลายตัว ฉันต้องตั้งค่า nesterov = True เพื่อใช้โมเมนตัมหรือมีโมเมนตัมสองประเภทที่ฉันสามารถใช้ได้ ตัวอย่างเช่นมีประเด็นในการทำเช่นนี้sgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)

1
หนึ่งตีความฮิสโตแกรมที่ TensorFlow มอบให้ใน TensorBoard ได้อย่างไร
เมื่อเร็ว ๆ นี้ฉันกำลังวิ่งและเรียนรู้การไหลของเทนเซอร์และมีฮิสโตแกรมสองสามอย่างที่ฉันไม่รู้ว่าจะตีความอย่างไร ฉันมักจะคิดว่าความสูงของแท่งเป็นความถี่ (หรือความถี่ / นับญาติ) อย่างไรก็ตามความจริงที่ว่าไม่มีแถบอยู่ในฮิสโตแกรมตามปกติและความจริงที่ว่าสิ่งต่าง ๆ จะทำให้ฉันสับสน ดูเหมือนว่าจะมีหลายบรรทัด / สูงในครั้งเดียว? มีคนรู้วิธีตีความกราฟต่อไปนี้หรือไม่และอาจให้คำแนะนำที่ดีซึ่งสามารถช่วยในการอ่านฮิสโตแกรมในเทนเซอร์โฟลว์โดยทั่วไป) บางทีสิ่งอื่น ๆ ที่น่าสนใจที่จะพูดถึงคือถ้าตัวแปรดั้งเดิมเป็นเวกเตอร์หรือเมทริกซ์หรือเทนเซอร์ดังนั้นเทนเซอร์โฟลว์ที่แสดงในความเป็นจริงคืออะไรเช่นฮิสโตแกรมของแต่ละพิกัด นอกจากนี้บางทีการอ้างอิงถึงวิธีรับข้อมูลนี้เพื่อให้ผู้คนมีความพอเพียงจะดีเพราะฉันเคยพบสิ่งที่มีประโยชน์ในเอกสารตอนนี้ บางทีแบบฝึกหัดตัวอย่างเป็นต้น บางทีคำแนะนำในการจัดการกับพวกเขาอาจจะดีเช่นกัน เป็นข้อมูลอ้างอิงที่นี่เป็นส่วนหนึ่งของรหัสที่ให้สิ่งนี้: (X_train, Y_train, X_cv, Y_cv, X_test, Y_test) = data_lib.get_data_from_file(file_name='./f_1d_cos_no_noise_data.npz') (N_train,D) = X_train.shape D1 = 24 (N_test,D_out) = Y_test.shape W1 = tf.Variable( tf.truncated_normal([D,D1], mean=0.0, stddev=std), name='W1') # (D x D1) S1 …

2
แบบจำลองสุดท้าย (พร้อมการผลิต) ควรได้รับการฝึกอบรมกับข้อมูลที่สมบูรณ์หรือเพียงแค่ในชุดการฝึกอบรม?
สมมติว่าฉันฝึกหลายรุ่นในชุดฝึกอบรมเลือกหนึ่งชุดที่ดีที่สุดโดยใช้ชุดการตรวจสอบความถูกต้องไขว้และประสิทธิภาพที่วัดได้ในชุดทดสอบ ดังนั้นตอนนี้ฉันมีหนึ่งรุ่นที่ดีที่สุดสุดท้าย ฉันควรสั่งการฝึกอบรมใหม่กับข้อมูลที่มีอยู่ทั้งหมดหรือโซลูชันการจัดส่งที่ฝึกอบรมเฉพาะชุดฝึกอบรมหรือไม่ ถ้าอย่างหลังทำไม? การอัปเดต: ตามที่ @ P.Windridge ระบุไว้การส่งแบบจำลองโดยทั่วไปหมายถึงการจัดส่งแบบจำลองโดยไม่มีการตรวจสอบความถูกต้อง แต่เราสามารถรายงานประสิทธิภาพของชุดการทดสอบและหลังจากนั้นฝึกจำลองข้อมูลที่สมบูรณ์แบบอย่างถูกต้องคาดหวังว่าประสิทธิภาพจะดีขึ้นเพราะเราใช้แบบจำลองที่ดีที่สุดของเราบวกกับข้อมูลมากขึ้น ปัญหาใดที่อาจเกิดขึ้นจากวิธีการดังกล่าว

2
มันสมเหตุสมผลหรือไม่ที่เอฟเฟกต์คงที่จะถูกซ้อนภายในแบบสุ่มหรือวิธีการกำหนดมาตรการซ้ำ ๆ ใน R (aov และ lmer)
ฉันได้ดูภาพรวมของสูตร lm / lmer R โดย @conjugatepriorและสับสนโดยรายการต่อไปนี้: ทีนี้สมมติว่า A สุ่ม แต่ B ได้รับการแก้ไขและ B ถูกซ้อนภายใน A aov(Y ~ B + Error(A/B), data=d) ด้านล่างสูตรโมเดลผสมแบบอะนาล็อกlmer(Y ~ B + (1 | A:B), data=d) มีไว้สำหรับกรณีเดียวกัน ฉันไม่เข้าใจความหมายของมัน ในการทดลองที่วิชาถูกแบ่งออกเป็นหลายกลุ่มเราจะมีปัจจัยสุ่ม (วิชา) ซ้อนอยู่ภายในปัจจัยคงที่ (กลุ่ม) แต่ปัจจัยคงที่สามารถซ้อนภายในปัจจัยสุ่มได้อย่างไร มีการแก้ไขบางอย่างซ้อนกันภายในวิชาแบบสุ่มหรือไม่ เป็นไปได้ไหม หากเป็นไปไม่ได้สูตร R เหล่านี้มีเหตุผลหรือไม่ ภาพรวมนี้เป็นที่กล่าวถึงให้เป็นไปตามบางส่วนบนหน้าบุคลิกภาพของโครงการในการทำ ANOVA ใน Rตามตัวเองเกี่ยวกับเรื่องนี้สอนเกี่ยวกับวัดซ้ำใน R มีตัวอย่างต่อไปนี้สำหรับการวัดซ้ำ ANOVA ที่ได้รับ: …

3
การแจกจ่ายนี้มีชื่อหรือไม่?
มันเกิดขึ้นกับฉันวันนี้ว่าการกระจาย อาจถูกมองว่าเป็นการประนีประนอมระหว่าง Gaussian และ Laplace การแจกแจงสำหรับและการแจกจ่ายดังกล่าวมีชื่อหรือไม่? และมันมีนิพจน์สำหรับค่าคงที่การทำให้เป็นมาตรฐานหรือไม่? แคลคูลัสทำให้ฉันตกเพราะฉันไม่รู้ว่าจะเริ่มแก้หาCในอินทิกรัล 1 = C \ cdot \ int _ {- \ infty} ^ \ infty \ exp \ left (- \ frac {| x- \ mu | ^ p} {\ beta} \ right) dx f(x)∝exp(−|x−μ|pβ)f(x)∝exp⁡(−|x−μ|pβ) f(x)\propto\exp\left(-\frac{|x-\mu|^p}{\beta}\right) x∈R,p∈[1,2]x∈R,p∈[1,2]x\in\mathbb{R}, p\in[1,2]β>0.β>0.\beta>0.CCC1 = C⋅ ∫∞- ∞ประสบการณ์( - …

6
เท็กซัสนักแม่นปืนเข้าใจผิดในการวิเคราะห์ข้อมูลเชิงสำรวจ
ฉันได้อ่านนี้บทความในธรรมชาติซึ่งชักนำบางส่วนมีการอธิบายในบริบทของการวิเคราะห์ข้อมูล ฉันสังเกตเห็นว่าการเข้าใจผิดของนักแม่นปืนเท็กซัสเป็นเรื่องยากโดยเฉพาะอย่างยิ่งที่จะหลีกเลี่ยง: กับดักความรู้ความเข้าใจที่รอในระหว่างการวิเคราะห์ข้อมูลนั้นแสดงโดยนักแม่นปืนชาวเท็กซัส: นักแม่นปืนที่ไร้ฝีมือที่ยิงกระสุนแบบสุ่มที่ด้านข้างของยุ้งฉางดึงเป้าหมายรอบกลุ่มหลุมกระสุนที่ใหญ่ที่สุดและภาคภูมิใจที่ ความสำเร็จของเขา เห็นได้ชัดว่าเป้าของเขาเป็นสิ่งที่น่าหัวเราะ แต่การเข้าใจผิดนั้นไม่ชัดเจนนักสำหรับนักพนันที่เชื่อใน 'มือร้อน' เมื่อพวกเขามีชัยชนะหรือผู้ที่เห็นความสำคัญเหนือธรรมชาติเมื่อมีลอตเตอรี่วาดขึ้นมาเป็นตัวเลขคี่ ไม่ชัดเจนนักวิจัย “ คุณเพิ่งได้รับการสนับสนุนจากข้อมูลแล้วคิดว่านี่คือเส้นทางที่จะลงไป” Pashler กล่าว “ คุณไม่ทราบว่าคุณมี 27 ตัวเลือกที่แตกต่างกันและคุณเลือกตัวเลือกที่ให้ผลลัพธ์ที่น่าพอใจหรือน่าสนใจที่สุดและตอนนี้คุณกำลังมีส่วนร่วมในสิ่งที่ไม่ใช่การแสดงข้อมูลที่เป็นกลาง ” ฉันคิดว่างานสำรวจเป็นเรื่องธรรมดาและบ่อยครั้งที่สมมติฐานถูกสร้างขึ้นบนพื้นฐานของการวิเคราะห์ มีวิธีการทั้งหมด ( EDA ) ที่อุทิศให้กับกระบวนการนี้: John Tukey สนับสนุนการวิเคราะห์ข้อมูลเชิงสำรวจเพื่อสนับสนุนนักสถิติในการสำรวจข้อมูลและกำหนดสมมติฐานที่อาจนำไปสู่การรวบรวมข้อมูลและการทดลองใหม่ ๆ ดูเหมือนว่ากระบวนการสำรวจใด ๆ ที่ดำเนินการโดยไม่มีสมมติฐานล่วงหน้ามีแนวโน้มที่จะสร้างสมมติฐานปลอม ขอให้สังเกตว่าคำอธิบายของ EDA new data collection and experimentsข้างต้นจริงพูดคุยเกี่ยวกับ ฉันเข้าใจว่าหลังจากรวบรวมข้อมูลใหม่แล้วการวิเคราะห์ข้อมูลยืนยัน (CDA) นั้นเหมาะสม อย่างไรก็ตามฉันไม่คิดว่าความแตกต่างนี้ชัดเจนมากและถึงแม้ว่าการแยก EDA และ CDA จะเหมาะสมที่สุดแน่นอนว่ามีบางสถานการณ์ที่ไม่สามารถทำได้ ฉันจะไปไกลเท่าที่จะบอกว่าการแยกนี้อย่างเคร่งครัดเป็นเรื่องแปลกและผู้ปฏิบัติงานส่วนใหญ่ไม่สมัครรับกระบวนทัศน์ EDA เลย …
23 eda  fallacy 

4
การศึกษาที่ไม่ได้ผลนั้นเพิ่มโอกาสในการเกิดผลบวกปลอมหรือไม่?
มีการถามคำถามก่อนหน้านี้ที่นี่และที่นี่แต่ฉันไม่คิดว่าคำตอบจะตอบคำถามนี้โดยตรง การศึกษาที่ไม่ได้ผลนั้นเพิ่มโอกาสในการเกิดผลบวกปลอมหรือไม่? บทความข่าวบางฉบับให้การยืนยันนี้ สำหรับตัวอย่างเช่น : พลังงานทางสถิติต่ำเป็นข่าวร้าย การศึกษาที่อยู่ภายใต้มีแนวโน้มที่จะพลาดผลกระทบของแท้และในกลุ่มที่มีแนวโน้มที่จะรวมผลบวกปลอมที่สูงกว่า - นั่นคือผลกระทบที่มีนัยสำคัญทางสถิติแม้ว่าพวกเขาจะไม่ใช่ของจริง เมื่อฉันเข้าใจแล้วพลังของการทดสอบสามารถเพิ่มขึ้นได้โดย: เพิ่มขนาดตัวอย่าง มีผลขนาดใหญ่ การเพิ่มระดับนัยสำคัญ สมมติว่าเราไม่ต้องการเปลี่ยนระดับนัยสำคัญฉันเชื่อว่าการอ้างอิงข้างต้นหมายถึงการเปลี่ยนขนาดตัวอย่าง อย่างไรก็ตามฉันไม่เห็นว่าการลดตัวอย่างควรเพิ่มจำนวนผลบวกปลอมอย่างไร หากต้องการกล่าวอย่างง่าย ๆ การลดพลังของการศึกษาจะเพิ่มโอกาสของการปฏิเสธที่ผิดซึ่งตอบคำถาม: P( ความล้มเหลวในการปฏิเสธ H0| H0 เป็นเท็จ)P(ความล้มเหลวในการปฏิเสธ H0|H0 เป็นเท็จ)P(\text{failure to reject }H_{0}|H_{0}\text{ is false}) ตรงกันข้ามบวกเท็จตอบคำถาม: P( ปฏิเสธ H0| H0 เป็นจริง)P(ปฏิเสธ H0|H0 เป็นความจริง)P(\text{reject }H_{0}|H_{0}\text{ is true}) ทั้งสองเป็นคำถามที่แตกต่างกันเพราะเงื่อนไขแตกต่างกัน พลังงานนั้นเกี่ยวข้องกับการปฏิเสธเชิงลบ แต่จะไม่ส่งผลเชิงบวก ฉันพลาดอะไรไปรึเปล่า?

3
Kullback-Leibler divergence โดยไม่มีทฤษฎีข้อมูล
หลังจากผ่านการตรวจสอบของ Cross Validated แล้วฉันยังไม่รู้สึกว่าฉันเข้าใกล้การเข้าใจความแตกต่างของ KL นอกทฤษฎีข้อมูล มันค่อนข้างแปลกสำหรับใครบางคนที่มีพื้นฐานทางคณิตศาสตร์เพื่อให้เข้าใจคำอธิบายทฤษฎีข้อมูลได้ง่ายขึ้น เพื่อสรุปความเข้าใจของฉันจากเบื้องหลังทฤษฎีข้อมูล: ถ้าเรามีตัวแปรสุ่มที่มีจำนวนผลลัพธ์ที่แน่นอนมีการเข้ารหัสที่ดีที่สุดซึ่งช่วยให้เราสามารถสื่อสารผลลัพธ์กับคนอื่นโดยเฉลี่ยกับข้อความสั้นที่สุด (ฉันพบสิ่งนี้ง่ายที่สุดในการ รูปภาพในรูปของบิต) ความยาวที่คาดหวังของข้อความจะต้องสื่อสารผลลัพธ์โดยหากใช้การเข้ารหัสที่เหมาะสมที่สุด หากคุณต้องใช้การเข้ารหัสที่เหมาะสมที่สุดย่อยแล้ว KL divergence จะบอกเราโดยเฉลี่ยว่าข้อความของเราจะนานเท่าไร- ∑αพีαเข้าสู่ระบบ2( หน้าα)-Σαพีαเข้าสู่ระบบ2⁡(พีα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) ฉันชอบคำอธิบายนี้เพราะมันค่อนข้างเกี่ยวข้องกับความไม่สมมาตรของ KL divergence หากเรามีระบบที่แตกต่างกันสองระบบคือสองเหรียญที่โหลดแตกต่างกันพวกเขาจะมีการเข้ารหัสที่ดีที่สุดที่แตกต่างกัน ฉันไม่รู้สึกอย่างสัญชาตญาณว่าการใช้การเข้ารหัสของระบบที่สองสำหรับครั้งแรกนั้น "แย่พอ ๆ กัน" กับการใช้การเข้ารหัสของระบบแรกเป็นครั้งที่สอง โดยไม่ต้องผ่านกระบวนการคิดว่าฉันเชื่อมั่นในตัวเองอย่างไรตอนนี้ฉันมีความสุขมากที่จะช่วยให้คุณนี้ "ข้อความยาวคาดว่าพิเศษ" เมื่อใช้ 's เข้ารหัสสำหรับพีΣαพีα( บันทึก2Qα- บันทึก2พีα)Σαพีα(เข้าสู่ระบบ2⁡Qα-เข้าสู่ระบบ2⁡พีα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})QQqพีพีp อย่างไรก็ตามคำจำกัดความส่วนใหญ่ของ KL divergence รวมถึงวิกิพีเดียก็ทำให้คำแถลง (ทำให้สิ่งนี้เป็นคำที่ไม่ต่อเนื่องเพื่อให้สามารถเปรียบเทียบกับการตีความทฤษฏีข้อมูลซึ่งทำงานได้ดีกว่าในแง่ที่ไม่ต่อเนื่องกันเป็นบิต) การแจกแจงจากนั้น KL จะให้การวัดบางส่วนของ "ความแตกต่าง" ฉันยังไม่เห็นคำอธิบายเดียวว่าแนวคิดทั้งสองนี้เกี่ยวข้องกันอย่างไร ฉันดูเหมือนจะจำได้ว่าในหนังสือของเขาเกี่ยวกับการอนุมานเดฟแมคเคย์ให้คะแนนเกี่ยวกับวิธีการบีบอัดข้อมูลและการอนุมานนั้นเป็นสิ่งเดียวกันและฉันสงสัยว่าคำถามของฉันเกี่ยวข้องกับเรื่องนี้จริงๆ …

2
เราสามารถใช้ MLE เพื่อประเมินน้ำหนักโครงข่ายประสาทเทียมได้หรือไม่
ฉันเพิ่งเริ่มศึกษาเกี่ยวกับสถิติและแบบจำลองต่างๆ ปัจจุบันความเข้าใจของฉันคือเราใช้ MLE เพื่อประเมินพารามิเตอร์ที่ดีที่สุดสำหรับแบบจำลอง อย่างไรก็ตามเมื่อฉันพยายามเข้าใจว่าเครือข่ายประสาททำงานอย่างไรดูเหมือนว่าพวกเขามักจะใช้วิธีอื่นในการประมาณค่าพารามิเตอร์แทน ทำไมเราไม่ใช้ MLE หรือเป็นไปได้ที่จะใช้ MLE เลย?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.