คำถามติดแท็ก statistics

สถิติเป็นวิธีการทางวิทยาศาสตร์ในการอนุมานแบบอุปนัยและการทำนายโดยอาศัยแบบจำลองความน่าจะเป็นของข้อมูล โดยส่วนขยายจะครอบคลุมถึงการออกแบบการทดลองและการสำรวจเพื่อรวบรวมข้อมูลเพื่อจุดประสงค์นี้

1
วิธีรับความสัมพันธ์ระหว่างตัวแปรเด็ดขาดสองประเภทกับตัวแปรเด็ดขาดและตัวแปรต่อเนื่องได้อย่างไร
ฉันกำลังสร้างแบบจำลองการถดถอยและฉันจำเป็นต้องคำนวณด้านล่างเพื่อตรวจสอบความสัมพันธ์ ความสัมพันธ์ระหว่างตัวแปรเด็ดขาด 2 ระดับหลายระดับ ความสัมพันธ์ระหว่างตัวแปรเด็ดขาดหลายระดับและตัวแปรต่อเนื่อง VIF (ปัจจัยเงินเฟ้อความแปรปรวน) สำหรับตัวแปรเด็ดขาดหลายระดับ ฉันเชื่อว่ามันผิดที่จะใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันสำหรับสถานการณ์ข้างต้นเพราะเพียร์สันใช้ได้กับตัวแปร 2 ตัวต่อเนื่องเท่านั้น กรุณาตอบคำถามด้านล่าง สัมประสิทธิ์สหสัมพันธ์ใดดีที่สุดสำหรับกรณีข้างต้น การคำนวณ VIF ใช้งานได้เฉพาะกับข้อมูลต่อเนื่องดังนั้นทางเลือกอื่นคืออะไร ฉันต้องตรวจสอบสมมติฐานอะไรก่อนที่ฉันจะใช้สัมประสิทธิ์สหสัมพันธ์ที่คุณแนะนำ วิธีการนำไปใช้ใน SAS & R

4
โครงข่ายประสาท: ฟังก์ชั่นค่าใช้จ่ายที่จะใช้?
ฉันใช้TensorFlowสำหรับการทดลองกับเครือข่ายประสาทเป็นหลัก แม้ว่าตอนนี้ฉันได้ทำการทดลองบ้างแล้ว (XOR-Problem, MNIST, Regression บางอย่าง, ... ) ตอนนี้ฉันต่อสู้กับการเลือกฟังก์ชั่นต้นทุนที่ "ถูกต้อง" สำหรับปัญหาเฉพาะเพราะโดยรวมแล้วฉันถือว่าเป็นมือใหม่ ก่อนที่จะมาที่ TensorFlow ฉันเขียนรหัส MLP ที่เชื่อมต่ออย่างเต็มที่และเครือข่ายที่เกิดขึ้นเองด้วยPythonและNumPyแต่ส่วนใหญ่ฉันมีปัญหาที่ข้อผิดพลาดยกกำลังสองง่ายและการไล่ระดับสีอย่างง่ายนั้นเพียงพอ อย่างไรก็ตามเนื่องจาก TensorFlow มีฟังก์ชั่นค่าใช้จ่ายค่อนข้างมากเช่นเดียวกับการสร้างฟังก์ชั่นค่าใช้จ่ายที่กำหนดเองฉันต้องการที่จะทราบว่ามีการสอนบางอย่างที่เฉพาะเจาะจงสำหรับฟังก์ชั่นค่าใช้จ่ายในเครือข่ายประสาท (ฉันทำไปแล้วเหมือนครึ่งหนึ่งของแบบฝึกหัด TensorFlow อย่างเป็นทางการ แต่พวกเขาไม่ได้อธิบายว่าทำไมฟังก์ชั่นค่าใช้จ่ายเฉพาะหรือผู้เรียนใช้สำหรับปัญหาเฉพาะ - อย่างน้อยไม่ใช่สำหรับผู้เริ่มต้น) ในการให้ตัวอย่าง: cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y_output, y_train)) ฉันเดาว่ามันใช้ฟังก์ชั่น softmax กับทั้งสองอินพุตเพื่อให้ผลรวมของเวกเตอร์หนึ่งเท่ากับ 1 แต่ไขว้เอนโทรปีของการบันทึกคืออะไร ฉันคิดว่ามันสรุปค่าและคำนวณค่าเอนโทรปีของการไขว้ ... ดังนั้นการวัดบางอย่าง?! นี่จะไม่เหมือนกันหรือไม่ถ้าฉันเอาท์พุทเป็นปกติ, หาผลรวมมันออกมา นอกจากนี้เหตุใดจึงใช้สิ่งนี้เช่นสำหรับ MNIST (หรือปัญหาที่ยากกว่า) เมื่อฉันต้องการที่จะจัดเช่น 10 หรือแม้กระทั่ง 1000 เรียนไม่ได้ข้อสรุปถึงค่าที่สมบูรณ์ทำลายข้อมูลใด ๆ เกี่ยวกับการที่ชั้นเป็นจริงการส่งออกหรือไม่ …

11
ข้อมูลวิทยาศาสตร์ใน C (หรือ C ++)
ฉันเป็นRโปรแกรมเมอร์ภาษา ฉันยังอยู่ในกลุ่มคนที่ถือว่าเป็นนักวิทยาศาสตร์ด้านข้อมูล แต่มาจากสาขาวิชาการที่ไม่ใช่ CS สิ่งนี้ทำงานได้ดีในบทบาทของฉันในฐานะนักวิทยาศาสตร์ข้อมูล แต่ด้วยการเริ่มต้นอาชีพของฉันRและมีความรู้พื้นฐานเกี่ยวกับภาษาสคริปต์ / เว็บภาษาอื่น ๆ ฉันรู้สึกไม่เพียงพอใน 2 ประเด็นสำคัญ: ขาดความรู้ที่เป็นของแข็งเกี่ยวกับทฤษฎีการเขียนโปรแกรม ขาดระดับการแข่งขันของทักษะในภาษาได้เร็วขึ้นและกว้างขวางมากขึ้นมาใช้เช่นC, C++และJavaซึ่งสามารถนำมาใช้ในการเพิ่มความเร็วของท่อและข้อมูลขนาดใหญ่การคำนวณเช่นเดียวกับการสร้าง DS / ผลิตภัณฑ์ข้อมูลซึ่งสามารถได้รับการพัฒนามากขึ้นอย่างรวดเร็วเข้าไปอย่างรวดเร็ว สคริปต์แบ็คเอนด์หรือแอพพลิเคชันแบบสแตนด์อโลน วิธีแก้ปัญหานั้นง่ายมาก - ไปเรียนรู้เกี่ยวกับการเขียนโปรแกรมซึ่งเป็นสิ่งที่ฉันทำโดยลงทะเบียนในบางคลาส (ปัจจุบันคือการเขียนโปรแกรม C) อย่างไรก็ตามตอนนี้ฉันเริ่มที่จะแก้ไขปัญหาที่ # 1 และ # 2 ข้างต้นแล้วฉันก็ถามตัวเองว่า " ภาษาเป็นอย่างไรCและC++วิทยาศาสตร์ข้อมูลเป็นอย่างไร? " ตัวอย่างเช่นฉันสามารถย้ายข้อมูลไปมาอย่างรวดเร็วและโต้ตอบกับผู้ใช้ได้ดี แต่สิ่งที่เกี่ยวกับการถดถอยขั้นสูงการเรียนรู้ของเครื่องการทำเหมืองข้อความและการดำเนินการทางสถิติขั้นสูงอื่น ๆ ดังนั้น. สามารถCทำงานได้ - มีเครื่องมืออะไรบ้างสำหรับสถิติขั้นสูง ML, AI และสาขาอื่น ๆ ของ Data Science หรือฉันต้องหลวมประสิทธิภาพส่วนใหญ่ที่ได้จากการเขียนโปรแกรมCด้วยการโทรหาRสคริปต์หรือภาษาอื่น ๆ …

3
การคำนวณและการแสดงเมทริกซ์สหสัมพันธ์ด้วยนุ่น
ฉันมีกรอบข้อมูลแพนด้ากับหลายรายการและฉันต้องการคำนวณความสัมพันธ์ระหว่างรายได้ของร้านค้าบางประเภท มีร้านค้าหลายแห่งที่มีข้อมูลรายได้การจำแนกประเภทของกิจกรรม (โรงละครร้านผ้าอาหาร ... ) และข้อมูลอื่น ๆ ฉันพยายามสร้าง data frame ใหม่และแทรกคอลัมน์ที่มีรายได้ของร้านค้าทุกประเภทที่อยู่ในหมวดหมู่เดียวกันและ data frame ที่ส่งคืนมีเพียงคอลัมน์แรกที่เต็มไปและคอลัมน์ที่เหลือเต็มไปด้วย NaN รหัสที่ฉันเหนื่อย: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] ฉันต้องการทำเช่นนั้นดังนั้นฉันสามารถใช้.corr()เพื่อให้เมทริกซ์สหสัมพันธ์ระหว่างหมวดหมู่ของร้านค้า หลังจากนั้นฉันอยากรู้ว่าฉันสามารถพล็อตค่าเมทริกซ์ (-1 ถึง 1 ได้อย่างไรเนื่องจากฉันต้องการใช้สหสัมพันธ์ของเพียร์สัน) กับ matplolib

4
หนังสือเกี่ยวกับ“ วิทยาศาสตร์” ในวิทยาศาสตร์ข้อมูล? [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา หนังสือเกี่ยวกับวิทยาศาสตร์และคณิตศาสตร์เบื้องหลังวิทยาศาสตร์ข้อมูลคืออะไร รู้สึกเหมือนหนังสือ "วิทยาศาสตร์ข้อมูล" จำนวนมากเป็นบทเรียนการเขียนโปรแกรมและไม่ได้สัมผัสสิ่งต่าง ๆ เช่นกระบวนการสร้างข้อมูลและการอนุมานเชิงสถิติ ฉันสามารถเขียนโค้ดแล้วสิ่งที่ฉันอ่อนแอคือคณิตศาสตร์ / สถิติ / ทฤษฎีที่อยู่เบื้องหลังสิ่งที่ฉันทำ หากฉันพร้อมที่จะเผาหนังสือ 1,000 ดอลลาร์ (ประมาณ 10 เล่ม ... ถอนหายใจ) ฉันจะซื้ออะไรได้บ้าง ตัวอย่าง: การวิเคราะห์ข้อมูลอย่างละเอียดของ Agresti , ตัวแบบผสมเชิงเส้นสำหรับข้อมูลระยะยาวฯลฯ ... ฯลฯ ...

9
คอนโซล R ออนไลน์ใด ๆ
ฉันกำลังมองหาคอนโซลออนไลน์สำหรับภาษาอาร์เช่นเดียวกับฉันเขียนรหัสและเซิร์ฟเวอร์ควรดำเนินการและให้ผลลัพธ์ คล้ายกับเว็บไซต์ Datacamp
24 r  statistics 

4
ฉันควรใช้แบบจำลองทางสถิติใดในการวิเคราะห์ความน่าจะเป็นที่เหตุการณ์เดียวมีผลต่อข้อมูลระยะยาว
ฉันกำลังพยายามค้นหาสูตรวิธีการหรือแบบจำลองเพื่อใช้ในการวิเคราะห์ความน่าจะเป็นที่เหตุการณ์เฉพาะนั้นมีผลต่อข้อมูลระยะยาว ฉันกำลังหาสิ่งที่จะค้นหาใน Google ได้ยาก นี่คือสถานการณ์ตัวอย่าง: ภาพที่คุณเป็นเจ้าของธุรกิจที่มีลูกค้าโดยเฉลี่ย 100 คนต่อวัน อยู่มาวันหนึ่งคุณตัดสินใจว่าคุณต้องการเพิ่มจำนวนลูกค้าที่เดินเข้ามาในร้านของคุณในแต่ละวันดังนั้นคุณจึงดึงการแสดงความสามารถออกไปข้างนอกร้านเพื่อรับความสนใจ ในสัปดาห์หน้าคุณจะเห็นลูกค้าโดยเฉลี่ย 125 คนต่อวัน ในอีกไม่กี่เดือนข้างหน้าคุณตัดสินใจอีกครั้งว่าคุณต้องการทำธุรกิจเพิ่มและอาจต้องใช้เวลานานกว่านี้ดังนั้นคุณลองทำสิ่งสุ่มอื่น ๆ เพื่อรับลูกค้าในร้านของคุณ แต่น่าเสียดายที่คุณไม่ใช่นักการตลาดที่ดีที่สุดและกลยุทธ์บางอย่างของคุณมีผลเพียงเล็กน้อยหรือไม่มีเลยและอื่น ๆ ก็มีผลกระทบด้านลบ ฉันสามารถใช้วิธีการใดในการพิจารณาความน่าจะเป็นที่เหตุการณ์ใดเหตุการณ์หนึ่งในเชิงบวกหรือเชิงลบส่งผลกระทบต่อจำนวนลูกค้าที่เดินเข้ามา? ฉันตระหนักดีว่าความสัมพันธ์ไม่จำเป็นต้องมีสาเหตุที่เท่าเทียมกัน แต่ฉันจะใช้วิธีการใดในการพิจารณาว่าการเพิ่มหรือลดของการเดินในชีวิตประจำวันของธุรกิจของคุณในการติดตามเหตุการณ์เฉพาะของลูกค้าเป็นอย่างไร ฉันไม่ได้สนใจที่จะวิเคราะห์ว่ามีความสัมพันธ์ระหว่างความพยายามของคุณในการเพิ่มจำนวนลูกค้าที่เดินเข้ามาหรือไม่ แต่จะมีเหตุการณ์ใดเหตุการณ์หนึ่งที่เป็นอิสระจากผู้อื่นหรือไม่ ฉันรู้ว่าตัวอย่างนี้มีการวางแผนและค่อนข้างง่ายดังนั้นฉันจะให้คำอธิบายสั้น ๆ เกี่ยวกับข้อมูลจริงที่ฉันใช้: ฉันพยายามกำหนดผลกระทบที่เอเจนซี่การตลาดหนึ่ง ๆ มีต่อเว็บไซต์ของลูกค้าเมื่อพวกเขาเผยแพร่เนื้อหาใหม่ดำเนินการแคมเปญโซเชียลมีเดีย ฯลฯ สำหรับเอเจนซี่หนึ่ง ๆ พวกเขาอาจมีลูกค้าตั้งแต่ 1 ถึง 500 ลูกค้าแต่ละรายมีเว็บไซต์ตั้งแต่ขนาด 5 หน้าไปจนถึงมากกว่า 1 ล้านหน้า ตลอดระยะเวลา 5 ปีที่ผ่านมาแต่ละหน่วยงานมีคำอธิบายประกอบทั้งหมดสำหรับลูกค้าแต่ละรายรวมถึงประเภทของงานที่ทำจำนวนหน้าเว็บในเว็บไซต์ที่ได้รับอิทธิพลจำนวนชั่วโมงที่ใช้ ฯลฯ การใช้ข้อมูลข้างต้นซึ่งฉันได้รวบรวมไว้ในคลังข้อมูล (วางลงในพวงของสตาร์ / เกล็ดหิมะ) ฉันต้องพิจารณาว่ามีความเป็นไปได้ที่งานชิ้นใดชิ้นหนึ่ง …

4
จะระบุคุณลักษณะที่สำคัญได้อย่างไร
สมมติว่าชุดของข้อมูลที่มีโครงสร้างแบบหลวม ๆ (เช่นตารางเว็บ / เปิดข้อมูลที่เชื่อมโยง) ซึ่งประกอบด้วยแหล่งข้อมูลจำนวนมาก ไม่มี schema ทั่วไปตามด้วยข้อมูลและแต่ละแหล่งสามารถใช้แอตทริบิวต์คำพ้องความหมายเพื่ออธิบายค่า (เช่น "สัญชาติ" กับ "bornIn") เป้าหมายของฉันคือการค้นหาคุณลักษณะ "สำคัญ" ที่ "กำหนด" เอนทิตีที่พวกเขาอธิบาย ดังนั้นเมื่อฉันพบค่าเดียวกันสำหรับแอตทริบิวต์ดังกล่าวฉันจะรู้ว่าคำอธิบายทั้งสองมีแนวโน้มมากที่สุดเกี่ยวกับเอนทิตีเดียวกัน (เช่นบุคคลเดียวกัน) ตัวอย่างเช่นแอตทริบิวต์ "lastName" นั้นเลือกปฏิบัติมากกว่าแอตทริบิวต์ "สัญชาติ" ฉันจะค้นหาคุณลักษณะที่สำคัญกว่าตัวอื่นได้อย่างไร (ทางสถิติ) วิธีแก้ปัญหาแบบไร้เดียงสาคือการใช้ IDF เฉลี่ยของค่าของแต่ละคุณลักษณะและทำให้สิ่งนี้เป็นปัจจัย "สำคัญ" ของแอตทริบิวต์ วิธีที่คล้ายกันคือการนับจำนวนค่าที่แตกต่างกันปรากฏสำหรับแต่ละแอตทริบิวต์ ฉันได้เห็นคุณลักษณะคำศัพท์หรือการเลือกคุณลักษณะในการเรียนรู้ของเครื่อง แต่ฉันไม่ต้องการทิ้งคุณลักษณะที่เหลืออยู่ฉันแค่ต้องการให้น้ำหนักที่สูงขึ้นแก่สิ่งที่สำคัญที่สุด

5
หนังสือคณิตศาสตร์ขั้นต้นสำหรับการเรียนรู้ของเครื่อง
ฉันเป็นวิศวกรวิทยาการคอมพิวเตอร์ที่ไม่มีพื้นฐานด้านสถิติหรือคณิตศาสตร์ขั้นสูง ฉันเรียนหนังสือหลามเครื่องเรียนรู้โดย Raschka และ Mirjalili แต่เมื่อฉันพยายามที่จะเข้าใจคณิตศาสตร์ของการเรียนรู้ของเครื่องผมไม่สามารถที่จะเข้าใจหนังสือดีที่เพื่อนแนะนำผมองค์ประกอบของการเรียนรู้ทางสถิติ คุณรู้สถิติและหนังสือคณิตศาสตร์สำหรับการเรียนรู้ของเครื่องได้ง่ายขึ้นไหม? หากคุณไม่ฉันจะย้ายได้อย่างไร

1
มีคุณสมบัติกี่ตัวอย่างในการใช้ป่าสุ่ม
หน้าวิกิพีเดียซึ่งคำพูด"องค์ประกอบของการเรียนรู้ทางสถิติ"พูดว่า: โดยปกติแล้วสำหรับปัญหาการจัดหมวดหมู่ที่มีคุณสมบัติ⌊ √ppp คุณลักษณะ p ⌋ถูกใช้ในการแบ่งแต่ละครั้ง⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor ฉันเข้าใจว่านี่เป็นการคาดเดาที่มีการศึกษาค่อนข้างดีและอาจได้รับการยืนยันจากหลักฐานเชิงประจักษ์ แต่มีเหตุผลอื่นที่ทำให้เราเลือกรากที่สองได้หรือไม่ มีปรากฏการณ์ทางสถิติเกิดขึ้นที่นั่นไหม? นี่ช่วยลดความแปรปรวนของข้อผิดพลาดได้หรือไม่? สิ่งนี้เป็นสิ่งเดียวกันสำหรับการถดถอยและการจัดหมวดหมู่หรือไม่

2
ข้อมูลมิติสูง: เทคนิคที่เป็นประโยชน์ที่จะรู้คืออะไร?
เนื่องจากคำสาปของขนาดต่าง ๆความแม่นยำและความเร็วของเทคนิคการทำนายทั่วไปจำนวนมากจะลดลงในข้อมูลมิติสูง เทคนิค / เทคนิค / การวิเคราะห์พฤติกรรมที่มีประโยชน์ที่สุดที่ช่วยจัดการกับข้อมูลมิติสูงอย่างมีประสิทธิภาพคืออะไร ตัวอย่างเช่น, วิธีการทางสถิติ / แบบจำลองบางอย่างทำงานได้ดีกับชุดข้อมูลที่มีมิติสูงหรือไม่? เราสามารถปรับปรุงประสิทธิภาพของแบบจำลองการทำนายของเราบนข้อมูลมิติสูงโดยใช้บางอย่าง (ที่กำหนดแนวคิดทางเลือกของระยะทาง) หรือเมล็ด (ที่กำหนดความคิดทางเลือกของผลิตภัณฑ์จุด) อะไรคือเทคนิคที่มีประโยชน์ที่สุดในการลดมิติข้อมูลสำหรับข้อมูลมิติสูง?

2
การวิเคราะห์ผลการทดสอบ A / B ซึ่งไม่ได้มีการแจกแจงแบบปกติโดยใช้ t-test อิสระ
ฉันมีชุดผลลัพธ์จากการทดสอบ A / B (กลุ่มควบคุมหนึ่งกลุ่มหนึ่งกลุ่มคุณลักษณะ) ซึ่งไม่พอดีกับการแจกแจงแบบปกติ ในความเป็นจริงการกระจายมีความคล้ายคลึงกับการกระจายรถม้า ฉันเชื่อว่าการทดสอบแบบอิสระนั้นต้องการให้กลุ่มตัวอย่างกระจายอย่างน้อยประมาณปกติซึ่งทำให้ฉันไม่ได้ใช้การทดสอบแบบทีเป็นวิธีการทดสอบอย่างมีนัยสำคัญ แต่คำถามของฉันคือ: ณ จุดใดที่หนึ่งสามารถพูดได้ว่าการทดสอบ t- ไม่ใช่วิธีการทดสอบที่สำคัญ? หรือใส่อีกวิธีหนึ่งจะมีคุณสมบัติอย่างไรความน่าเชื่อถือของค่า p ของการทดสอบ t ได้รับเพียงชุดข้อมูล?

3
p-values ​​หลอกลวงเมื่อใด
เงื่อนไขข้อมูลที่เราควรระวังคืออะไรค่า p อาจไม่ใช่วิธีที่ดีที่สุดในการตัดสินใจนัยสำคัญทางสถิติ มีปัญหาประเภทใดบ้างที่เข้าหมวดนี้หรือไม่

6
ชุดข้อมูลเข้าใจวิธีปฏิบัติที่ดีที่สุด
ฉันเป็นนักศึกษาปริญญาโท CS ในด้านการขุดข้อมูล หัวหน้างานของฉันเคยบอกฉันว่าก่อนที่ฉันจะเรียกใช้ตัวจําแนกใด ๆ หรือทำอะไรกับชุดข้อมูลฉันต้องเข้าใจข้อมูลทั้งหมดและตรวจสอบให้แน่ใจว่าข้อมูลสะอาดและถูกต้อง คำถามของฉัน: อะไรคือวิธีปฏิบัติที่ดีที่สุดในการทำความเข้าใจชุดข้อมูล (มิติสูงที่มีคุณลักษณะตัวเลขและระบุ)? วิธีปฏิบัติเพื่อให้แน่ใจว่าชุดข้อมูลนั้นสะอาดหรือไม่ วิธีปฏิบัติเพื่อให้แน่ใจว่าชุดข้อมูลไม่มีค่าผิดหรือเป็นเช่นนั้น?

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.