กรณีศึกษา Big Data หรือใช้กรณีตัวอย่าง


13

ฉันได้อ่านบล็อก \ article มากมายเกี่ยวกับความแตกต่างของประเภทอุตสาหกรรมที่ใช้การวิเคราะห์ข้อมูลขนาดใหญ่ แต่บทความส่วนใหญ่ไม่ได้กล่าวถึง

  1. บริษัท เหล่านี้ใช้ข้อมูลอะไรกัน ขนาดของข้อมูลคืออะไร
  2. เทคโนโลยีเครื่องมือชนิดใดที่พวกเขาใช้ในการประมวลผลข้อมูล
  3. ปัญหาที่พวกเขาเผชิญคืออะไรและข้อมูลเชิงลึกที่พวกเขาได้รับช่วยให้พวกเขาแก้ไขปัญหาได้อย่างไร
  4. วิธีที่พวกเขาเลือกเครื่องมือ \ technology เพื่อให้เหมาะกับความต้องการของพวกเขา
  5. พวกเขาระบุรูปแบบอะไรจากข้อมูล & พวกเขามองหารูปแบบใดจากข้อมูล

ฉันสงสัยว่าใครบางคนสามารถให้คำตอบสำหรับคำถามเหล่านี้ทั้งหมดหรือลิงก์ที่ตอบคำถามอย่างน้อย ฉันกำลังมองหาตัวอย่างในโลกแห่งความจริง

มันจะดีถ้ามีคนแบ่งปันว่าอุตสาหกรรมการเงินกำลังใช้ประโยชน์จากการวิเคราะห์ข้อมูลขนาดใหญ่อย่างไร

คำตอบ:


14

สำนักข่าวมักจะใช้ "ข้อมูลขนาดใหญ่" อย่างหลวม ๆ ผู้ขายมักจะให้กรณีศึกษาเกี่ยวกับผลิตภัณฑ์เฉพาะของพวกเขา มีไม่มากสำหรับการใช้งานโอเพนซอร์ส แต่พวกเขาจะได้รับการกล่าวถึง ตัวอย่างเช่น Apache จะไม่ใช้เวลามากในการสร้างกรณีศึกษาเกี่ยวกับ hadoop แต่ผู้ขายอย่าง Cloudera และ Hortonworks อาจจะเป็นเช่นนั้น

นี่คือตัวอย่างกรณีศึกษาจาก Clouderaในภาคการเงิน

การอ้างอิงการศึกษา:

บริการทางการเงินระดับโลกที่สำคัญกลุ่มหนึ่งใช้ Cloudera และ Datameer เพื่อช่วยระบุกิจกรรมการซื้อขายที่หลอกลวง ทีมภายในกลุ่มการจัดการสินทรัพย์ของ บริษัท กำลังทำการวิเคราะห์แบบเฉพาะกิจบนฟีดข้อมูลราคาตำแหน่งและคำสั่งซื้อรายวัน การมีการวิเคราะห์เฉพาะกิจเพื่อข้อมูลรายละเอียดทั้งหมดช่วยให้กลุ่มสามารถตรวจจับความผิดปกติในสินทรัพย์บางประเภทและระบุพฤติกรรมที่น่าสงสัย ก่อนหน้านี้ผู้ใช้พึ่งพาเครื่องมือสเปรดชีตบนเดสก์ท็อปเท่านั้น ขณะนี้ด้วย Datameer และ Cloudera ผู้ใช้มีแพลตฟอร์มที่มีประสิทธิภาพที่ช่วยให้พวกเขาสามารถกรองข้อมูลได้รวดเร็วยิ่งขึ้นและป้องกันความสูญเสียที่อาจเกิดขึ้นก่อนที่จะเริ่มต้น

.

ธนาคารรายย่อยชั้นนำกำลังใช้ Cloudera และ Datameer เพื่อตรวจสอบความถูกต้องของข้อมูลและคุณภาพตามที่กำหนดโดยพระราชบัญญัติ Dodd-Frank และกฎระเบียบอื่น ๆ การบูรณาการข้อมูลสินเชื่อและสาขารวมถึงข้อมูลการจัดการความมั่งคั่งความคิดริเริ่มคุณภาพข้อมูลของธนาคารมีหน้าที่รับผิดชอบในการสร้างความมั่นใจว่าทุกระเบียนมีความถูกต้อง กระบวนการนี้รวมถึงการให้ข้อมูลแก่การมีสติและการตรวจสอบคุณภาพมากกว่า 50 ข้อมูล ผลลัพธ์ของการตรวจสอบเหล่านั้นมีแนวโน้มอยู่ตลอดเวลาเพื่อให้แน่ใจว่าความคลาดเคลื่อนของข้อมูลที่เสียหายและโดเมนข้อมูลจะไม่เปลี่ยนแปลงในทางที่ผิดและโปรไฟล์ความเสี่ยงที่ถูกรายงานต่อนักลงทุนและหน่วยงานด้านกฎระเบียบนั้นมีความรอบคอบและเป็นไปตามข้อกำหนด รายงานผลผ่านแผงควบคุมคุณภาพข้อมูลไปยังประธานเจ้าหน้าที่บริหารความเสี่ยงและประธานเจ้าหน้าที่ฝ่ายการเงิน

ฉันไม่เห็นการศึกษาด้านการเงินอื่น ๆ ที่ Cloudera แต่ฉันไม่ได้ค้นหายากมาก คุณสามารถดูห้องสมุดของพวกเขาที่นี่

นอกจากนี้ Hortonworks ยังมีกรณีศึกษาเกี่ยวกับกลยุทธ์การซื้อขายที่พวกเขาเห็นการลดลง 20% ในช่วงเวลาที่ใช้ในการพัฒนากลยุทธ์โดยใช้ประโยชน์จาก K- หมายถึง Hadoop และ R

แต่ละสีระบุกลุ่มของกลยุทธ์ที่มีความน่าจะเป็นคล้ายกันกับกำไรและขาดทุน

การปรับปรุงระบบการซื้อขายโดยใช้ Hadoop (แพลตฟอร์มข้อมูล Hortonworks) และอัลกอริทึม k-mean

สิ่งเหล่านี้ไม่ตอบคำถามของคุณทั้งหมด ฉันค่อนข้างมั่นใจว่าการศึกษาทั้งสองนี้ครอบคลุมมากที่สุด ฉันไม่เห็นสิ่งใดเกี่ยวกับการเลือกเครื่องมือโดยเฉพาะ ฉันจินตนาการว่าพนักงานขายมีส่วนเกี่ยวข้องกับการนำผลิตภัณฑ์โดยรวมเข้ามาในประตู แต่นักวิทยาศาสตร์ด้านข้อมูลใช้เครื่องมือที่พวกเขาใช้สะดวกสบายที่สุด ฉันไม่ค่อยเข้าใจในพื้นที่นั้นในพื้นที่ข้อมูลขนาดใหญ่


1
ขอขอบคุณ. สิ่งนี้มีประโยชน์มาก ฉันรู้ว่ามันเป็นพื้นที่บั๊กและไม่มีใครตอบถูก ฉันสนใจมากที่จะรู้ว่าจะเลือกเครื่องมือข้อมูลและเทคโนโลยีขนาดใหญ่ให้เหมาะกับความต้องการของพวกเขาอย่างไร ฉันไม่ได้ทำเครื่องหมายว่านี่เป็นคำตอบที่ถูกต้องในตอนนี้ แต่แน่นอนว่าสมควรได้รับการโหวตมากขึ้น ไชโย :)
Brown_Dynamite

6

บริการด้านการเงินคือผู้ใช้รายใหญ่ของบิ๊กดาต้าและเป็นผู้ริเริ่ม ตัวอย่างหนึ่งคือการซื้อขายพันธบัตรจำนอง เพื่อตอบคำถามของคุณ:

บริษัท เหล่านี้ใช้ข้อมูลอะไรกัน ขนาดของข้อมูลคืออะไร?

  • ประวัติอันยาวนานของการจำนองแต่ละครั้งที่ออกมาในช่วงหลายปีที่ผ่านมาและการชำระเงินรายเดือนกับพวกเขา (พันล้านแถว)
  • ประวัติเครดิตที่ยาวนาน (พันล้านแถว)
  • ดัชนีราคาบ้าน (ไม่ใหญ่เท่า)

เทคโนโลยีเครื่องมือชนิดใดที่พวกเขาใช้ในการประมวลผลข้อมูล

มันแตกต่างกันไป บางคนใช้โซลูชันภายในองค์กรที่สร้างขึ้นบนฐานข้อมูลเช่น Netezza หรือ Teradata คนอื่น ๆ เข้าถึงข้อมูลผ่านระบบที่จัดทำโดยผู้ให้บริการข้อมูล (Corelogic, Experian ฯลฯ ) ธนาคารบางแห่งใช้เทคโนโลยีฐานข้อมูลแบบคอลัมน์เช่น KDB หรือ 1010data

ปัญหาที่พวกเขาเผชิญคืออะไรและข้อมูลเชิงลึกที่พวกเขาได้รับช่วยให้พวกเขาแก้ไขปัญหาได้อย่างไร

ประเด็นสำคัญคือการพิจารณาเมื่อพันธบัตรจำนอง (จำนองแอ่นหลักทรัพย์) จะชำระเงินล่วงหน้าหรือเริ่มต้น นี่เป็นสิ่งสำคัญอย่างยิ่งสำหรับพันธบัตรที่ไม่มีหลักประกันของรัฐบาล โดยการขุดเข้าไปในประวัติศาสตร์การชำระเงินไฟล์เครดิตและทำความเข้าใจกับมูลค่าปัจจุบันของบ้านมันเป็นไปได้ที่จะทำนายโอกาสของการเริ่มต้น การเพิ่มรูปแบบอัตราดอกเบี้ยและรูปแบบการชำระเงินล่วงหน้ายังช่วยทำนายโอกาสในการชำระล่วงหน้า

วิธีที่พวกเขาเลือกเครื่องมือ \ technology เพื่อให้เหมาะกับความต้องการของพวกเขา

หากโครงการนั้นขับเคลื่อนด้วยระบบไอทีภายในโดยปกติจะเป็นฐานของผู้จำหน่ายฐานข้อมูลขนาดใหญ่เช่น Oracle, Teradata หรือ Netezza ถ้ามันถูกขับเคลื่อนโดย quants พวกเขามีแนวโน้มที่จะตรงไปที่ผู้ขายข้อมูลหรือระบบ "All in" ของบุคคลที่สาม

พวกเขาระบุรูปแบบอะไรจากข้อมูล & พวกเขามองหารูปแบบใดจากข้อมูล

100,000,000beingworththatamount,oraslittleas


คุณเคยเห็นกรณีที่มีการใช้เทคนิคการเรียนรู้ของเครื่องสำหรับการสร้างแบบจำลองการชำระล่วงหน้าหรือไม่ Ie Neural nets, ป่าสุ่ม, GBM?
Josh

5

Kaggleมีข้อมูลสรุปโดยย่อของแอปพลิเคชัน:

Revolution Analyticsเผยแพร่กรณีศึกษาทั่วไปแผ่นข้อมูลและเอกสารทางเทคนิคมากมาย:

สำหรับการใช้งานในสาขาวิทยาศาสตร์และวิศวกรรมคุณสามารถปรึกษากรณีศึกษาของNutonian :

Analyxบอกลูกค้าที่มีศักยภาพเกี่ยวกับการใช้งานในการค้า:

Financial Timesตีพิมพ์รวบรวมเรื่องราวเกี่ยวกับการใช้งานทางธุรกิจของข้อมูลขนาดใหญ่:

  • http://im.ft-static.com/content/images/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf

McKinseyระบุแอปพลิเคชันย้อนกลับไปในปี 2011:

บริษัท ที่ปรึกษาอื่นทำรายงานที่คล้ายกัน

Gartnerสร้าง Hype Cycle สำหรับ Big data:

ป้อนคำอธิบายรูปภาพที่นี่

ไม่ต้องพูดถึงกรณีศึกษาและเอกสารทางเทคนิคโดย บริษัท อื่นที่ต้องการประชาสัมพันธ์ผลิตภัณฑ์ของตน


1

ลองดูที่O'Reilly รายงานข้อมูลฟรี คุณสามารถค้นหารายงานเกี่ยวกับการธนาคารและ Fintech, กีฬา, แฟชั่น, เพลง, สุขภาพ, น้ำมันและก๊าซและอื่น ๆ

โปรดทราบว่ารายงานของ McKinsey ที่กล่าวถึงก่อนหน้านี้เป็นรายงานแบบดั้งเดิมและต้องอ่าน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.