Big Data คืออะไร?
อันที่จริงแล้วชุดข้อมูลขนาดใหญ่กำเนิดขึ้นในช่วงทศวรรษที่ 1960 และ 70s เมื่อศูนย์ข้อมูลแห่งแรกของโลก Electronic Numerical Integrator and Computer หรือ ENIAC และการพัฒนาฐานข้อมูลเชิงสัมพันธ์ได้เกิดขึ้น
ส่วนคำว่า Big data ที่เราได้ยินกันทุกวันนี้ถือเป็นคำศัพท์ใหม่ที่พึ่งเริ่มใช้ในช่วงปี 1990 ซึ่ง John Mashey นักวิทยาศาสตร์คอมพิวเตอร์ชาวอเมริกันได้ให้คำจำกัดความของ Big data ว่าหมายถึงข้อมูลจำนวนมากที่มีทั้งแบบข้อมูลที่มีโครงสร้าง (Structured data) ข้อมูลกึ่งมีโครงสร้าง (Semi-structured data) และข้อมูลที่ไม่มีโครงสร้าง (Unstructured data) ปะปนกันอยู่ ยากที่จะจัดการและประมวลผลด้วยซอฟท์แวร์แบบเดิม การรับมือกับ Big data ต้องอาศัยทั้งเทคนิคและเทคโนโลยีสมัยใหม่ที่สามารถรองรับข้อมูลขนาดใหญ่ มีความซับซ้อนและหลากหลายได้
การที่จะเป็น Big data ได้จะประกอบด้วยลักษณะสำคัญ 4Vs
Volume - มีข้อมูลปริมาณมาก
ข้อมูลที่เกิดขึ้นและจัดเก็บไว้ได้จะต้องใหญ่มากเพียงพอ ซึ่งข้อมูลจำนวนมากในที่นี้เป็นข้อมูลที่รวบรวมได้จากหลากหลายแหล่ง ไม่ว่าจะเป็นข้อมูลจากฐานข้อมูลการทำธุรกรรมของธุรกิจประเภทต่าง ๆ ข้อมูลที่ได้รับมาจากอุปกรณ์อัจฉริยะที่สามารถรับและส่งข้อมูลอัตโนมัติได้ ไฟล์ภาพ ไฟล์เอกสาร หรือแม้กระทั่งไฟล์เสียง ในการจัดเก็บข้อมูลทั้งหมดด้วยวิธีเดิมอาจจะทำให้เสียค่าใช้จ่ายจำนวนมากในการเก็บรักษาและจัดการข้อมูล แต่เมื่อนำข้อมูลเหล่านั้นมาจัดเก็บบนพื้นที่จัดเก็บข้อมูลส่วนกลาง (Data Lake), Hadoop และ Cloud ก็จะช่วยให้ลดค่าใช้จ่ายในส่วนนี้ได้
Velocity - มีความเร็วในการประมวลผล
ด้วยการเติบโตของ Internet of Things และเทคโนโลยีสมัยใหม่ในปัจจุบันทำให้ข้อมูลถูกส่งไปยังแหล่งต่าง ๆ ได้เร็วและเป็นแบบ Real-time มากขึ้น มีการประมวลผลข้อมูลตลอดเวลาให้ทันกับความต้องการของคนใช้ข้อมูล ซึ่งแตกต่างจาก Data ขนาดเล็กทั่วไป
Variety - มีข้อมูลหลากหลายรูปแบบ
ข้อมูลมีความหลากหลายในทุกรูปแบบ ไม่ว่าจะเป็นข้อมูลที่มีโครงสร้าง เช่น ข้อมูลตัวเลขในตาราง ข้อมูลฐานข้อมูล ไปจนถึงข้อมูลที่ไม่มีโครงสร้าง เช่น เอกสารข้อความ วิดีโอ ไฟล์เสียง ข้อมูลสัญลักษณ์หุ้นและธุรกรรมทางการเงิน
Veracity - มีความไม่ชัดเจน
เป็นข้อมูลดิบ (Raw data) ที่มีคุณภาพข้อมูลอยู่ในระดับที่สามารถนำไปประมวลผลต่อได้
นอกจาก 4Vs ที่เป็นลักษณะสำคัญของ Big data แล้วก็ยังมีลักษณะอีกสองข้อที่สามารถบอกได้ว่าข้อมูลนี้เป็น Big data ได้แก่ Scalability หมายถึงข้อมูลทั้งหมดที่มีอยู่ต้องสามารถขยายขนาดได้อย่างรวดเร็ว และ Relational คือข้อมูลควรมีความเกี่ยวข้องกันเพราะข้อมูลที่มีความเกี่ยวข้องกันจะสามารถทำให้ประมวลผลได้มีประสิทธิภาพมากขึ้น
Big data ไม่ได้เน้นให้ความสำคัญที่จำนวนข้อมูล แต่เป็นการจัดการข้อมูล การวิเคราะห์ข้อมูลเชิงลึกเพื่อนำไปใช้ประกอบการตัดสินใจ
การใช้ Big data ในปัจจุบัน
กระบวนการทำงานของ Big data ถูกนำมาใช้อย่างมากในองค์กรขนาดใหญ่ที่มีข้อมูลจำนวนมากมายมหาศาล เช่น Facebook, Google, Citi bank และ Agoda โดยส่วนใหญ่จะอยู่ในรูปแบบของการประมวลผลเพื่อหาข้อมูลเชิงลึก เพื่อเอาไปวางแผนให้ได้ผลลัพธ์ที่ต้องการขององค์กร วางแผนทางการตลาดเพื่อให้สามารถเข้าถึงความต้องการของกลุ่มลูกค้าได้มากที่สุด เช่น บริษัทรับจองที่พักผ่านช่องทางออนไลน์ใช้ Big data วิเคราะห์พฤติกรรมของลูกค้าโดยอาศัยข้อมูลจากการติดตามพฤติกรรมการใช้งานว่าลูกค้ามีความต้องการยังไงบ้าง นอกจากนี้ยังเช็คราคาของคู่แข่งแล้วนำข้อมูลเหล่านี้มาเสนอให้ลูกค้าแบบอัตโนมัติได้
เทคโนโลยีที่รองรับการทำงานกับ Big data ยังช่วยให้ลดระยะเวลาในการดำเนินงานได้ ส่งผลให้องค์กรลดต้นทุนในการดำเนินงานด้าน IT และด้านบุคคลากรที่เกินความจำเป็นได้อย่างมากเมื่อเทียบกับการดำเนินงานในแบบเดิม
ใช้ Big data อย่างไรให้เกิดประสิทธิภาพ
1. ไม่ควรเชื่อตัวเองมากกว่าข้อมูล
หนึ่งความล้มเหลวของการวางแผนงานหรือการตัดสินใจหลังจากที่เลือกใช้ Big Data คือ ผู้ใช้ข้อมูลยังคงเลือกที่จะเชื่อตัวเองมากกว่าถึงแม้ว่าข้อมูลที่ได้มานั้นจะสะท้อนความจริงก็ตาม
2. ใช้เทคโนโลยีแก้ไขปัญหาไม่ถูกต้อง
เทคโนโลยีที่ถูกสร้างขึ้นในปัจจุบันมีมากขึ้นตามยุคสมัยและความต้องการของตลาด เพราะฉะนั้นควรเลือกใช้เทคโนโลยีที่ตรงกับความต้องการขององค์กรมากที่สุด ไม่เลือกใช้เทคโนโลยีในรุ่นเก่าหรือเทคโนโลยีที่เคยใช้เมื่อตอนที่ยังมี Data ไม่เยอะเข้ามาใช้ในการจัดการ Big data
3. บุคลากรควรมีทักษะด้าน Big data
เนื่องจากเป็นเทคโนโลยีที่มีความทันสมัย จึงจำเป็นต้องใช้บุคลากรที่มีความรู้และความชำนาญในด้าน Big data เข้ามาช่วยในการดำเนินงาน
4. มีพื้นที่ไม่เพียงพอในการเก็บข้อมูล
ในบางองค์กรขาดการประเมินแนวโน้มของขนาดข้อมูลที่จะเกิดขึ้น ส่งผลให้พอใช้เทคโนโลยี Big data ไปนาน ๆ แล้วประสบปัญหาพื้นที่เก็บข้อมูลไม่เพียงพอ บางรายขาดการอัปเดทโครงสร้างของฐานข้อมูลที่ใช้เก็บข้อมูลให้ตรงกับรูปแบบข้อมูลที่เกิดขึ้นทำให้ข้อมูลบางส่วนไม่ได้รับการบันทึก
อะไรเป็นความท้าทายของ Big Data
แม้ว่าขณะนี้ Big data จะมีศักยภาพอย่างมากแต่ก็ยังคงพบว่ามีความท้าทายอยู่หลายข้อ ไม่ว่าจะเป็นในแง่ของการติดตามข้อมูลและหาวิธีจัดเก็บข้อมูลอย่างมีประสิทธิภาพ เพราะในปัจจุบันเทคโนโลยีสมัยใหม่เพื่อใช้เก็บข้อมูลได้รับการพัฒนามากขึ้น แต่ปริมาณข้อมูลก็เพิ่มขึ้นเป็นสองเท่าในทุก ๆ สองปี เมื่อมีข้อมูลจำนวนมากก็ต้องใช้เวลาในทำความสะอาดข้อมูล (Data wrangling) มากขึ้นตามไปด้วย โดยเฉพาะอย่างยิ่งข้อมูลที่เกี่ยวข้องกับลูกค้า ข้อมูลการทำธุรกรรมทางธุรกิจ