วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

IT Learning Journal Report (January 19, 2011) # 9

Data Management (ต่อ)
ประโยชน์ของ Data Warehouses (Major Benefits of Data Warehouses)
1.             ได้มาซึ่งข้อมูลที่รวดเร็ว ทันต่อการใช้งาน เนื่องจากข้อมูลถูกรวมไว้อยู่ในที่เดียวกัน
2.             ทำให้ผู้ใช้งานสามารถเข้าถึงข้อมูลได้ง่ายขึ้น
Single Sign-on  เป็นการ log-in เข้าสู่ระบบโดยใช้รหัสเดียวกันทั้งองค์กร
Characteistices of Data Warehouses อันนึงคือ Consistency คือข้อมูลที่นำเข้ามานั้นมักไม่สม่ำเสมอ เช่น แต่ละแผนกกรอกข้อมูลเดียวกันไม่เหมือนกัน มี format ที่ต่างกันจาก fact ตัวเดียวกัน เช่น ข้อมูลวันเดือนปีเกิด อาจเขียนในรูปแบบ /ด/, ด//ป หรือเกิดจากการที่มีการ update ข้อมูลที่ไม่เท่ากันในแต่ละส่วนงาน
Data Warehouses ต้องมีการเก็บข้อมูลที่จำเป็นสำหรับให้ผู้บริหารดูและวิเคราะห์ข้อมูลที่ต้องการโดยเมื่อมีการดึงข้อมูลมาจาก Data Warehouses แล้วก็จะมีการนำเสนอในรูปแบบต่างๆ ซึ่งจะขึ้นอยู่กับตัวโปรแกรม Data Warehouse โดยนำเสนอเป็นไปในเชิงลักษณะของการใช้บริหาร เช่น Drill Downs
Drill Downs เป็นการให้ข้อมูลในภาพรวมก่อนแล้วเมื่อสนใจจุดไหนก็สามารถเจาะลึกลงไปดูได้ ตรงข้ามกับ Rollups เช่น ข้อมูลของทั้งมหาวิทยาลัย >> คณะ >> สาขา >> รายบุคคล เป็นต้น
ระบบสารสนเทศ/ระบบการจัดการข้อมูล ต้องสามารถคัดกลองให้คนที่เกี่ยวข้องกับข้อมูลจริงๆเข้าถึงได้เท่านั้น คนที่ไม่มีส่วนเกี่ยวข้องไม่สามารถเข้าไปดูได้
Data Warehouse Process (ขั้นตอนในการทำ Data Warehouse)
                ก่อนอื่นต้องพิจารณาก่อนว่าองค์กรเป็นองค์กรที่ต้องการใช้ข้อมูลในการวิเคราะห์และตัดสินใจหรือไม่  สำหรับขั้นตอนได้แก่
1.              Meta Data เป็นข้อมูลของข้อมูล ดูว่าเราต้องการข้อมูลอะไรบ้างเพื่อนำมาจัดทำ Data Warehouse รวมไปถึงบอกแนวทางที่มาของข้อมูลด้วย แบ่งออกเป็น 1.1 Operational Data เป็นข้อมูลภายใน มาจากระบบ TPS  ของแต่ละแผนก 1.2 External Data เป็นข้อมูลภายนอก เช่น ข้อมูลคู่แข่ง
2.              Data Staging E(C)TL
2.1      Extract เป็นการคัดแยก/คัดลอกข้อมูลออกมารวบรวมปรากฎในที่ใหม่เพื่อสร้าง Data Warehouse โดยพิจารณาว่าจะเอาข้อมูลอะไรมาข้าง และเอามาในรูปแบบใดบ้าง (Format)
2.2      Clean เป็นการ clean ข้อมูล พวกข้อมูลฟันหลอ (ข้อมูล 2 แหล่งไม่เหมือนกัน/ไม่พร้อมใช้) ผ่านการเลือกว่าจะใช้ข้อมูลจากแหล่งไหนกันแน่ เพื่อนำมาใช้งานใน Data Warehouse
2.3      Transform มีการแปลงสภาพข้อมูล เมื่อข้อมูลที่เลือกมามันยังไม่อยู่ในformat ที่ต้องการ ให้อยู่ใน format ที่พร้อมใช้งาน
2.4      Load มีการโหลดข้อมูลลง Data Cube คือข้อมูลหนึ่งๆมันมีหลายมิติ (มุมมอง) การเก็บข้อมูลหนึ่งๆจึงมีการเก็บในหลายมิติ เพื่อให้ผู้ใช้สามารถมองได้หลายๆด้าน และเพื่อเตรียมข้อมูลในพร้อมสำหรับการใช้งาน จากนั้นเข้าสู่กระบวนการเฉือนและหั่น (Slide&Dice) คือ เป็นการเลือกว่าจะเอาข้อมูลไหนมาใช้
3.              Data Warehouse Business Subject
4.              Business View เป็นมุมมองของการเรียกใช้ข้อมูลตาม Business เพื่อให้ผู้บริหารสามารถใช้ข้อมูลที่ต้องการได้ เช่น ในรูปแบบ Dashboard
5.              Information Catalog
Enterprise Data Warehouse เป็น Data Warehouse ของทั้งองค์กร ฝ่ายไหนอยากจะใช้ข้อมูลก็สามารถมาดึงข้อมูลเอาได้ ซึ่งหากมาใช้พร้อมๆกัน ระบบก็จะช้า และข้อมูลที่ดึงมาก็ไม่ได้เกิดประโยชน์ทั้งหมดด้วย คือ ต้องการข้อมูลแค่ส่วนงานบางส่วน แต่ข้อมูลที่ดึงมามีข้อมูลของส่วนงานอื่นที่ไม่จำเป็นต้องใช้ติดมาด้วย มีการแก้ปัญหาโดยการทำ Data Mart
The Data Mart: is a small scaled-down version of a data warehouse: เป็นการตัดแบ่งข้อมูลตามความต้องการของผู้ใช้ (มุมมองของผู้ใช้) ออกมาเป็นส่วนย่อยๆ ในกรณีที่ผู้ใช้มีหลากหลาย แบ่งเป็น 2 ประเภท 1. Replicated (dependent) data marts องค์กรทำ Data Warehouse มาก่อนจากนั้นแต่ละส่วนงานก็มาแยกข้อมูลมาทำ mart เฉพราะส่วนของตนเอง 2.  Stand – alone data marts  เกิดในกรณีองค์กรไม่พร้อมทำ Enterprise Data Warehouse ก็ทำเฉพาะ marts ในส่วนงานของตัวเองที่พร้อมไปก่อน เมื่อแต่ละส่วนงานพร้อมกันมากๆแล้วค่อยเอามารวมเป็น Enterprise (ในทางปฏิบัติไม่ค่อยเกิดจริง)

Business Intelligence (BI)
Business Intelligence: เป็นเครื่องมือในการสร้างสารสนเทศ วิเคราะห์ข้อมูลสำหรับผู้บริหารระดับสูง ประกอบไปด้วย 3 อย่าง คือ 1.Data Mining 2. Text Mining 3. Web Mining
BI Functions and Features แบ่งออกเป็น 3 กลุ่ม คือ 1. Reporting and Analysis การออกรายงาน (ด้านผู้ใช้) 2. Analytics 3. Data Intergration เตรียมข้อมูลให้พร้อมสำหรับการวิเคราะห์
Dashboard & Scorecards
-                   Dashboard มักใช้ในระดับปฏิบัติการ
-                   Scorecard มักใช้ในระดับบริหาร ในการประเมินผลและติดตามการดำเนินงาน
Balance Scorecard (BSC) เป็นการประเมินผลการดำเนินงานใน 4 ด้าน ได้แก่  Financial , Customer ,Internal Process และ Learning โดยมี KPI เป็นตัวชี้วัดการดำเนินงาน
Dashboard ใช้นำการนำเสนอข้อมูล แสดงเป็น chart progress (แสดงความก้าวหน้าของสิ่งที่ทำเทียบกับสิ่งที่ตั้งเป้าไว้) แบ่งเป็น 3 ประเภท ได้แก่ 1. Operational dashboards 2. Tactical dashboards 3. Strategic dashboards
Online Analytical Processing (OLTP) เป็นจุดเริ่มต้นของผู้บริหารในการเข้าถึงสารสนเทศ เป็น Software ที่ช่วยให้ผู้บริหาร นักวิเคราะห์ ผู้จัดการสามารถมองลึกเข้าไปในข้อมูลที่มีได้ อย่างรวดเร็วและสามารถปรับเปลี่ยนรูปแบบการนำเสนอได้อีกด้วย (Interactive access) ซึ่งจะช่วยให้ผู้บริหารสามารถระบุปัญหาได้ วิเคราะห์ข้อมูลได้ง่ายขึ้น
Data Mining เป็นการค้นหาสิ่งที่ยังไม่เคยรู้มาก่อน เพื่อก่อให้เกิดความเข้าใจและสามารถนำมาปฏิบัติได้ ทำได้จริง เป็นการกรองข้อมูลที่มีอยู่จำนวนมากออกมาเป็นข้อมูลที่มีความจำเป็น/มีประโยชน์ต่อผู้ใช้ ซึ่งผลลัพธ์ของข้อมูลที่ได้จะเป็นประโยชน์หรือไม่ขึ้นอยู่กับกระบวนการแปลงผลและวิเคราะห์ข้อมูลของตัวผู้ใช้เอง แบ่งออกเป็น 5 รูปแบบ ด้แก่
1.             Clustering  เป็นการจัดกลุ่มของข้อมูล โดยไม่มีการตั้งสมมติฐานไว้ล่วงหน้า(ไม่รู้ว่าจะเกิดอะไรขึ้น) เป็นการรวมกลุ่มของข้อมูลเอง ตามความสัมพันธ์ที่มี
2.             Classification เป็นการจัดกลุ่มของข้อมูลเช่นกัน แต่มีการตั้งสมมติฐานไว้ล่วงหน้า คือคิดผลลัพท์ไว้ก่อนแล้ว จากนั้นจึงทำการพิสูจน์สมมติฐานว่ามันเป็นจริงหรือไม่
3.             Association ผลสืบเนื่อง เช่น คนที่เปิดบัญชีประเภทออมทรัพย์จะมีกี่ % ที่ใช้บัตร ATM
4.             Sequence Discovery ผลที่เกิดตามหลังมา
5.             Prediction การคาดการณ์ไปในอนาคตข้างหน้า
Text Mining เป็นเสมือนการทำ Data Mining ในกรณีที่ข้อมูลเป็น Unstructure Data คือ ข้อมูลไม่มีโครงสร้างที่ตายตัว ไม่มีรูปแบบที่แน่นแน ซึ่งข้อมูลแบบนี้นับวันจะยิ่งมีการเพิ่มขึ้นเป็นจำนวนมากขึ้นๆ เช่น การ complain ของลูกค้, E-mail Spam โดยเมื่อมีการจัดเก็บข้อมูลแบบนี้ไว้รวมๆกันแล้ว ระบบก็จะพยายามค้นหาความสัมพันธ์ของประเด็นต่างๆในเรื่องนั้นๆ เป็นการจับกลุ่มประเด็นของข้อมูล เพื่อให้ข้อมูลเป็นประโยชน์ต่อการใช้งานต่อไป

สุวารี เลิศลักษณะโสภณ เลขทะเบียน 5302110019

ไม่มีความคิดเห็น:

แสดงความคิดเห็น