วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

IT Learning Journal Report (January 19, 2011) # 9

Data Management (ต่อ)
ประโยชน์ของ Data Warehouses (Major Benefits of Data Warehouses)
1.             ได้มาซึ่งข้อมูลที่รวดเร็ว ทันต่อการใช้งาน เนื่องจากข้อมูลถูกรวมไว้อยู่ในที่เดียวกัน
2.             ทำให้ผู้ใช้งานสามารถเข้าถึงข้อมูลได้ง่ายขึ้น
Single Sign-on  เป็นการ log-in เข้าสู่ระบบโดยใช้รหัสเดียวกันทั้งองค์กร
Characteistices of Data Warehouses อันนึงคือ Consistency คือข้อมูลที่นำเข้ามานั้นมักไม่สม่ำเสมอ เช่น แต่ละแผนกกรอกข้อมูลเดียวกันไม่เหมือนกัน มี format ที่ต่างกันจาก fact ตัวเดียวกัน เช่น ข้อมูลวันเดือนปีเกิด อาจเขียนในรูปแบบ /ด/, ด//ป หรือเกิดจากการที่มีการ update ข้อมูลที่ไม่เท่ากันในแต่ละส่วนงาน
Data Warehouses ต้องมีการเก็บข้อมูลที่จำเป็นสำหรับให้ผู้บริหารดูและวิเคราะห์ข้อมูลที่ต้องการโดยเมื่อมีการดึงข้อมูลมาจาก Data Warehouses แล้วก็จะมีการนำเสนอในรูปแบบต่างๆ ซึ่งจะขึ้นอยู่กับตัวโปรแกรม Data Warehouse โดยนำเสนอเป็นไปในเชิงลักษณะของการใช้บริหาร เช่น Drill Downs
Drill Downs เป็นการให้ข้อมูลในภาพรวมก่อนแล้วเมื่อสนใจจุดไหนก็สามารถเจาะลึกลงไปดูได้ ตรงข้ามกับ Rollups เช่น ข้อมูลของทั้งมหาวิทยาลัย >> คณะ >> สาขา >> รายบุคคล เป็นต้น
ระบบสารสนเทศ/ระบบการจัดการข้อมูล ต้องสามารถคัดกลองให้คนที่เกี่ยวข้องกับข้อมูลจริงๆเข้าถึงได้เท่านั้น คนที่ไม่มีส่วนเกี่ยวข้องไม่สามารถเข้าไปดูได้
Data Warehouse Process (ขั้นตอนในการทำ Data Warehouse)
                ก่อนอื่นต้องพิจารณาก่อนว่าองค์กรเป็นองค์กรที่ต้องการใช้ข้อมูลในการวิเคราะห์และตัดสินใจหรือไม่  สำหรับขั้นตอนได้แก่
1.              Meta Data เป็นข้อมูลของข้อมูล ดูว่าเราต้องการข้อมูลอะไรบ้างเพื่อนำมาจัดทำ Data Warehouse รวมไปถึงบอกแนวทางที่มาของข้อมูลด้วย แบ่งออกเป็น 1.1 Operational Data เป็นข้อมูลภายใน มาจากระบบ TPS  ของแต่ละแผนก 1.2 External Data เป็นข้อมูลภายนอก เช่น ข้อมูลคู่แข่ง
2.              Data Staging E(C)TL
2.1      Extract เป็นการคัดแยก/คัดลอกข้อมูลออกมารวบรวมปรากฎในที่ใหม่เพื่อสร้าง Data Warehouse โดยพิจารณาว่าจะเอาข้อมูลอะไรมาข้าง และเอามาในรูปแบบใดบ้าง (Format)
2.2      Clean เป็นการ clean ข้อมูล พวกข้อมูลฟันหลอ (ข้อมูล 2 แหล่งไม่เหมือนกัน/ไม่พร้อมใช้) ผ่านการเลือกว่าจะใช้ข้อมูลจากแหล่งไหนกันแน่ เพื่อนำมาใช้งานใน Data Warehouse
2.3      Transform มีการแปลงสภาพข้อมูล เมื่อข้อมูลที่เลือกมามันยังไม่อยู่ในformat ที่ต้องการ ให้อยู่ใน format ที่พร้อมใช้งาน
2.4      Load มีการโหลดข้อมูลลง Data Cube คือข้อมูลหนึ่งๆมันมีหลายมิติ (มุมมอง) การเก็บข้อมูลหนึ่งๆจึงมีการเก็บในหลายมิติ เพื่อให้ผู้ใช้สามารถมองได้หลายๆด้าน และเพื่อเตรียมข้อมูลในพร้อมสำหรับการใช้งาน จากนั้นเข้าสู่กระบวนการเฉือนและหั่น (Slide&Dice) คือ เป็นการเลือกว่าจะเอาข้อมูลไหนมาใช้
3.              Data Warehouse Business Subject
4.              Business View เป็นมุมมองของการเรียกใช้ข้อมูลตาม Business เพื่อให้ผู้บริหารสามารถใช้ข้อมูลที่ต้องการได้ เช่น ในรูปแบบ Dashboard
5.              Information Catalog
Enterprise Data Warehouse เป็น Data Warehouse ของทั้งองค์กร ฝ่ายไหนอยากจะใช้ข้อมูลก็สามารถมาดึงข้อมูลเอาได้ ซึ่งหากมาใช้พร้อมๆกัน ระบบก็จะช้า และข้อมูลที่ดึงมาก็ไม่ได้เกิดประโยชน์ทั้งหมดด้วย คือ ต้องการข้อมูลแค่ส่วนงานบางส่วน แต่ข้อมูลที่ดึงมามีข้อมูลของส่วนงานอื่นที่ไม่จำเป็นต้องใช้ติดมาด้วย มีการแก้ปัญหาโดยการทำ Data Mart
The Data Mart: is a small scaled-down version of a data warehouse: เป็นการตัดแบ่งข้อมูลตามความต้องการของผู้ใช้ (มุมมองของผู้ใช้) ออกมาเป็นส่วนย่อยๆ ในกรณีที่ผู้ใช้มีหลากหลาย แบ่งเป็น 2 ประเภท 1. Replicated (dependent) data marts องค์กรทำ Data Warehouse มาก่อนจากนั้นแต่ละส่วนงานก็มาแยกข้อมูลมาทำ mart เฉพราะส่วนของตนเอง 2.  Stand – alone data marts  เกิดในกรณีองค์กรไม่พร้อมทำ Enterprise Data Warehouse ก็ทำเฉพาะ marts ในส่วนงานของตัวเองที่พร้อมไปก่อน เมื่อแต่ละส่วนงานพร้อมกันมากๆแล้วค่อยเอามารวมเป็น Enterprise (ในทางปฏิบัติไม่ค่อยเกิดจริง)

Business Intelligence (BI)
Business Intelligence: เป็นเครื่องมือในการสร้างสารสนเทศ วิเคราะห์ข้อมูลสำหรับผู้บริหารระดับสูง ประกอบไปด้วย 3 อย่าง คือ 1.Data Mining 2. Text Mining 3. Web Mining
BI Functions and Features แบ่งออกเป็น 3 กลุ่ม คือ 1. Reporting and Analysis การออกรายงาน (ด้านผู้ใช้) 2. Analytics 3. Data Intergration เตรียมข้อมูลให้พร้อมสำหรับการวิเคราะห์
Dashboard & Scorecards
-                   Dashboard มักใช้ในระดับปฏิบัติการ
-                   Scorecard มักใช้ในระดับบริหาร ในการประเมินผลและติดตามการดำเนินงาน
Balance Scorecard (BSC) เป็นการประเมินผลการดำเนินงานใน 4 ด้าน ได้แก่  Financial , Customer ,Internal Process และ Learning โดยมี KPI เป็นตัวชี้วัดการดำเนินงาน
Dashboard ใช้นำการนำเสนอข้อมูล แสดงเป็น chart progress (แสดงความก้าวหน้าของสิ่งที่ทำเทียบกับสิ่งที่ตั้งเป้าไว้) แบ่งเป็น 3 ประเภท ได้แก่ 1. Operational dashboards 2. Tactical dashboards 3. Strategic dashboards
Online Analytical Processing (OLTP) เป็นจุดเริ่มต้นของผู้บริหารในการเข้าถึงสารสนเทศ เป็น Software ที่ช่วยให้ผู้บริหาร นักวิเคราะห์ ผู้จัดการสามารถมองลึกเข้าไปในข้อมูลที่มีได้ อย่างรวดเร็วและสามารถปรับเปลี่ยนรูปแบบการนำเสนอได้อีกด้วย (Interactive access) ซึ่งจะช่วยให้ผู้บริหารสามารถระบุปัญหาได้ วิเคราะห์ข้อมูลได้ง่ายขึ้น
Data Mining เป็นการค้นหาสิ่งที่ยังไม่เคยรู้มาก่อน เพื่อก่อให้เกิดความเข้าใจและสามารถนำมาปฏิบัติได้ ทำได้จริง เป็นการกรองข้อมูลที่มีอยู่จำนวนมากออกมาเป็นข้อมูลที่มีความจำเป็น/มีประโยชน์ต่อผู้ใช้ ซึ่งผลลัพธ์ของข้อมูลที่ได้จะเป็นประโยชน์หรือไม่ขึ้นอยู่กับกระบวนการแปลงผลและวิเคราะห์ข้อมูลของตัวผู้ใช้เอง แบ่งออกเป็น 5 รูปแบบ ด้แก่
1.             Clustering  เป็นการจัดกลุ่มของข้อมูล โดยไม่มีการตั้งสมมติฐานไว้ล่วงหน้า(ไม่รู้ว่าจะเกิดอะไรขึ้น) เป็นการรวมกลุ่มของข้อมูลเอง ตามความสัมพันธ์ที่มี
2.             Classification เป็นการจัดกลุ่มของข้อมูลเช่นกัน แต่มีการตั้งสมมติฐานไว้ล่วงหน้า คือคิดผลลัพท์ไว้ก่อนแล้ว จากนั้นจึงทำการพิสูจน์สมมติฐานว่ามันเป็นจริงหรือไม่
3.             Association ผลสืบเนื่อง เช่น คนที่เปิดบัญชีประเภทออมทรัพย์จะมีกี่ % ที่ใช้บัตร ATM
4.             Sequence Discovery ผลที่เกิดตามหลังมา
5.             Prediction การคาดการณ์ไปในอนาคตข้างหน้า
Text Mining เป็นเสมือนการทำ Data Mining ในกรณีที่ข้อมูลเป็น Unstructure Data คือ ข้อมูลไม่มีโครงสร้างที่ตายตัว ไม่มีรูปแบบที่แน่นแน ซึ่งข้อมูลแบบนี้นับวันจะยิ่งมีการเพิ่มขึ้นเป็นจำนวนมากขึ้นๆ เช่น การ complain ของลูกค้, E-mail Spam โดยเมื่อมีการจัดเก็บข้อมูลแบบนี้ไว้รวมๆกันแล้ว ระบบก็จะพยายามค้นหาความสัมพันธ์ของประเด็นต่างๆในเรื่องนั้นๆ เป็นการจับกลุ่มประเด็นของข้อมูล เพื่อให้ข้อมูลเป็นประโยชน์ต่อการใช้งานต่อไป

สุวารี เลิศลักษณะโสภณ เลขทะเบียน 5302110019

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

IT Learning Journal Report (January 12, 2011) # 8

Data Management
ระบบ
                กระบวนการทำงาน ประกอบไปด้วยสิ่งที่นำเข้า (Inputs) เอามาผ่านกระบวนการ (Process) เพื่อให้ได้มาซึ่งผลลัพธ์ (Outputs)
                วัตถุประสงค์  ต้องบอกให้ได้ก่อนว่าสิ่งที่ต้องการคืออะไร ตามวัตถุประสงค์ที่ต้องการ (Outputs คืออะไร) จากนั้นจึงมากำหนด Inputs, Process ว่าจะเป็นยังไง
                ส่วนประกอบ มีกระบวนการทำงาน, สิ่งแวดล้อม, ขอบเขต, การควบคุม, Feedback, ระบบย่อย
                สรุป Outputs เป็นตัวตอบวัตถุประสงค์ (Objective) เป็นตัวกำหนด Inputs, Process

ระบบสารสนเทศ (Information System)
                Outputs ของระบบสารสนเทศ คือ สารสนเทศ (เพียงอย่างเดียว)
                Data vs Information
                                ตัวอย่าง วิชา AI613 เรียนวันที่ 12,19 มค. 2 กพ.อาจแบ่งแยกได้ไม่ชัดเจนว่าเป็น Data หรือ Information ซึ่งเรียกโดยรวมว่า Message ซึ่งในการพิจารณาว่าจะเป็นอะไรนั้น ขึ้นอยู่กับ ผู้รับ ซึ่งจะบอกได้ว่า message นั้นมันมีค่าหรือไม่มีค่าสำหรับเค้า โดยถ้าผู้รับไม่มีส่วนได้ส่วนเสีย ไม่มีอรรถประโยชน์ใน message นั้นๆ หรือกล่าวได้ว่า message นั้นไม่ก่อให้เกิดการเปลี่ยนแปลงในพฤติกรรม, การตัดสินใจ อย่างนี้เป็น Data แต่ถ้าผู้รับมีส่วนได้ส่วนเสีย มีอรรถประโยชน์ใน message นั้นๆ หรือกล่าวได้ว่า message นั้นก่อให้เกิดการเปลี่ยนแปลงในพฤติกรรม, การตัดสินใจ อย่างนี้เป็น Information  ซึ่งการที่ไม่ก่อเกิดเป็น Information อาจเกิดจากหลายสาเหตุ เช่น Process อาจไม่ดี ทำให้ outputs ที่ได้ไม่มีประโยชน์ หรืออาจมีการส่งไปยังผู้รับผิดที่ คือ ผู้รับไม่มีส่วนได้ส่วนเสียใน message นั้นได้มาก็ไม่มีประโยชน์ เป็นต้น
                Information System
                                คือ ระบบที่ทำหน้าที่ในการรวบรวมข้อมูล เพื่อนำมาประมวลผล วิเคราะห์ เพื่อสร้างสารสนเทศสำหรับวัตถุประสงค์เฉพาะด้าน และนำเสนอสารสนเทศให้กับผู้ที่ต้องการ ซึ่งต้องเป็นผู้ที่มีสิทธิได้รับสารสนเทศ รวมทั้งการจัดเก็บบันทึกข้อมูลที่นำเข้ามาสู่ระบบไว้เพื่อการใช้งานในอนาคต
                ในการจัดทำสารสนเทศ ต้องคำนึงถึงความต้องการของผู้ใช้ (ดูว่าใครเป็นผู้ใช้และต้องการอะไร) โดยอาจมีการขอ Requirement แต่บางทีผู้ใช้ก็ยังไม่รู้ว่าต้องการอะไร ผู้จัดทำก็ต้องคิดแทน (เผื่อ) ให้ด้วย แล้วก็จัดทำสารสนเทศใน Format ที่สามารถใช้ได้
องค์ประกอบของ IS
1.   Hardware
2.   Software – Application เป็น Software เฉพาะด้าน เช่น CRM, Supply Chain Management
3.   Data
4.   Network
5.   Procedures
6.   People
ประเภทของระบบสารสนเทศ
                                IS สามารถมองได้ใน 2 ลักษณะ คือ
1.             แบ่งตามแนวตั้ง เป็นการแบ่งโดยใช้ Functional เป็นตัวกำกับ (ตามแผนกภายในองค์กร) โดยแต่ละแผนกก็จะมี IS Support การทำงาน เช่น ระบบสารสนเทศทางบัญชี (AIS), HRIS เป็นต้น
2.             แบ่งตามแนวนอน เป็นการแบ่งตามระดับของผู้บริหาร แบ่งตามการใช้งาน ซึ่งแบ่งย่อยออกเป็น
-          ระดับล่าง Transactional Processing System (TPS) ซึ่งเป็นระบบที่เป็นหัวใจสำคัญที่สุด เนื่องจากข้อมูลส่วนใหฐ่จะเกิดขึ้นในส่วนนี้ทั้งหมด ดังนั้นจีงต้องมีการบริหารจัดการในส่วนนี้ให้ดีดี เพื่อให้ได้มาซึ่งข้อมูลถูกต้องและครบถ้วน
-           ระดับกลาง Management Information System (MIS)
-           ระดับสูง Executive Support System

Data Management (การจัดการข้อมูล)
                การจัดการข้อมูลเป็นเรื่องยาก ด้วยเหตุผลหลายๆ อย่าง เช่น 1. ข้อมูลเพิ่มขึ้นจำนวนมาก (Increases exponential) ถ้าต้องจัดเก็บหมดจะเสียเวลาและต้นทุนจำนวนมาก ดังนั้นจึงต้องมีการเลือกเก็บข้อมูลไว้เท่านั้น (จัดการข้อมูล) 2. ข้อมูลมีการกระจายตัวอยู่ทั้งองค์กร 3. เกิดความซ้ำซ้อนของข้อมูล อาจจะเนื่องมาจากไม่มีระบบการควบคุมที่ดีเพียงพอ 4. ต้องมีการคำนึงถึงข้อมูลภายนอกด้วย (ซึ่งข้อมูลจะเป็นภายในหรือภายนอกดูที่ความเป็นเจ้าของ คือดูว่าเรามีอำนาจในการควบคุมและจัดการหรือไม่ ถ้ามีเป็นข้อมูลภายใน) 5. ข้อมูลที่ดีต้องมีคุณลักษณะ 3 ประการ คือ security, quality และ intergrity 6. ความยากในการเลือกใช้เครื่องมือในการจัดการข้อมูล
พื้นฐานของการจัดการข้อมูล แบ่งออกเป็น 4 อย่าง ได้แก่ 1. Data profilling การทำความเข้าใจลักษณะของข้อมูลในแง่ต่างๆ 2. Data quality management การเพิ่มคุณภาพให้กับข้อมูล 3. Data integration เป็นการลดความซ้ำซ้อนของข้อมูล ด้วยการรวมข้อมูลที่เหมือนกันเข้าด้วยกัน 4. Data augmentation เป็นการเพิ่มคุณค่าของข้อมูล

Data Life Cycle Process
                ก่อนอื่นต้องรู้ว่าจุดเริ่มต้นและจุดจบของข้อมูลอยู่ที่ไหน เพื่อที่จะได้วางแผนในการเก็บข้อมูลใหม่ๆ (New data collection) จากแหล่งต่างๆได้อย่างถูกต้อง ซึ่งส่วนใหญ่จะเป็นข้อมูลที่ได้มาจาก Transactional Processing System (TPS) ซึ่งเป็นข้อมูลภายใน (Internal Data) ที่จัดเก็บใน Database นอกจากนี้ยังมีข้อมูลที่ได้มาจากภายนอก (External Data) ซึ่งอาจได้มาจากการหาทาง Web หรือซื้อมาก็ได้ หรืออาจเป็นข้อมูลในส่วนของ Personal Data ซึ่งเป็นข้อมูลที่พนักงาน/บุคลากรใช้
เมื่อเก็บข้อมูลแล้วก็จะมีการจัดรูปแบบใหม่เพื่อเก็บเข้าใน Data Warehouse เพื่อเตรียมไว้ใช้ในการวิเคราะห์ต่อไปในอนาคต ซึ่งอาจมีเครื่องมือที่ใช้ในการวิเคราะห์ เช่น OLAP, EIS, DSS ซึ่งเมื่อข้อมูลผ่านการวิเคราะห์แล้วก็จะสามารถนำมาใช้ให้เกิดประโยชน์ในการดำเนินงานด้านต่างๆได้ เช่น SCM, CRM, EC เป็นต้น
Data Warehouses
        ไม่ใช่ Database ขนาดใหญ่ แต่เป็นการ Extract ข้อมูลบางส่วนมากจาก Database เฉพาะในส่วนของข้อมูลที่ต้องการมาใช้ โดยคัดเลือกจากทั้งในส่วนของ Internal, External, Personal ถ้าเป็นข้อมูลที่คิดว่าจำเป็นต้องใช้ก็จะนำมาเก็บไว้ใน Data Warehouse ซึ่งจะเป็นข้อมูลที่ถูกจัดใหม่ และพร้อมสำหรับนำมาใช้ในการวิเคราะห์ในขั้นต่อๆไป
        Data Warehouse จะมีในองค์กรที่อาศัยข้อมูลในการวิเคราะห์และตัดสินใจ เป็น Information base คือผู้บริหารใช้ข้อมูลในการตัดสินใจหลังจากรวิเคราะห์ข้อมูล จึงจำเป็นต้องมีข้อมูลจริงไว้รองรับ
คุณสมบัติของสิ่งที่เก็บใน Data Warehouse
1.  Organization ต้องมีการนำ Data มาจัดหมวดหมู่ใหม่ โดยจัดการตาม Subject ที่สนใจจะวิเคราะห์
2.  Consistency ข้อมูลที่นำเข้ามานั้นมักไม่สม่ำเสมอ เช่น แต่ละแผนกกรอกข้อมูลเดียวกันไม่เหมือนกัน ดังนั้น Data Warehouse จะนำข้อมูลมาทำให้คงที่ สม่ำเสมอ (consistency)
3.   Time variant มีการเก็บข้อมูลเป็นช่วงเวลา
4.   Non-volatile ข้อมูลที่เอามาเข้า Warehouse จะไม่มีการ update ใดๆ อยู่อย่างไหนก็อย่างนั้น ถ้าเพิ่มเติมข้อมูลเข้าไปจะเรียกว่Refresh
5.   Relational นำมาใข้ได้จริง เกี่ยวข้องกับการวิเคราะห์ที่เป็นอยู่
6.   Client/server ต้องตามความต้องการของผู้ใช้ ง่ายต่อการเข้าใจและเข้าถึงข้อมูล
องค์กรที่เหมาะกับการใช้ warehouse
              ได้แก่ องค์กรที่มีข้อมูลจำนวนมากที่ผู้ใช้ต้องการใช้ และมีการจัดเก็บในหลาย Database และหลากหลายรูปแบบ, ผู้บริหารมีความต้องการใช้ข้อมูลเพื่อการตัดสินใจอยู่เสมอๆ เป็นต้น

สุวารี เลิศลักษณะโสภณ เลขทะเบียน 5302110019