วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

Lecture 19/1/11

Data Management (ต่อ)
ประโยชน์ของ Data Warehouses:
-          เข้าถึงข้อมูลได้อย่างรวดเร็ว เนี่องจากรวมกันอยู่ในที่เดียว
-          เข้าถึงข้อมูลได้ง่าย
Data Warehouse Process: คือ การนำเสนอเป็น Data variance เพื่อตอบโจทย์ของผู้บริหาร
1.       รวมรวมข้อมูล
-          Operational Data (Transaction processing): ดูว่ามีข้อมูลอะไรบ้างในองค์กร พยายามหาให้เจอว่าเราต้องการข้อมูลอะไรบ้าง
-          External Data: ข้อมูลภายนอกที่จำเป็นต่อการตัดสินใจ เช่น ข้อมูลคู่แข่ง (product กี่ตัว, ราคาขาย และอื่นๆ)
2.       คัดลอก (extract) ข้อมูลมาเก็บไว้ที่ Meta Data ซึ่งเป็น data ของ data อีกที เป็นที่ใช้อธิบายข้อมูล ถูกสร้างขึ้นมาพร้อมๆกันกับ Data Warehouse เพื่อเป็น guide ในการย้ายข้อมูล
3.       ทำ ETL หรือ Data Staging ซึ่งประกอบไปด้วย
-          Extract คัดแยกข้อมูล
-          Clean หรือ cleansing data เลือกว่าจะใช้ข้อมูลจากแหล่งใด
-          Transform ขมวดข้อมูลให้อยู่ใน format เดียวกันที่มีประโยชน์
-          Load ข้อมูลลง Data cube
4.       ใส่ข้อมูลลงใน Data Warehouse ตาม Business Subject
5.       เลือกมุมมองในการวิเคราะห์ตัดสินใจ เช่น upload ขึ้น dashboard เพื่อให้ผู้บริหารเรียกดูในสิ่งต่างๆ
6.       Information catalog
7.       Business Information
Data Mart: เนื่องจากบางที อาจเกิดปัญหาจากการที่ข้อมูลเยอะไปจนทำให้ดูลำบาก หรือการมีคนเข้าไปดูในฐานข้อมูลเป็นจำนวนมากทำให้ไม่สะดวก จึงทำให้เกิด Data Mart ขึ้น โดยสามารถแบ่งได้เป็นสองประเภท คือ
-          Replicated (dependent) data marts: การตัดแบ่งข้อมูลในมุมมองของผู้ใช้ คือ copy เฉพาะส่วนของตนจาก Enterprise Data Warehouse ไปสร้าง warehouse ของตัวเองหรือ  Data Mart
-          Stand-alone data marts: เกิดในกรณีที่องค์กรยังไม่พร้อมที่จะทำ Enterprise Data Warehouse หน่วยงานที่พร้อมจึงทำไปก่อน เมื่อครบทุกหน่วยงานแล้วจึงนำมารวมกันเป็น Enterprise Data Warehouse แต่เกิดขึ้นได้ยากในทางปฏิบัติ
Data Cube: ในข้อมูลทุกอย่างนั้นล้วนแล้วแต่มีมิติ ตั้งแต่ 2 ไปจนถึง n มิติ ขึ้นอยู่กับว่าเราจะมองในมุมมองใด โดยคำว่า มิติ นั้น คือ สิ่งที่เราจะบรรจุในลูกบาศ์ก เช่น นักศึกษา ก็จะมีมุมมองเรื่อง ภูมิลำเนา, ผลการเรียน, คณะ, ปีที่เข้า และอื่นๆ จึงทำให้เกิด Data cube หรือ Multidimensional databases (หรืออาจเรียกว่า OLAP) ขึ้น ซึ่งสามารถหมุนมิติ (Slices & Dices) ข้อมูลได้

Business Intelligence (BI)
คือ การใช้สิ่งต่างๆ ไม่ว่าจะเป็น เครื่องมือ, database, applications และวิธีการต่างๆ เพื่อเตรียมข้อมูลให้พร้อมสำหรับการวิเคราะห์ โดยมี functions และ features ดังต่อไปนี้
Reporting and Analysis: สำหรับการออกรายงาน เป็นการ interface ผู้ใช้และระบบงานเข้าด้วยกัน
-          Enterprise reporting and analysis: รายงานที่ออกมานั้น อาจอยู่ในรูปแบบที่เป็นมาตรฐาน หรืออาจมีการปรับแก้ให้อยู่ในแบบฟอร์มอื่นๆที่ง่ายต่อการเข้าใจก็ได้
-          Enterprise search
-          Scorecards: ประเมินผล และติดตาม เป็นการนำหลักของ Balance Scorecard (BSC) มาใช้
-          Dashboards: นำเสนอ performance หรือ interface สิ่งที่นำเสนอให้ผู้บริหาร
-          Visualization tools:
o   Performance dashboards: นำเสนอผลการดำเนินงานต่างๆในมิติที่ตกลงกันไว้
o   Performance scorecards: แสดงถึงการดำเนินกลยุทธ์ และเป้าหมายต่างๆ
โดยทั้งสองหัวข้อนี้นั้น อาจแบ่งได้เป็น 3 ระดับย่อยๆ คือ ระดับปฏิบัติการ (Operational), ระดับกลาง (Tactical) และ ระดับสูง (Strategic)
Analytics: วิเคราะห์
-          Predictive analytics
-          Data, text, and Web mining
o   Data Mining: กระบวนการในการค้นหา (extracting) สิ่งที่ไม่รู้มาก่อน ให้สามารถปฏิบัติได้ ลงมือทำงานได้ โดยอาจจำเป็นต้องมี
-          Database มีข้อมูลเยอะมาก
-          ข้อมูลถูกรวมอยู่ใน data warehouse (ถ้ามี warehouse แสดงว่าข้อมูลผ่านการ cleansing มาแล้ว)
-          ต้องมองให้ออกว่าข้อมูลไหนมีค่า เพราะผลที่ได้อาจเป็นที่น่าตกใจก็ได้
โดย สามารถแบ่งออกเป็น 5 ลักษณะใหญ่ คือ
§  Clustering: ไม่รู้ว่าเกิดอะไรขึ้น แต่ดูจากความสัมพันธ์ของข้อมูล ผลที่ออกมาอาจเป็น
§  Classification: ดูข้อมูลตามสมมติฐานที่เราตั้งไว้ แล้วดูว่าผลที่ออกมาเป็นเช่นไร strong หรือไม่
§  Association: ผลสืบเนื่อง เช่น การเปิดบัญชีออมทรัพย์ ทำให้เปิดบัตรเครดิต หรือบัญชีฝากประจำกี่เปอร์เซนต์
§  Sequence discovery
§  Prediction: การ forecast ไปข้างหน้า เช่น behavior ที่น่าจะก่อให้เกิด fraud
o   Text Mining: ใช้กับข้อมูลที่จัดรูปแบบไม่ได้ (nonstructured) โดยไม่ได้หมายความรวมถึงข้อมูลที่เป็นตัวอักษรเพียงอย่างเดียว เช่น ข้อมูล complain ของลูกค้า เพื่อสร้างให้มีความหมาย หรือหาความหมายซ้อนเร้น หรือความสัมพันธ์ของข้อมูลที่มีประโยชน์
Note: ข้อมูลที่จัดเก็บอยู่ภายในองค์กร ที่เป็น structured data เช่น มี attribute กำกับ หรือมีขนาดของ field ที่ชัดเจน จะทำการ mine ด้วยระบบ Data mining
-          OLAP (online analytic processing): เป็นจุดเริ่มต้นของผู้บริหารในการใช้สารสนเทศ เป็นเครื่องมือในการมองข้อมูลให้ลึกเข้าไป โดยอาจทำให้ผู้บริหารสามารถ identify ปัญหาได้เลย หรือว่าอาจต้องใช้ตัวอื่นช่วยในการวิเคราะห์ต่อไป
Data Integration: เตรียมข้อมูลเพื่อการวิเคราะห์
-          ETL (extract, transformation, load)
-          EII (enterprise information integration)
 5302110050

วันพุธที่ 12 มกราคม พ.ศ. 2554

Lecture 12/1/11

Data Management
ระบบ (System)
คือ การกำหนดวัตถุประสงค์ซึ่งเป็นสิ่งที่สำคัญที่สุด โดยมีส่วนประกอบต่างๆ ที่ผ่านกระบวนการทำงาน คือ                                   Input >> Process >> Output
โดย output จะตอบวัตถุประสงค์ และวัตถุประสงค์ จะเป็นตัวกำหนด output


Data >> Information >> Knowledge
ข้อมูล (Data)
·         ข้อมูลภายใน – เรามีความเป็นเจ้าของ มีอำนาจในการควบคุมจัดการ เช่น คำสั่งซื้อของลูกค้า, ราคาสินค้าเรา
·         ข้อมูลภายนอก – เราไม่มีอำนาจในการควบคุมจัดการ เช่น ราคาสินค้าบริษัทคู่แข่ง

สารสนเทศ (Information)
·         Data ต่างกับ Information ตรงประโยชน์ในการใช้งาน
·         สิ่งที่จะตัดสินว่าเป็น Information หรือไม่ คือ ผู้รับ ว่ามีความหมาย หรือก่อให้เกิดการเปลี่ยนแปลงพฤติกรรมหรือไม่ ถ้าสิ่งนั้นถูกส่งไปยังผู้ไม่มีส่วนได้เสียหรือไม่มีประโยชน์ จะเป็น data

ความรู้ความเชี่ยวชาญ (Knowledge)
·         Implicit - ติดอยู่กับตัวบุคคล ยังไม่ได้รับการถ่ายทอดออกมา
·         Explicit – ถูกถ่ายทอดออกมาแล้ว

ระบบสารสนเทศ (Information System)
                คือ ระบบที่ทำหน้าที่ในการรวบรวมข้อมูล แล้วนำมาประมวลผล วิเคราะห์ เพื่อสร้างสารสนเทศสำหรับวัตถุประสงค์เฉพาะด้าน นำเสนอสารสนเทศนั้นให้แก่ผู้ที่ต้องการ ซึ่งจะต้องเป็นผู้มีสิทธิได้รับสารสนเทศ รวมทั้งจัดเก็บบันทึกข้อมูลเข้าสู่ระบบไว้เพื่อการใช้งานในอนาคต
องค์ประกอบ:
-           Hardware
-           Software
-           Data
-           Network
-           Procedure
-           People

Data Management
                การจัดการบริหารข้อมูลนั้นเป็นสิ่งที่ทำได้ยาก เนื่องจาก
-           จำนวนข้อมูลที่เพิ่มมากขึ้นเรื่อยๆ กระจัดกระจายอยู่ทั่วทั้งองค์กร และอาจมีความซ้ำซ้อนกันได้
-           ความต้องการใช้ข้อมูลภายนอกเพื่อประกอบการตัดสินใจ
-           ความปลอดภัย คุณภาพ และแนวทางของข้อมูล
-           การเลือกเครื่องมือในการจัดการข้อมูล
โดยมีเป้าหมาย คือ เป็นโครงสร้างพื้นฐานในการเปลี่ยนจากข้อมูลดิบให้กลายเป็นสารสนเทศที่มีคุณภาพสูง

Data Life Cycle Process
1.       เก็บข้อมูลมาจากหลากหลายแหล่ง (Internal, External, Personal)
2.       ส่งต่อมาเก็บไว้ใน database แล้วปรับรูปแบบเพื่อจัดเก็บใน data warehouse
3.       ผู้ใช้สามารถเข้าไปคัดลอกข้อมูลเพื่อใช้ในการวิเคราะห์ต่อไป

Data Processing
·         Transactional: เป็น Operational systems ที่ใช้ในการบันทึกข้อมูลในงานทั่วไป งาน routine โดยจะจัดเก็บข้อมูลใน database
·         Analytical: ข้อมูลส่วนใหญ่จะมีไว้เพื่อนำมาวิเคราะห์ต่อไป โดยจะ extract ข้อมูลมาจาก database เฉพาะ attribute ที่ต้องการใช้ โดยจะจัดเก็บข้อมูลใน data warehouse

Data Warehouse
องค์กรที่ตัดสินใจโดยอาศัยพื้นฐานในการวิเคราะห์ข้อมูลมักจะจำเป็นต้องมี data warehouse
โดยคุณสมบัติของ data warehouse คือ
-           Organizational: นำเอาข้อมูลที่ต้องการมาจัดรูปแบบใหม่ โดย organize ตาม subjects
-           Consistency: แก้ให้ข้อมูลอยู่ในรูปแบบเดียวกัน
-           Time variant: ตัดสินใจว่าจะเก็บข้อมูลไว้กี่ปี เช่น 5 ถึง 10 ปี
-           Non-volatile: ข้อมูลจะไม่มีการเปลี่ยนแปลงหรือ update อีกแล้ว มีแต่การ refresh ข้อมูลให้ใหม่ขึ้น
-           Relational: มีโครงสร้างที่สัมพันธ์กัน
-           Client/server: ใช้ client/server เพื่อให้ผู้ใช้งานสุดท้ายสามารถเข้าถึงข้อมูลได้ง่าย

5302110050