قدرت کلیک ويو در استخراج ارزش از داده های حجیم

چگونه کلیک ويو در استخراج ارزش از داده های حجیم به شما کمک می کنداز گذشته تاکنون، دانشمندان داده بیشترین استفاده را از کلان داده/داده های حجیم نموده اند. آنها برای حل چالش های مهم و بزرگ در حوزه های دانشگاهی، دولتی و حتی بخش خصوصی می بایست الگوریتم های بسیار پیچیده ای را بر خوشه های محاسبات موازی عظیم اجرا نمایند. دانشمندان مذکور برای اجرای چنین عملیاتی نیاز مبرم به داده های حجیم دارند. نیاز انکار ناپذیر به دانشمندان داده جهت حل چنین مسائل پیچیده ای هنوز به شدت حس می شود؛ در عین حال امروزه باید تمهیداتی اندیشید که کاربران نهایی نیز قادر باشند از قدرت فرآیندهای تجزیه و تحلیل داده های حجیم برای مسائل مختلف تجاری به راحتی استفاده کنند. برخلاف مدل الگوریتمی که از طریق کاوش میان تمام داده های موجود به دنبال سوزنی در انبار کاه می گردد، کاربران تجاری به احتمال زیاد سؤالاتی موردی و اختصاصی متمرکز شده بر بخش های مختلفی از داده را می پرسند. آنها قصد دارند به منظور اتخاذ تصمیمات تجاری اجرایی و عملیاتی بینش و آگاهی لازم با کسب نمایند:

● از زمان اجرا و نمایش آخرین تبلیغ، میزان فروش چگونه بوده است؟
● فروش جانبی محصولات شرکت توسط تیم فروش به چه میزان مؤثر بوده است؟
● کدام یک از محصولات فروش خوبی ندارند؟ آیا دلیل این امر مربوط به منطقه یا تیم فروش خاصی می شود؟
● آیا در زنجیره تأمین با فقدان افزونگی روبرو هستیم؟ اگر بلایای طبیعی منجر به قطع ارتباط فروشندگان اصلی با توزیع کنندگان خرده فروش شود، چه اتفاقی خواهد افتاد؟
● آیا تاریخچه تراکنش الگوی مناسبی برای سنجش میزان رضایت مشتریان است؟

کاربران تجاری سالها پیش از پیدایش داده های حجیم در حال پرسیدن سؤالات فوق بوده اند؛ اما متأسفانه به دلیل عدم وجود مجموعه داده های اصلی یا غیر عملی بودن دسترسی به مجموعه های مذکور، آنها نمی توانستند با درجه بالایی از اطمینان یا جزئیات دقیق به این سؤالات پاسخ بدهند. کاربران تجاری قادر نبودند به منظور اتخاذ تصمیمات بهینه تر، هدف و بینش خود را با داده های بهتر ترکیب کنند. اما خوشبختانه امروزه فناوری هایی وجود داشته که منابع داده های حجیم را برای کاربران تجاری دسترس پذیر ساخته اند. کلیک ویو قادر است علاوه بر فرآیند تجزیه و تحلیل سریع و انعطاف پذیر، قابلیت یکپارچه سازی داده ها از چندین منبع مختلف (نظیر: مخازن Hadoop، انبارهای داده، پایگاه های داده سازمانی/بخشی، و صفحات گسترده) را تنها در یک لایه تجزیه و تحلیل تعاملی فراهم آورد.

نحوه جریان یافتن داده های حجیم بدست آمده از منبع تا مرحله تحلیل

در اینجا برای درک بهتر مسئله مورد بحث مثال استخراج فلز از معدن بررسی می شود. بدین منظور سنگ معدن خام باید از دل زمین استخراج شده و به کارخانه هایی منتقل گردیده که برای پالایش فلز مربوطه از فرآیندهای مکانیکی و شیمیایی استفاده می کنند. هم اکنون می توان از این فلزات، جواهرات مد روز یا محصولات دیگر را تولید کرد. داده ها نیز برای درآمدن از قالب خام خود و تبدیل شدن به قالبی که بینش تجاری منحصر به فرد کاربر تجاری خاصی را نمایش داده، سفر مشابهی را طی می کنند:

جمع آوری: منشأ داده های حجیم کسب و کار/تجارت گرا معمولاً داده های ماشینی (نظیر: گزارش های سرور، گزارش های شبکه، و گزارش های RFID)، داده های تراکنشی (نظیر: فعالیت های وی سایت، داده های نقطه فروش از فروشگاه های فیزیکی)، و داده های ابر (نظیر: گزارش قیمت های سهام، خوراک های رسانه های اجتماعی) می باشد. این داده ها اغلب نیمه ساختار یافته (داده های گزارش دربر گیرنده برچسب زمانی، آدرس IP، و دیگر جزئیات) یا بدون ساختار (رشته هایی از متون یا تصاویر) می باشند. به طور کلی داده های حجیم را می توان به عنوان نوعی از داده با حجم بالا (ترابایت یا پتابایت)، سرعت بالا (داده های جدید که حجم آنها به ترابایت های بسیار زیادی در روز رسیده)، و تنوع زیاد (صدها سرور و کاربردهای مختلف که هر یک داده هایی را در قالب تعریف شده خود تولید می کنند) تعریف کرد.

پردازش اولیه: اگر هزینه ذخیره و نگهداری به عنوان نگرانی اصلی مد نظر باشد، آنگاه می توان داده ها را در خوشه Hadoop کپی کرد. سیستم فایل توزیعی Hadoop (HDFS) نمونه ای از یک سیستم فایل توزیعی، مقیاس پذیر و قابل حمل بوده که برای اجرا شدن روی سخت افزار معمولی طراحی شده است. کارها/فعالیت های Hadoop با عنوان MapReduce قابلیت دستکاری و تجمیع داده های موازی را فراهم می آورند. از MapReduceها معمولاً به عنوان تفسیر سطح نخست/اولیه داده های خام استفاده می شود. ابزارهای شتاب دهنده نظیر: Apache Hive، Horton Tez و Cloudera Impala بخشی از اکو سیستم Hadoop به شما آمده و ابزار منبع باز را برای سیستم های خارجی همچون: Qlik جهت جستجوی داده های ذخیره شده در Hadoop فراهم می آورند.

● پالایش: در اغلب مواقع سازمان ها به منظور دستیابی به یک مخزن مرکزی برای داده های ساختار یافته نیازمند به تحلیل، از یک انبار داده سازمانی (EDW) استفاده می کنند. EDWها نه تنها به منظور ذخیره سازی بلکه به دلیل ارائه قابلیت های ETL قوی (استخراج، تبدیل و بارگذاری) بکار برده می شوند؛ بنابراین آنها به همراه خوشه های Hadoop نقشی تکمیلی را بر عهده دارند. EDWها قادرند به طور مستقیم داده ها را از منابع داده نظیر SAN (شبکه ذخیره سازی محلی)، NAS (ذخیره سازی متصل به شبکه) و خوشه HADOOP استخراج کنند. از آنجائیکه داده های درون EDWها ساختار یافته بوده نه خام، لذا جستجو و نمایش معنی و مفهوم سطح بالاتر نسبت به داده های خام آسان تر می باشد.

● تحلیل: نیازهای معمول کاربران تجاری عبارتند از: انعطاف پذیری جهت یکپارچه سازی داده ها از چندین منبع و مصون ماندن این افراد از جزئیات بیشمار مربوط به منشأ داده ها یا نحوه سازمان دهی آنها. مدل سازی/مدل دهی داده ها باید سریع انجام شود و به راحتی منابع داده مختلف را پوشش دهد. چنین محیطی نه تنها بار مسئولیت و هزینه های عمومی تحمیل شده بر IT را کاهش داده، بلکه قابلیت بکارگیری داده های اضافی در زمان های مورد نیاز درون تحلیل های انجام شده را برای کاربران تجاری نیز فراهم می آورد.

بکارگیری و بهره برداری از داده های حجیم: با تمرکز بر مباحثی نظیر میزان میزان ارتباط و محتوی

کاربران تجاری باید بدون استفاده از راه حل های تجزیه و تحلیل داده که نیازمند یک سری مهارت های تخصصی بوده دائماً به طور مؤثر به داده ها دسترسی داشته و قادر باشند آنها را فیلتر و تحلیل نمایند. این کاربران به منظور پیدا کردن اطلاعات مربوط به خود از میان مقادیر عظیمی از داده ها و همچنین یافتن پاسخ هایی برای سؤالات تجاری مخصوص خود (که در نهایت منجر به اخذ سریعتر تصمیمات بهتر شده) به روش های هدایتی بهتر و آسان تر نیاز دارند. Qlik چندین تصور غلط درباره نحوه گنجانیدن داده های حجیم در نیازمندی های تحلیل کاربران تجاری را آشکار می سازد. درک موارد ذیل از اهمیت بالایی برخوردار است:

● امکان دارد مهمترین داده ها درون مخزن داده های حجیم موجود نباشند.

در اغلب موارد، داده های بدست آمده از مخزن داده های حجیم به عنوان مدرک پشتیبانی برای اکتشاف اولیه صورت پذیرفته در داده های عملیاتی یا صفحه گسترده بکار برده می شوند. به عنوان مثال، اگر یک صفحه گسترده یا پایگاه داده کوچک شامل نتایج نظرسنجی میزان رضایت مشتریان باشد (که به عنوان مبنایی برای جستجوی تحلیلی در نظر گرفته شده)، آنگاه داده های بدست آمده از مخزن داده های حجیم قابلیت درک ارتباط میان تاریخچه پشتیبانی از مشتریان یا خدمات ارائه شده به مشتریان با درجه رضایت آنها را برای کاربر تجاری فراهم می آورد.

● این امکان وجود دارد که داده های مورد نیاز جهت اجرای فرآیند تحلیل در چندین مخزن پخش شده باشند.

در طول فرآیند ساخت یک انبار داده سازمان تجاری علاوه بر عملیات کپی کردن داده ها از منبع داده عملیاتی، مواردی نظیر تبدیل و مدل دهی فراداده نیز باید مورد استفاده قرار بگیرند. از آنجائیکه این امر به احتمال زیاد زمانبر و پرهزینه خواهد بود، لذا برخی از منابع عملیاتی به صورت جداگانه به کار خود ادامه می دهند. آنها هزینه و میزان تلاش مورد نیاز برای بارگذاری اطلاعات خود درون انبار داده را تضمین نمی کنند.
دو جنبه مهم که هنگام کار با داده های حجیم باید در نظر گرفته شود در واقع تعیین میزان مرتبط بودن/تناسب و زمینه اطلاعات می باشد.

King


King.com برای فرآیندهای تجزیه و تحلیل از Qlik استفاده می کند.
به گفته Mats-olov Eriksson (معمار ارشد سیستم تجزیه و تحلیل): هزینه پیاده سازی Qlik در مقایسه با دیگر راه حل های مشابه 20% کمتر می باشد. مدت زمان برگشت سرمایه اولیه نیز تنها چند ماه به طول می انجامد.
سابقه:
● در جهان در زمینه بازی های اجتماعی پیشتاز بوده است.
● 150 بازی به 14 زبان را ارائه می کند.
● به طور ماهیانه بیش از 40 میلیون بازیکن دارد.
● به طور روزانه بیش از 2 میلیارد ردیف داده های گزارشات ثبت شده را تولید می کند.
مورد کاربردی:
● تحلیل RIO برنامه های تبلیغاتی و بازاریابی
● پیگیری به روزرسانی پیشنهادات بازی جدید
فناوری:
● تولید KPIها از طریق پردازش دسته ای/گروهی و یکپارچه سازی آنها در HIVE.
● اتصال Qlik به HIVE از طریق ODBC (اتصال پایگاه داده باز).


به منظور دسترسی به جزئیات بیشتر لطفاً گزارش جامع را از آدرس ذیل دانلود کنید:

Qlik Deployment for Big Data Analytics at King.com

 


مرتبط بودن/تناسب: اختصاص اطلاعات صحیح به شخص معین در زمان مناسب

در راهکار Qlik به جای تحمیل راه حل های نامناسب عمومی، ابتدا باید نیازهای تجاری کاربران را به طور اختصاصی تجزیه و تحلیل و کاملاً درک کرد. فراهم آوردن دسترسی به داده های مناسب در زمان مناسب برای کاربران، از دسترس پذیر ساختن تمام داده ها در همه اوقات برای آنها ارزشمندتر است. به عنوان مثال، مدیران شعبات محلی بانک ها تمایل دارند به اطلاعاتی نظیر: میزان فروش، اطلاعات مشتریان و پویایی بازار در محیط اطراف شعبه خود دسترسی داشته باشند نه به داده های کل شعبه های کشور. با در نظر گرفتن چنین ملاک های ساده ای می توان از طریق بررسی میزان مرتبط بودن/تناسب و ارزش داده ها، میزان آنها را به صورت قابل توجهی کاهش داد.

 محتوی: داده های حجیم از دیدگاه دیگر منابع چه مفهومی دارد؟

Qlik به دلیل طراحی خاصی که دارد به طور ذاتی داده را به همراه مفهوم ارائه می دهد. تجربه مشارکتی نرم افزار Qlik بدین معنی است که هر بخش از داده به طور پویا با تمام بخش های داده مذکور مشارکت دارد. به عنوان مثال هنگامی که کاربر یک نمودار (بر فرض نمودار فروش منطقه ای) را مشاهده نموده، چندین برچسب فهرستی آن نمودار را احاطه کرده اند. این برچسب ها شامل اطلاعات متنی نظیر: تاریخ، مکان، مشتری، محصول، تاریخچه فروش و ... می باشند. هر زمان که کاربر یکی از برچسب های مذکور را انتخاب کند، دیگر برچسب ها و همه نمودارهای دیگر فورآً بر اساس انتخاب کاربر مذکور به روزرسانی می شوند. کاربر تجاری با استفاده از این قابلیت منحصر بفرد Qlik خواهد توانست (به عنوان مثال) داده های مربوط به میزان فروش محصولی مشخص در منطقه جغرافیایی معین به مشتریان ویژه را جستجو نموده و تنها اطلاعات متناسب با درخواست خود را مشاهده نماید. کاربرد چنین قابلیتی در شرایط وجود چند صد یا چند هزار محصول، مشتری، مناطق فروش و ... بیشتر نمایان می شود. در صورت وجود مجموعه داده های بسیار بزرگ به جای جستجوی طاقت فرسا میان هزاران اقلام می توان تنها با چند کلیک این مجموعه را به طور کارآمد تقسیم بندی کرد. در Qlik، زمینه و میزان مرتبط بودن/تناسب در کنار یکدیگر بکار برده می شوند. به همین دلیل Qlik به سرعت قادر است بدون نیاز به هرگونه مهارت برنامه نویسی یا مصورسازی پیشرفته، مسائل پیچیده داده های حجیم را به مسائلی کاملاً قابل کنترل تبدیل کند.

روش های مختلف برای حجم ها و پیچیدگی های متفاوتی از داده ها

به دلیل نسبی بودن عبارت داده های حجیم و متفاوت بودن موارد کاربردی و زیرساخت ها در هر یک از سازمان ها، لذا Qlik به منظور کنترل سناریوهای داده های حجیم روش های ذیل را پیشنهاد می کند:
● درون حافظه ای
● قطعه/بخش بندی
● زنجیره بندی
● تولید App برحسب تقاضا
● کشف مستقیم


در برخی موارد، استفاده از تنها یکی از روش های فوق کافی می باشد. اما در برخی از سناریوها باید از چندین روش در کنار یکدیگر استفاده کرد. در هر سناریو شرایط متفاوتی وجود دارد. قدرت تصمیم گیری درباره بهترین نحوه مدیریت روابط متقابل مهم میان ویژگی هایی نظیر: انعطاف پذیری، عملکرد کاربر و مشخصات مرسوم داده های حجیم (سرعت،تنوع، و حجم داده ها) در دست مشتری می باشد. در این بخش، روش های مختلف Qlik قابل استفاده در سناریوهای داده های حجیم بررسی می شود.

 

درون حافظه ای

از آنجائیکه موتور شاخص گذاری (QIX)Qlik از طریق فشرده سازی داده ها (حجم داده های فشرده حاصل شده به میزان 10% از اندازه اصلی داده های مذکور بوده) سرعت درون حافظه را افزایش داده، لذا بسیاری از مشتریان Qlik با استفاده از قابلیت های ذاتی این محصول علاوه بر حفظ عملکرد بالای خود، نیازمندی های داده های حجیم خود را نیز برآورده می سازند. در ضمن، اندازه حافظه موجود روی سخت افزار استاندارد اینتل در حال افزایش و قیمت آن نیز رو به کاهش است. این امر قابلیت اداره حجم های بسیار بزرگتری از داده ها درون حافظه را برای Qlik فراهم آورده است. به عنوان مثال، یک سرور 512GB قادر است مجموعه داده های غیر فشرده با اندازه تقریبی 4TB را اداره کند. از بررسی رویه فشرده سازی Qlik این نتیجه بدست آمده که هر چه افزونگی حجم داده ها بیشتر باشد، میزان فشرده سازی نیز بالاتر خواهد بود. برخلاف فناوری هایی که به سادگی از سخت افزار چند پردازنده ای پشتیبانی نموده، Qlik به گونه ای طراحی شده که از تمام قدرت چنین سخت افزارهایی استفاده بهینه داشته باشد. Qlik به طور کارآمد محاسبات حقیقی را میان تمام هسته های پردازنده دسترس پذیر توزیع نموده، به همین دلیل عملکرد و سرمایه سخت افزاری بیشینه می گردد. App/نرم افزارهای کاربردی (Qlik) در یک محیط خوشه ای را می توان در چندین سرور مختلف ذخیره کرد. به عنوان مثال، می توان از یک سرور با حافظه پایین برای اجرای App دربر گیرنده مقدار کمی داده های متراکم یا بالعکس از یک سرور بزرگتر برای اجرای App دربر گیرنده مقدار زیادی داده های تفصیلی استفاده کرد. البته همه این موارد به دور از چشم کاربر انجام می شود. Qlik را می توان به گونه ای تنظیم کرد که یک سرور در پس زمینه فعالیت های مربوط به استخراج و تبدیل مقدار زیادی از داده ها را انجام داده و در عین حال مسئولیت اجرای App سمت کاربر را سرور دیگری برعهده بگیرد (البته بدون زحمات اضافی مربوط به وظایف پس زمینه). یکی دیگر از مزایای این معماری چند لایه ای این است که دسترسی به منبع داده های تراکنشی تنها یک مرتبه انجام می پذیرد. سپس بدون اجرای فرآیند استخراج جدید می توان از این داده در چندین App/برنامه کاربردی Qlik استفاده کرد. مدیران قادرند به نوعی Qlik را پیکربندی نمایند که تنها داده های جدید یا تغییر یافته از زمان آخرین بارگذاری نمایش داده شود. این امر به طور قابل توجهی پهنای باند مورد نیاز هر نوع منبع داده را کاهش می دهد.

 

بخش بندی

فرآیند بخش بندی عبارت است از: تقسیم یک برنامه کاربردی Qlik به چندین برنامه کاربردی با هدف بهینه سازی عملکرد، امنیت، مقیاس پذیری، سادگی و نگهداشت. داده ها را می توان بر حسب منطقه یا سازمان بخش بندی کرد. همچنین کاربر نیز قادر است یک App دربر گیرنده داده های تفصیلی بسیار زیاد را به چندین App کوچکتر تقسیم کرده و یکی از آنها را به عنوان داشبورد کوچک یا App خلاصه/چکیده مورد استفاده قرار داد. به عنوان مثال شرکتی را می توان در نظر گرفت که دارای داده بسیار بزرگی بوده و قصد دارد گزارشات مربوط به فرآیندهای تجزیه و تحلیل (و مهمتر از همه بینش ها) موجود در برنامه کاربردی را در اختیار تحلیل گران جزئی و مدیران اجرایی همه سازمان ها و همچنین چندین تحلیلگر قدرتمند قرار دهد. با استفاده از بخش بندی می توان مجموعه بزرگی از داده ها که در کنار یکدیگر درون یک App مستقر بوده را تجزیه و تفکیک نموده و هر تکه از آن را برای پوشش گروهی مختلف بکار برد. در این صورت هر یک از گروه های مذکور قادرند بدون پرداخت هزینه کامل برای RAM و CPU مورد نیاز برای اجرای نسخه کامل App مربوطه، از App مورد نظر خود استفاده کنند. باید توجه داشت که فرآیند بخش بندی برای مدیریت نسخه های بخش بندی شده به نگهداشت یا سربار بسیار کمی نیازمند است.

زنجیره بندی

زنجیره بندی به فرآیند پیوند دادن (یا پرش از) یک برنامه کاربردی Qlik به برنامه کاربردی دیگر و همچنین حفظ برخی از حالات یا انتخاب های انجام شده توسط کاربر مذکور (پیش از اجرای عملیات پیوند) اشاره دارد. با وجودیکه این احتمال وجود دارد که برنامه های کاربردی Qlik به صورت مجزا و جداگانه روی سرورهای متفاوت در حال اجرا باشند، اما قابلیت به اشتراک گذاری حالات انتخاب میان خود را دارند. به عنوان مثال، یک برنامه کاربردی CRM شامل چندین حیطه موضوعی مختلف مربوط به مشتریان می شود. هر یک از این حیطه های موضوعی به یکی از بخش/واحدهای درون شرکت مورد نظر مربوط می شود. Qlik را می توان به گونه ای پیکربندی کرد که در رابطه با پایگاه مشتریان دربر گیرنده یک App جامع و یک App داشبورد باشد. سپس این Appها به Appهای حیطه موضوعی تولید شده مختص هر یک از بخش/واحدهای شرکت پیوند می خورند. بنابراین می توان فرآیند زنجیره بندی را به عنوان روش دیگری در نظر گرفت که قابلیت مدیریت Appهایی که داده های بسیار زیادی برای سخت افزار کاربر داشته را فراهم می آورد. لازم به ذکر است که می توان روش های بخش بندی و زنجیره بندی را در کنار یکدیگر بکار گرفت. بدین صورت که دیدگاه های داده چند وجهی به عنوان دیدگاه های موضوعی بخش بندی شده و سپس این دیدگاه های مجزا به یکدیگر پیوند داده می شوند.

 

تولید App برحسب تقاضا

کاربر با استفاده از روش تولید App بر حسب تقاضا قادر است هر زمان که بخشی از منبع داده بسیار بزرگ انتخاب گردید، به طور خودکار یک App تحلیل تک منظوره را ایجاد نماید. اکثر کاربران تمایل ندارند که کل منبع داده های حجیم را تحلیل کرده و در بیشتر مواقع نیز این کاربران در ابتدا نمی دانند باید کدام بخشی از داده ها را به طور تفصیلی تجزیه و تحلیل کنند. بنابراین این کاربران به روشی نیاز داشته که به سرعت کل منبع داده را اسکن/پیمایش کرده و بخش های بالقوه مطلوب تر را برای تحلیل تفصیلی تعیین نماید. در برخی از موارد این نیازمندی را می توان با استفاده از مفاهیمی نظیر بخش بندی و زنجیره بندی برآورده ساخت (یک App خلاصه به Appهایی پیوند خورده که هر یک شامل بخشی تفصیلی از منبع داده هستند). اما اگر تعداد بخش هایی بالقوه ای که از پیش به عنوان App تعریف شده زیاد باشد، آنگاه چه می توان کرد؟ اگر کاربر نسبت به بخش هایی از پایگاه داده که باید تحلیل شوند اطلاع کافی نداشته باشد چطور؟ فرآیند کشف داده در قالب آزاد بدین معنی است که کاربر قادر است از هر جهت عملیات کاوش را انجام دهد. بنابراین در صورت هر بار مواجهه با حیطه ای کاوش نشده/ناشناخته به یک App جدید نیاز است.

در شرایطی که کاربر اطلاع نداشته باشد کدام بخش از پایگاه داده را باید به طور تفصیلی تجزیه و تحلیل کند، آنگاه ارزش روش تولید App برحسب تقاضا کاملاً مشهود خواهد شد. روش تولید App برحسب تقاضا شامل دو نوع مختلف از Appها می باشد. در ابتدا یک App انتخاب در اختیار کاربر قرار داده می شود. کاربر با استفاده از این App قادر است در میان «فهرست خرید» زیرمجموعه های معینی از داده ها نظیر: مدت زمان، منطقه جغرافیایی یا بخش مشتری را انتخاب کند. این امر منجر به تولید سریع App تحلیل تک منظوره با هدفی خاص که تنها دربر گیرنده داده هایی مربوط به فرآیند انتخاب کاربر بوده می شود. کاربر هم اکنون می تواند با استفاده از قابلیت های درون حافظه ای Qlik درون داده های تفصیلی منتخب در هر جهتی کاوش کند. در این صورت کاربران با آزادی بیشتری و سریعتر می توانند فرآیند تجزیه و تحلیل خود را انجام دهند. کاربران با این روش بدون نیاز به تولید یک App جدید برای هر مرتبه که تصمیم به تحلیل مجموعه داده های متفاوتی را داشته می توانند به راحتی بخش های مختلفی از منبع داده را بررسی کنند. از آنجائیکه در هر زمان تنها بخش مورد نظر از داده ها درون حافظه مدیریت شده، لذا مدیر نیز می تواند دسترسی فراتری به منبع داده بزرگ مقیاس برای کاربر تعریف کند.

کشف مستقیم توسط Qlik

کشف مستقیم Qlik در واقع رویکردی است که مدل داده درون حافظه ای Qlik را با داده خارجی (که به سرعت جستجو شده) ترکیب می کند. جداول متناسب با حجم حافظه درون حافظه مورد نظر بارگذاری شده، اما دسترسی به جداول بسیار بزرگ از طریق رویکرد direct discovery/کشف مستقیم امکان پذیر است. نتیجه جستجوی متراکم/تجمیع شده که از منبع داده خارجی بدست آمده مربوط به داده های درون حافظه ای به Qlik انتقال یافته و برای کاربر نمایش داده می شود. مجموعه داده کشف مستقیم هنوز جزئی از تجربه مشارکتی می باشد. فرآیندهای انتخاب اجرا شده در داده های در محل/در جا و داده های درن حافظه ای در سرتاسر Qlik App انعکاس می یابند. البته رویکرد کشف مستقیم تنها در شرایطی کاربرد دارد که کاربر قصد جستجوی داده ای از یک جدول با دسترسی داده تقریبا بلادرنگ را داشته باشد. این روش به شدت به عملکرد مخزن داده های حجیم اصلی وابستگی دارد. به منظور بهینه سازی راندمان و کاهش بار تحمیلی بر مخزن داده های حجیم می توان داده ها را به طور موقت در حافظه نهان ذخیره کرد. مدیر قادر است به منظور دستیابی به توازنی میان عملکرد کاربر و به موقع حاضر بودن نتایج، به طور سفارشی زمان اعتبار داده های به طور موقت ذخیره شده در حافظه نهان را تنظیم کند. کاربران بدون نیاز به آگاهی از تفاوت موجود میان داده های درون حافظه ای و در محل/در جا می توانند آزادانه و سریع عملیات کاوش در اطلاعات را انجام دهند.

 

مقایسه روش های مختلف دسترسی به داده های حجیم

همانطور که برای مدیریت داده های حجیم بیش از یک روش موجود بوده، لذا نمی تواند تنها یک روش مناسب و برتر برای دسترسی و تجزیه و تحلیل منابع داده های حجیم وجود داشته باشد. کاربران به منظور انتخاب بهترین روش (یا ترکیبی از روش ها) برای برآورده ساختن اهدافشان باید نیازمندی های خاص خود و منابع داده را در نظر بگیرند.

 

درون حافظه ای

بخش بندی و زنجیره بندی

تولید App برحسب تقاضا

کشف سیستم

شرح

تا حداکثر ممکن داده ها را درون حافظه فشرده می کند. روش های مورد استفاده برای بارگذاری بار داده می توانند میزان این فشرده سازی را بیشتر کنند.

کاربران در حال حرکت میان App بخش بندی شده مرتبط/متناسب می باشند (به عنوان مثال بخش بندی بر اساس منطقه).

انتخاب های کاربر منجر به تولید مجموعه داده های معین و App تک منظوره با هدف خاص برای فرآیند تجزیه و تحلیل می شود.

با استفاده از مدل جستجوی SQL قابلیت های درون حافظه ای Qlik را تقویت و تکمیل می کند.

شرایط کاربردی

- منبع داده فشرده شده متناسب با حافظه سرور است.

- تنها به داده های متراکم یا خلاصه نیاز است.

- تنها به جزئیات سطح گزارشات ثبت شده در طول مدت زمان معین نیاز است.

منبع داده ای که مدیریتش در حافظه سرور عملی بسیار سنگین بوده و قابلیت تقسیم شدن به بخش های از پیش تعریف شده را دارا می باشد.

منبع داده ای که مدیریتش در حافظه سرور عملی بسیار سنگین بوده و قابلیت تقسیم شدن به بخش های از پیش تعریف شده را نیز دارا نمی باشد.

- به دسترسی به جزئیات سطح گزارشات ثبت و ذخیره شده در جدولی بسیار بزرگ که قابلیت جای دادن آن در حافظه ممکن نبوده نیاز است.

- برای طرح/نمودارهای ستاره ای بسیار اولیه و پایه ای با محاسبات ساده توصیه می شود.

حجم داده ها

صدها میلیون تا میلیارد

صدها میلیون تا میلیارد ردیف به ازای هر App بخش بندی شده

ردیف ها، ابعاد (ستون ها) و اندازه ای بسیار زیاد

میلیاردها ردیف

 

ارتباط Qlik و داده های حجیم

Qlik به عنوان یک پایگاه باز طراحی شده و دربر گیرنده چندین گزینه ارتباطی توکار و شخص ثالث برای مخازن داده های حجیم می باشد.

● ارتباط ODBC. از آنجائیکه اکثر فروشندگان پایگاه های داده از استاندارد ODBC استفاده نموده، لذا رابط ODBC نرم افزار Qlik با اکثر پایگاه های داده همخوانی دارد. به عنوان مثال، Teradata برای انبار داده Teradata یک درایور ODBC و Cloudera نیز برای Apache Hadoop، Hive و Impala (موتور جستجوی بلادرنگ/زمان واقعی برای hadoop) یک درایو ODBC ارائه کرده است.

● ارتباط با منبع داده خاص. Qlik به منظور برقراری ارتباط با دیگر منابع داده های حجیم با فراهم آورندگان شخص ثالث نظیر: Horton،DataBricks و Cloudera همکاری داشته است. Qlik به منظور ایجاد رابط سفارشی با قابلیت تجزیه و تحلیل بصری تعاملی برای راه حل BigQuery گوگل مبتنی برابر با شرکت گوگل نیز همکاری داشته است.

● ارتباط ایجاد شده از سوی شرکاء/همکاران. تعدادی از شرکاء Qlik به منظور کار کردن با برنامه های کاربردی یا منابع داده خاصی که Qlik از آنها پشتیبانی نکرده، رابط هایی را طراحی نموده اند. به منظور دسترسی به فهرست این نوع رابط های ایجاد شده توسط شرکاء می توانید به آدرس market.qlik.com مراجعه فرمایید.

Qlik در زمینه داده های حجیم فرسنگ نهایی را می پیماید.

یکی از چالش های بزرگ در صنعت مخابرات «فرسنگ نهایی» نام دارد. این چالش در واقع به فراهم آوردن تلفن، کابل یا خدمات اینترنت به نقطه پایانی یعنی منزل کاربر اشاره دارد. گسترش دادن شبکه از کابل اصلی یا همان ستون فقرات برای فراهم آورنده هزینه بالایی دارد (هزینه مربوط به تهیه کامیون ها، کندن چاله ها و نصب خطوط). در نتیجه در برخی موارد فراهم آورندگان خدمات مخابراتی هزینه های بالای نصب را بر عهده مشتریان گذاشته یا تصمیم به عدم پیمودن این فرسنگ نهایی می گیرند. در حوزه داده های حجیم نیز مسئله «فرسنگ نهایی» وجود دارد. امروزه اکثر فراهم آورندگان فناوری فعال در زمینه حل مسائل مربوط به داده های حجیم بر پردازش داده تمرکز کرده اند (به قولی می توان گفت آنها نیز همانند همکارانشان در صنعت مخابرات بر ستون فقرات/بستر اصلی یا نظیر همتایان خود در صنعت معدن بر کارخانه و تجهیزاتش تمرکز کرده اند). Qlik تمرکز خود را به این فرسنگ نهایی معطوف ساخته است. Qlik قصد دارد با نمایش کل داده های مورد نیاز به کاربران، فرآیند تصمیم گیری را برای آنها در هر کجا ساده تر نماید. همکاری متقابل Qlik و فراهم آورندگان فناوری داده های حجیم به طور حتم راه حلی مؤثر در زمینه دسترسی به داده های مرتبط و کاربردی را برای کاربران سازمان های تجاری را ایجاد می نماید.

ارسال نظر

مطالب اخیر

آخرین نظرات

Comment RSS