交互式報(bào)表Power BI教程:Power BI 散點(diǎn)圖中的高密度采樣
使用 Power BI Desktop 從數(shù)據(jù)獲得見(jiàn)解,然后進(jìn)行相關(guān)操作利用可視化分析免費(fèi)創(chuàng)建內(nèi)容豐富的交互式報(bào)表,一切盡在指尖。
現(xiàn)在可使用新的采樣算法來(lái)改進(jìn)散點(diǎn)圖表示高密度數(shù)據(jù)的方式 。
例如,可以通過(guò)組織的銷(xiāo)售活動(dòng)創(chuàng)建一個(gè)散點(diǎn)圖,其中每個(gè)商店每年都有成千上萬(wàn)個(gè)數(shù)據(jù)點(diǎn)。此類(lèi)信息的散點(diǎn)圖將對(duì)可用數(shù)據(jù)進(jìn)行數(shù)據(jù)采樣(選擇數(shù)據(jù)中有意義的代表,以展示銷(xiāo)售情況如何隨時(shí)間變化),并創(chuàng)建一個(gè)散點(diǎn)圖表示基礎(chǔ)數(shù)據(jù)。這是高密度散點(diǎn)圖中的常見(jiàn)做法。 Power BI 改進(jìn)了高密度數(shù)據(jù)的采樣,本文詳細(xì)介紹了相關(guān)信息。
高密度散點(diǎn)圖的工作方式
以前,Power BI 以確定性方式在所有基礎(chǔ)數(shù)據(jù)中選擇采樣數(shù)據(jù)點(diǎn)的集合來(lái)創(chuàng)建散點(diǎn)圖。具體而言,Power BI 會(huì)在散點(diǎn)圖系列中選擇第一行和最后一行數(shù)據(jù),然后將剩余的行平均分配,以便在散點(diǎn)圖上繪制總共 3,500 個(gè)數(shù)據(jù)點(diǎn)。 例如,如果示例有 35,000 行,則選擇第一行和最后一行進(jìn)行繪制,然后每 10 行繪制一個(gè)數(shù)據(jù)點(diǎn)(35,000/10 = 每 10 行 = 3,500 個(gè)數(shù)據(jù)點(diǎn))。
另外,在此之前,在數(shù)據(jù)系列中無(wú)法繪制的 null 值或點(diǎn)(如文本值)不會(huì)顯示出來(lái),因此在生成視覺(jué)對(duì)象時(shí)不會(huì)加以考慮。通過(guò)此類(lèi)采樣,散點(diǎn)圖的感知密度同樣會(huì)基于代表性數(shù)據(jù)點(diǎn),因此隱含的可視化密度屬于采樣點(diǎn),而不是基礎(chǔ)數(shù)據(jù)的完整集合。
啟用“高密度采樣” 時(shí),Power BI 會(huì)執(zhí)行一種算法來(lái)消除重疊點(diǎn),并確保與視覺(jué)對(duì)象交互時(shí)可以訪(fǎng)問(wèn)視覺(jué)對(duì)象上的點(diǎn)。此外,該算法還可確保數(shù)據(jù)集中的所有點(diǎn)都會(huì)顯示在視覺(jué)對(duì)象中,從而為所選點(diǎn)的含義提供上下文,而不是僅僅繪制一個(gè)代表性的樣本。
根據(jù)定義,對(duì)高密度數(shù)據(jù)進(jìn)行采樣,以快速合理地創(chuàng)建能響應(yīng)交互操作的視覺(jué)對(duì)象。視覺(jué)對(duì)象上過(guò)多的數(shù)據(jù)點(diǎn)可能會(huì)阻礙它并降低趨勢(shì)的可見(jiàn)性。因此,如何對(duì)數(shù)據(jù)進(jìn)行采樣才能提供最佳的視覺(jué)對(duì)象體驗(yàn)并確保表示所有數(shù)據(jù)這一疑問(wèn)推動(dòng)了采樣算法的創(chuàng)建。Power BI 中現(xiàn)對(duì)該算法進(jìn)行了改進(jìn),將整體數(shù)據(jù)集中重要點(diǎn)的響應(yīng)、表示和清楚保存以最佳方式組合。
新的散點(diǎn)圖采樣算法的工作方式
適用于散點(diǎn)圖的“高密度采樣”的新算法采用能夠更有效地捕獲和表示基礎(chǔ)數(shù)據(jù)的方法,此類(lèi)方法還可以消除重疊點(diǎn) 。具體操作方法為:首先為每個(gè)數(shù)據(jù)點(diǎn)繪制一個(gè)小型半徑(可視化效果上給定點(diǎn)的可視圓圈大小)。然后增加所有數(shù)據(jù)點(diǎn)的半徑大小;當(dāng)兩個(gè)(或多個(gè))數(shù)據(jù)點(diǎn)重疊時(shí),用一個(gè)(增加了半徑大小的)圓圈表示這些重疊的數(shù)據(jù)點(diǎn)。 該算法繼續(xù)增加數(shù)據(jù)點(diǎn)的半徑,直到半徑值產(chǎn)生的合理數(shù)量的數(shù)據(jù)點(diǎn)(3,500)顯示在散點(diǎn)圖中。
此算法中的方法可確保在生成的視覺(jué)對(duì)象中顯示離群值。該算法在確定重疊的同時(shí)還會(huì)設(shè)置比例,完全按照基礎(chǔ)可視化點(diǎn)直觀顯示指數(shù)比例。該算法還將保留散點(diǎn)圖的整體形狀。
注意:將高密度采樣算法用于散點(diǎn)圖時(shí),目標(biāo)是準(zhǔn)確分發(fā)數(shù)據(jù),而不是隱含的可視化密度。例如,你可能會(huì)看到一個(gè)散點(diǎn)圖,其中有許多圓圈在某個(gè)區(qū)域重疊(密度),并想像肯定有許多數(shù)據(jù)點(diǎn)聚集在那里;由于高密度采樣算法可以使用一個(gè)圓圈來(lái)表示許多數(shù)據(jù)點(diǎn),因此隱含的可視化密度(或“群集”)將不會(huì)出現(xiàn)。
此外,會(huì)忽略不能繪制的數(shù)據(jù)點(diǎn)(例如 null 或文本值),因此選擇另一個(gè)可以繪制的值,從而進(jìn)一步確保散點(diǎn)圖的真實(shí)形狀保持不變。
使用散點(diǎn)圖的標(biāo)準(zhǔn)算法時(shí)
在一些情況下,高密度采樣不能應(yīng)用于散點(diǎn)圖,而是使用原始算法 。 這些情況如下所示:
- 如果右鍵單擊“詳細(xì)信息”下的值,然后從菜單中將其設(shè)置為“顯示不含數(shù)據(jù)的項(xiàng)”,那么散點(diǎn)圖將恢復(fù)為原始算法 。
- “播放” 軸中的任何值都將導(dǎo)致散點(diǎn)圖恢復(fù)為原始算法。
- 如果散點(diǎn)圖上缺少 X 軸和 Y 軸,則圖表將恢復(fù)為原始算法。
- 使用“分析” 窗格中的“比率線(xiàn)” 會(huì)導(dǎo)致圖表恢復(fù)為原始算法。
如何為散點(diǎn)圖啟用高密度采樣
要啟用“高密度采樣”,請(qǐng)選擇散點(diǎn)圖,轉(zhuǎn)到“格式設(shè)置”窗格,展開(kāi)“常規(guī)”卡,然后在卡片的底部附近,將“高密度采樣”切換滑塊切換為“開(kāi)” 。
注意:啟用滑塊后,Power BI 將在可能的情況下嘗試使用“高密度采樣” 算法。如果該算法無(wú)法使用(例如,在“播放” 軸添加一個(gè)值),滑塊將停留在“打開(kāi)” 位置,即使圖表已恢復(fù)為標(biāo)準(zhǔn)算法也是如此。如果之后你從“播放”軸刪除一個(gè)值(或者情況變?yōu)樵试S使用高密度采樣算法),由于功能處于活動(dòng)狀態(tài),圖表將自動(dòng)為該圖表使用高密度采樣 。
注意事項(xiàng)和限制
高密度采樣算法是 Power BI 的一個(gè)重要改進(jìn),但在使用高密度值和散點(diǎn)圖時(shí)需要了解以下注意事項(xiàng)。
- 高密度采樣 算法僅適用于到基于 Power BI 服務(wù)的模型、導(dǎo)入的模型或 DirectQuery 的實(shí)時(shí)連接。
本文內(nèi)容就到這里了,本教程后面會(huì)持續(xù)更新,感興趣的朋友可以多多關(guān)注,如果您能在評(píng)論區(qū)留言提出問(wèn)題或者解決問(wèn)題,我們將會(huì)很高興!
相關(guān)內(nèi)容推薦:
想要購(gòu)買(mǎi)Power BI Desktop正版授權(quán),或了解更多產(chǎn)品信息請(qǐng)點(diǎn)擊在線(xiàn)客服
也歡迎撥打慧都熱線(xiàn)023-68661681,我們有專(zhuān)業(yè)的大數(shù)據(jù)團(tuán)隊(duì),為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢(xún)!