今天小編給大家?guī)砹烁呗毥逃龑I(yè)教學(xué)資源分析,有需要的小伙伴一起來參考一下吧,希望能給大家?guī)韼椭?/p>
摘要:筆者詳細(xì)研究了高職教育專業(yè)教學(xué)資源搜索引擎的設(shè)計(jì)與實(shí)現(xiàn),利用分布式爬蟲技術(shù),對(duì)互聯(lián)網(wǎng)上的教學(xué)資源信息進(jìn)行爬取、去噪、提煉,獲得有效的信息進(jìn)行保存。同時(shí),建立教學(xué)資源的搜索平臺(tái),方便學(xué)生快速檢索網(wǎng)絡(luò)教學(xué)資源。
目前,互聯(lián)網(wǎng)+教育已十分普及,我國網(wǎng)校也達(dá)上千家。網(wǎng)校多以考試輔導(dǎo)、專業(yè)技能培訓(xùn)為主。此外,還有些人文教育平臺(tái),而針對(duì)高等教育的平臺(tái)的建設(shè),目前國內(nèi)還在起步階段。目前,國內(nèi)主要有網(wǎng)易云課堂、慕課網(wǎng)等等平臺(tái),這些平臺(tái)的資源較為分散,學(xué)生在尋找相關(guān)資料時(shí),也比較費(fèi)時(shí),影響了學(xué)習(xí)的積極性和效率。利用搜索引擎的相關(guān)知識(shí),搜集互聯(lián)網(wǎng)上相關(guān)的高職教育專業(yè)的教學(xué)資源,能夠有效幫助學(xué)生快速找到目標(biāo)資料。同時(shí),應(yīng)用積累的數(shù)據(jù),建立高職教育專業(yè)網(wǎng)絡(luò)教學(xué)資源數(shù)據(jù)倉庫。此外,還可以積累搜索關(guān)鍵詞的頻率,掌握最受歡迎的學(xué)科或?qū)W習(xí)資料,為教學(xué)資源的再生提供方向與引導(dǎo)。
1專業(yè)教學(xué)資源搜索引擎需求分析
研究高職教育專業(yè)教學(xué)資源搜索引擎的主要目的是幫助解決高職院校學(xué)生學(xué)習(xí)資源不集中、大部分學(xué)生搜索學(xué)習(xí)資料的能力有限等問題。高職教育專業(yè)教學(xué)資源搜索引擎的研究,主要是根據(jù)學(xué)生輸入的搜索內(nèi)容,將內(nèi)容進(jìn)行分割成關(guān)鍵字,利用關(guān)鍵字去各大教學(xué)資源站點(diǎn)進(jìn)行爬蟲,將爬出網(wǎng)頁資源進(jìn)行分析,提取網(wǎng)頁中的視頻資源和其他學(xué)習(xí)資源,提取資源包含資源下載地址和資源的詳細(xì)信息。搜索將互聯(lián)網(wǎng)上的教學(xué)資源信息進(jìn)行爬取、去躁、提煉,獲得有效的信息進(jìn)行保存。各類網(wǎng)頁信息的特征不相同,針對(duì)不同的網(wǎng)頁信息,信息提煉方法也不同。具體的研究目標(biāo)可以總結(jié)如下:(1)建立完備知識(shí)庫類別;(2)實(shí)現(xiàn)資源的共建共享;(3)進(jìn)行Web集成,展示搜索的教育資源;(4)資源檢索,為使用者提供資源庫中資源的多種檢索功能。
2系統(tǒng)設(shè)計(jì)
2.1分布式爬蟲架構(gòu)設(shè)計(jì)
這個(gè)模塊主要分成兩個(gè)子模塊,爬蟲模塊和信息分類和提取模塊,下面主要介紹爬蟲模塊。爬蟲模塊指的是對(duì)不同的站點(diǎn)內(nèi)網(wǎng)頁信息進(jìn)行數(shù)據(jù)釆集,該部分主要包括爬蟲控制模塊和爬蟲節(jié)點(diǎn)模塊。(1)爬蟲控制模塊主要負(fù)責(zé)對(duì)爬蟲節(jié)點(diǎn)的控制工作,其主要有四個(gè)職責(zé):任務(wù)調(diào)動(dòng)分配、監(jiān)測(cè)狀態(tài)、設(shè)置參數(shù)、通信控制。(2)爬蟲節(jié)點(diǎn)模塊具有網(wǎng)頁下載、URL排重和存儲(chǔ)(鏈接管理)、網(wǎng)頁解析、數(shù)據(jù)存儲(chǔ)等功能。具體的分布式爬蟲架構(gòu)如圖1所示。
2.2爬蟲爬行搜索策略
網(wǎng)頁爬蟲算法最常見的爬行策略是廣度優(yōu)先遍歷和深度優(yōu)先遍歷,它們都是基于圖的遍歷算法。2.2.1深度優(yōu)先遍歷算法爬蟲節(jié)點(diǎn)輸入開始的URL-A獲取網(wǎng)頁,分析網(wǎng)頁并獲取網(wǎng)頁中的一個(gè)URL-B,再分析根據(jù)B獲取的網(wǎng)頁,并獲取一個(gè)URL-C,直到網(wǎng)頁中沒有UR,然后不斷處理不同的鏈路。然而,隨著層次的深入,網(wǎng)頁的價(jià)值和PageRank都會(huì)隨之下降。這表示價(jià)值越高的網(wǎng)頁距離種子網(wǎng)頁越近,層次越深則其價(jià)值越低。2.2.2廣度優(yōu)先遍歷算法從起始網(wǎng)頁A開始,先抓取該頁面的所有頁面,然后從頁面A中選擇一個(gè),繼續(xù)抓取該頁面的所有URL,然后在頁面A重新選擇一個(gè)URL,如此抓取頁面中的所有鏈接頁面。本系統(tǒng)的爬蟲主要使用廣度優(yōu)先遍歷算法,首先,互聯(lián)網(wǎng)的網(wǎng)頁相互連通,最大的鏈接深度可以達(dá)到17層。因此,從網(wǎng)頁A到網(wǎng)頁B會(huì)存在多條路徑,需要考慮最短路徑的問題,若使用深度優(yōu)先,會(huì)有從低PageRank值到高PageRank值的過程的情況出現(xiàn),計(jì)算PageRank的值比較復(fù)雜。而廣度優(yōu)先可以很方便實(shí)現(xiàn)并行操作,對(duì)于同一個(gè)網(wǎng)頁上的鏈接可以通過并行操作提高爬行速度。
2.3分布式任務(wù)調(diào)度策略
分布式任務(wù)調(diào)度數(shù)據(jù)采集有三種方式:動(dòng)態(tài)、靜態(tài)和獨(dú)立。爬蟲節(jié)點(diǎn)間相互獨(dú)立是不切實(shí)際的,如果采用動(dòng)態(tài)任務(wù)分配的模式,爬蟲任務(wù)集合的劃分比較簡(jiǎn)單,容易維護(hù),確保節(jié)點(diǎn)資源最大化被運(yùn)用到,但是如果考慮到各個(gè)爬蟲節(jié)點(diǎn)機(jī)器性能間的差異,動(dòng)態(tài)分配會(huì)增加爬蟲節(jié)點(diǎn)和控制節(jié)點(diǎn)的通信數(shù)據(jù)量,節(jié)點(diǎn)的網(wǎng)絡(luò)帶寬負(fù)載會(huì)過大。靜態(tài)任務(wù)分配模式的思想是根據(jù)初始的機(jī)器節(jié)點(diǎn)的數(shù)量,將所有的任務(wù)分成N個(gè)子集,之后將任務(wù)子集提前根據(jù)機(jī)器性能手動(dòng)分布相應(yīng)的爬蟲節(jié)點(diǎn),任務(wù)分配,節(jié)點(diǎn)各自執(zhí)行各自的任務(wù),互不干涉。靜態(tài)任務(wù)分配的策略有:基于站點(diǎn)名稱、基于URL、隨機(jī)劃分。本研究中采用的按站點(diǎn)進(jìn)行任務(wù)劃分的靜態(tài)劃分方式是三種方式中最佳的。
2.4資源管理平臺(tái)
網(wǎng)絡(luò)教學(xué)資源共享平臺(tái)是高校數(shù)字化學(xué)習(xí)體系的一部分,高職教學(xué)資源庫具有強(qiáng)大的資源查詢與管理功能。我的資源庫模塊,可以集中、方便地維護(hù)個(gè)性化資源?焖贋g覽模塊,可以查詢所有資源庫的資源,包括開放課程與精品課程中的預(yù)置資源及專題庫中的本校自建資源。開放課程&精品課程模塊,可以查詢系統(tǒng)中預(yù)置的資源(提前爬蟲入庫的資源),包括全球開放課程、全國精品課程、清華精品課程、視頻資源等。專業(yè)資源模塊可以查看本校各院系專業(yè)所關(guān)聯(lián)專題庫中的資源。通知公告模塊,用于管理資源庫首頁公布的通知公告。專題庫模塊,供本院校建設(shè)、管理自建的校本資源。統(tǒng)計(jì)信息模塊,提供詳細(xì)的資源使用及用戶信息統(tǒng)計(jì)功能,方便管理人員快速了解資源庫應(yīng)用情況。資源上傳模塊,提供多種方式給各用戶為資源庫添加資源,包括上傳資源和對(duì)資源進(jìn)行編目?jī)刹糠帧O到y(tǒng)設(shè)置模塊,用于管理員對(duì)資源庫的基礎(chǔ)數(shù)據(jù)進(jìn)行設(shè)置,承擔(dān)資源庫基礎(chǔ)結(jié)構(gòu)維護(hù)的任務(wù)。用戶管理模塊,用于管理員添加和刪除用戶、管理用戶角色。
3系統(tǒng)實(shí)現(xiàn)
3.1中心控制節(jié)點(diǎn)詳細(xì)設(shè)計(jì)
中心控制節(jié)點(diǎn)功能主要包括:增加爬蟲節(jié)點(diǎn),刪除爬蟲階段,分配任務(wù)給爬蟲節(jié)點(diǎn),配置節(jié)點(diǎn)運(yùn)行參數(shù),協(xié)調(diào)爬蟲節(jié)點(diǎn)之間的工作,監(jiān)測(cè)節(jié)點(diǎn)狀態(tài),保證系統(tǒng)的運(yùn)行穩(wěn)定?刂乒(jié)點(diǎn)主要有四個(gè)模塊,它們分別是:任務(wù)調(diào)度模塊、狀態(tài)監(jiān)控模塊、爬蟲參數(shù)設(shè)置、通信模塊。
3.2爬蟲節(jié)點(diǎn)詳細(xì)設(shè)計(jì)
爬蟲節(jié)點(diǎn)爬蟲功能結(jié)構(gòu)如圖2所示,一個(gè)爬蟲節(jié)點(diǎn)主要模塊有兩個(gè):爬蟲模塊和節(jié)點(diǎn)通信模塊。其中,爬蟲模塊的子功能有:網(wǎng)頁下載功能、網(wǎng)頁解析功能、鏈接管理功能以及數(shù)據(jù)存儲(chǔ)功能。
4結(jié)語
利用搜索引擎技術(shù)建立高職教育專業(yè)教學(xué)資源庫,并利用搜索到的數(shù)據(jù)建立教學(xué)資源數(shù)據(jù)倉庫,幫助學(xué)生快速找到需要的學(xué)習(xí)資源。研究中采用了分布式爬蟲技術(shù),充分使用任務(wù)搜索策略和任務(wù)調(diào)度策略。利用控制節(jié)點(diǎn)將任務(wù)均分到爬蟲節(jié)點(diǎn),指揮爬蟲的節(jié)點(diǎn)工作。這種方式雖然實(shí)現(xiàn)了系統(tǒng)的負(fù)載均衡,但是具有單點(diǎn)故障的局限性,一旦中心控制節(jié)點(diǎn)發(fā)生故障,就會(huì)影響整個(gè)系統(tǒng)。因此,需要對(duì)中心節(jié)點(diǎn)實(shí)施優(yōu)化設(shè)計(jì),使得當(dāng)中心節(jié)點(diǎn)發(fā)生故障時(shí),爬蟲節(jié)點(diǎn)會(huì)選出一臺(tái)機(jī)器自動(dòng)接手中心控制節(jié)點(diǎn)的工作,這也是下一步需要優(yōu)化的工作。
來源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問題,請(qǐng)聯(lián)系我們及時(shí)刪除。