Python網路爬蟲快速入門

內容簡介

《Python網路爬蟲快速入門》是新世紀高職高專教材編審委員會組編的大數據技術專業系列規劃教材之一。

隨著大數據時代的到來，網際網路上的信息每天都在爆炸式增長。同時隨著“網際網路+”國家戰略的推進，網際網路上的大數據套用價值變得多樣化，因此，網際網路數據成為大數據教學和研究套用的重要數據源。在這種背景下，數據採集技術成為很多人迫切需要掌握的技術。

網路爬蟲是一種按照一定規則，自動請求全球資訊網網站並提取網路數據的程式，它可以代替人力進行信息採集，能夠自動採集並高效利用網際網路中的數據。Python是一種解釋型、面向對象、動態數據類型的高級程式設計語言。Python語言方便、高效的特點使其成為爬蟲程式編寫時最為流行的程式語言之一。Python功能強大的第三方庫無疑降低了編寫爬蟲程式的難度和獲取信息的成本。

本教材從初學者的角度出發，由淺入深地講解了學習網路爬蟲的基礎知識，以及爬蟲採集技術、信息提取技術等的基本使用方法，以幫助讀者掌握爬蟲的相關技能，使其能夠獨立編寫自己的爬蟲項目。本教材在內容安排上，充分考慮了知識體系的完整性和獨立性，涵蓋了Web頁面及相關技術，爬取和解析網頁數據的相關技術，以及數據存儲技術等內容。全書共10章內容，第1、2章介紹Python環境的搭建以及掌握爬蟲的實現原理，第3、4章介紹爬蟲的網路庫，包括urllib、request庫的使用，第5-8章講解了解析網頁數據的相關技術以及效率更高的多執行緒爬蟲，包括正則表達式、XPath、Beautiful Soup以及封裝了這些技術的Python模組或庫，希望讀者在解析網頁數據時，可以根據具體情況靈活選擇合理的技術進行運用。第9、10章主要介紹存儲爬蟲數據，包括檔案存儲和資料庫存儲。

本教材內容全面，結構清晰，通過最簡單的Python程式入手，在網路爬蟲這一核心主題下循序漸進，不斷深入。網路爬蟲的實踐性和操作系比較強，本教材提供了豐富代碼供讀者參考，並且從實際出發，選取了實用性與趣味性兼具的主題進行網路爬蟲實戰。同時本教材還將近年來發生的比較典型的網路爬蟲工作案例融入教學當中，使學生在學習專業知識的同時，自覺踐行社會主義核心價值觀，不斷強化職業道德素質，築牢法律意識，維護法律權威，樹立正確的世界觀，人生觀，價值觀。在實現民族復興的偉大征程中，做懂專業，修美德，守法律，知使命，敢擔當，勇拼搏的時代新人。

教材目錄

第1部分　基礎概念

第1章　爬蟲基礎和開發環境的配置　3

　1.1　爬蟲產生的背景和概念　3

　　1.1.1　爬蟲產生的背景　3

　　1.1.2　爬蟲的概念　4

　1.2　爬蟲的用途和分類　4

　　1.2.1　爬蟲的用途　4

　　1.2.2　爬蟲的分類　6

　1.3　爬蟲實現原理　7

　　1.3.1　通用爬蟲工作原理　7

Python網路爬蟲快速入門

基本介紹

內容簡介

教材目錄

相關詞條

熱門詞條