国产亚洲网友自拍,国产精品第一区揄拍

您的位置：首頁 > 網(wǎng)絡(luò)軟件 > 網(wǎng)頁輔助 > XPath2Doc(網(wǎng)站數(shù)據(jù)采集工具) V1.0.0.0 官方版

XPath2Doc(網(wǎng)站數(shù)據(jù)采集工具) V1.0.0.0 官方版 版本

軟件大小：14.66M
軟件語言：簡體中文
軟件類型：國產(chǎn)軟件
軟件授權(quán)：免費軟件
更新時間：2019-06-24
軟件類別：網(wǎng)頁輔助
應(yīng)用平臺：Win2003,WinXP,Vista,Win7,Win8

網(wǎng)友評分：分數(shù) 5分

軟件非常好（50%）軟件不好用（50%）

網(wǎng)友評論下載地址收藏該頁

14.66M

相關(guān)軟件

　　XPath2Doc 是一個半自動采集網(wǎng)頁生成Word docx文件的工具，帶企查查、天眼查采集配置，使用XPath2Doc需要自己在WebBrowser窗口里面手工登錄，并找到需要的數(shù)據(jù)頁面，然后點擊程序按鈕進行采集，所以是個半自動的網(wǎng)頁數(shù)據(jù)填充Docx工具。

XPath2Doc

【工作原理】

　　網(wǎng)頁的每個元素，都可以表示成為XPath語句，所以我們可以讀取瀏覽器打開的網(wǎng)站頁面源代碼，通過XPath語句得到網(wǎng)頁元素中的文本。

　　XPath語句的獲取辦法：

　　通常我們可以使用谷歌的Chrome瀏覽器打開網(wǎng)站頁面，按F12調(diào)出開發(fā)者工具界面，在ELements選項卡下，隨著鼠標的移動可以看到網(wǎng)頁內(nèi)容被陰影覆蓋，點開三角符號，可以更進一步定位準確的位置，直到找到最終需要的數(shù)據(jù)位置。在找到的文本上點鼠標右鍵，在彈出的菜單中，選擇Copy-Copy XPath，然后粘貼到記事本即可得到需要的XPath語句。

　　這里需要說明一點：如果拷貝出來的XPath語句中有/tbody會影響采集，程序內(nèi)部對此問題進行了處理，但可能會在某些特殊情況下還是會影響數(shù)據(jù)采集，可以手工去掉。

【配置說明】

　　1、本程序工作需要三個配置文件：General.ini，自定義.ini，自定義模板.docx。后兩個文件名自己定義。

　　General.ini文件中定義了INI文件和Docx模板文件的存放目錄，可以不填，默認是程序所在目錄。

　　自定義.ini、自定義模板.docx是軟件使用者自己創(chuàng)建的網(wǎng)頁采集XPath語句及最后生成文件所用的Docx模板，具體設(shè)置方法請看ini文件中的說明。注意，Docx模板文件中的“@<#0001#>@”之類的字符是在INI文件中定義的用于替換網(wǎng)頁采集內(nèi)容的標記字符串。ini文件中定義了替換關(guān)鍵字的前后綴和模板文件名。

　　2、使用本程序前，請先建立好你自己的INI配置文件和Docx模板文件。（具體可以參見附帶的企查查、天眼查兩個配置文件和起訴書模板）

　　需要說明的是，模板文件支持對文檔的不同部分使用不同的網(wǎng)址進行采集，注意Url的設(shè)置。

XPath2Doc

【使用方法】

　　啟動程序--選擇模板--點擊采集數(shù)據(jù)按鈕旁邊的黑色三角符號，點開下拉菜單，點擊需要采集的部分。等候瀏覽器加載網(wǎng)頁完畢，手工輸入需要查詢的內(nèi)容，點擊查詢，找到數(shù)據(jù)的具體頁面，然后點擊采集數(shù)據(jù)按鈕，觀察右側(cè)的列表中是不是已經(jīng)得到需要的數(shù)據(jù)。繼續(xù)點開下拉菜單，選擇下一個需要采集的部分，如果網(wǎng)址發(fā)生了變化要等候瀏覽器加載完畢，找到需要的數(shù)據(jù)頁面。點擊采集數(shù)據(jù)按鈕觀察右側(cè)列表中是不是得到了第二部分的數(shù)據(jù)。如此反復(fù)，直到數(shù)據(jù)全部采集完畢。

　　如果前后兩部分的網(wǎng)址相同，在點擊下一部分的下拉菜單之前，要先在瀏覽器中重新查詢新的數(shù)據(jù)，等新數(shù)據(jù)頁面出來之后在點擊下拉菜單選擇下一部分進行采集。（網(wǎng)址相同的情況下，點擊下一部分會直接從網(wǎng)頁取數(shù)據(jù)，如果瀏覽器沒有換頁面，數(shù)據(jù)就錯了。）如果某個部分需要重新采集，請先點擊下拉菜單中的該部分名稱，然后點擊采集按鈕重復(fù)采集該部分（此時可以隨意改變?yōu)g覽器的數(shù)據(jù)頁面，得到的就是不同公司數(shù)據(jù)）。

　　列表中采集得到的數(shù)據(jù)結(jié)果如果有偏差，可以單擊自行修改。XPath語句如果有什么錯誤，也可以自己修改看測試結(jié)果（XPath語句在修改后會立即重新抓取瀏覽器的數(shù)據(jù)，所以瀏覽器最好是有效數(shù)據(jù)頁面），在程序中修改的XPath語句，不會保存到INI文件中，請自行手工保存。

　　如果列表中數(shù)據(jù)無誤，預(yù)覽窗口中的Docx模板內(nèi)容也正確，則可以點擊創(chuàng)建文檔按鈕，填寫要生成的文件名，本軟件會使用抓取到的網(wǎng)頁數(shù)據(jù)替換模板中的索引字符串，自動生成Docx文檔。

　　需要說明的是，右下角的Docx預(yù)覽窗口不能完整的支持Word文檔，對不標準的文檔可能會出現(xiàn)文本缺失或者錯位現(xiàn)象。遇到這種情況，可以忽略，或者將模板文件改成規(guī)范的文本格式（單倍行距）。