2022-08-15  点击量: 29

百度文库中文档的纯文字版免费获取方法

阿里云

很多网站,针对搜索引擎蜘蛛都有专门的页面处理,百度文库针对谷歌蜘蛛也做了类似的处理,可以直接显示成纯文字版,我们用这种方法来查找到蜘蛛访问的URL,获取纯文字。

默认的文档URL是这样的:

https://wenku.baidu.com/view/015c692b31d4b14e852458fb770bf78a64293a9f.html

https://wenku.baidu.com/view/bc88e79e588102d276a20029bd64783e08127dca.html

其中比较长的那串英文字母和数字组成的字符串(bc88e79e588102d276a20029bd64783e08127dca)就是文档的ID

通过蜘蛛访问,可以获取到蜘蛛专门的URL是这样的:

https://wenku.baidu.com/spider/doc/view?doc_id=4652085fbb4ae45c3b3567ec102de2bd9605de27

我们只需要把URL中的ID值替换一下:

https://wenku.baidu.com/spider/doc/view?doc_id=015c692b31d4b14e852458fb770bf78a64293a9f

https://wenku.baidu.com/spider/doc/view?doc_id=bc88e79e588102d276a20029bd64783e08127dca

就能获取到纯文字版的文档,当然,排版有点乱,需要自行处理。

通过这样的替换ID,我们就可以免费获取百度文库的纯文字版了。

针对word和PDF的文字可以很好的处理。如果是PPT和表格就不能很好处理了,毕竟纯文字不能表现表格的效果。

 

评论已关闭!