APTX博客

  • ACGN
  • Coding
  • DevOps
  • Daily
  • Share
  • Bangumi
APTX Blog
A Moe Blog Set Up By ミズキ
  1. 首页
  2. Daily
  3. 正文

从台湾网路书店爬取图书信息小记

2021年2月23日 2099点热度 1人点赞 0条评论

日常标题

最近想整一个台版日轻、日漫的图书数据,方便查询也是学习一下爬虫和数据的维护工作。

读册生活

一开始选定的书店是博客来、金石堂,后来发现了读册生活的比较简易的接口。(但是一次只能查询不到30组(一组也没又太多个数据),而且提供的信息较少。API有使用限制,频率大了就炸开)

心想又不是不能用,先拿个漫画测试。直接上手axios慢慢爬(因为有频率限制,同步单线程操作都得有时候返回null)爬完了2W多条数据。

先测试一发搜了个“New Game”结果发现书并不全。大概只有5-10卷的信息,而且也没有一些年代比较久远的书信息。

后来才发现这个接口并不提供不可购买(已绝版)书籍的信息。。。

然后我想大不了上cheerio自己爬,毕竟读册生活URL构造很简单,就是ID自增罢了。

但是发现他家图书分类比较奇葩,画集和周边是在一个分类里面,如果对标题进行过滤的话感觉会过滤掉许多有用的信息(或者很多无用的信息也被收录)

诚品

最后又找了找书店,发现读册生活相比金石堂、博客来构造URL来说是最简单的了。

打开诚品书店后,点开了图书的分类,发现了lazyLoad加载图标。心想难不成这是真 · 前后端分离的?

看了看XHR,果然是这样,而且提供的接口非常全,像是图书名,原名,ISBN号,价格等都有。

而且测试一次请求能最多查询1W条数据(对于7W多条数据的漫画,那仅是查询8次的事,哪怕同步且单线程操作,也不会很慢)

再看了看DOM结构,发现很熟悉。一堆data让我想起了Vue里的style scoped。

看了一下静态资源的引用路径。原来是用Nuxt.js框架开发的啊。

好活,不过都用Nuxt.js了,服务端预渲染一下更好吧。

本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可
标签: ST 博客 图书 日常 测试 生活
最后更新:2021年3月4日

神楽坂 みずき

萌萌萌,好萌!

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

神楽坂 みずき

萌萌萌,好萌!

搜索
最新 热点 随机
最新 热点 随机
上岸 Star Divine 现代前端工程师发展方向不完全指北 站点域名变更通知 私たちの居る理由 《サクラノ詩》VI 章 直哉与蓝对话
#洛谷#C/C++P1003 铺地毯 中国银行:天依小柠檬联名借记IC卡 祝大家9102年新年快乐! 关于斐讯N1刷机Linux(Armbian)及NAS两三事 #洛谷#C/C++P4470 [BJWC2018]售票 Linux中zip/unzip命令简略笔记
标签聚合
C/C++ HTML 洛谷 ST C++ OI 日常 动漫
分类
  • ACGN
  • Coding
  • Daily
  • DevOps
  • OI
  • Share

COPYRIGHT © 2017-2022 APTX博客. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang