【python爬虫】爬取洛谷习题并转为md格式

六月丶

2020 年 10 月 03 日

4741 次浏览

2 条评论

4557字数

技术

背景

因为自己经常需要把做过的题目记录为博文，为了让读者方便阅读所以还要把题目摘过来，但直接在网页复制粘贴再转格式太麻烦了，就想着写个脚本爬下来并自动转为md格式，就不用在复制题目上浪费时间了。下面是编写流程。

逻辑分析

爬取逻辑

在这里插入图片描述

从题库中可以看出题目编号是从1000开始连着的，所以都没必要模拟分页了（特殊题号会提供方法直接获取md），直接https://www.luogu.com.cn/problem/+题目编号就为题目网页。但有些题号不存在或无权查看，所以还需要做一下判断。
主函数：

baseUrl = "https://www.luogu.com.cn/problem/P"
savePath = "C:\\Users\\46361\\Documents\\洛谷习题\\problems\\"
minn = 1000
maxn = 2000             #最大题号

def main():
    print("计划爬取到P{}".format(maxn))
    for i in range(minn,maxn+1):
        print("正在爬取P{}...".format(i),end="")
        html = getHTML(baseUrl + str(i))
        if html == "error":
            print("爬取失败，可能是不存在该题或无权查看")
        else:
            problemMD = getMD(html)
            print("爬取成功！正在保存...",end="")
            saveData(problemMD,"P"+str(i)+".md")
            print("保存成功!")
    print("爬取完毕")

转为md逻辑

先分析题目网页源码
在这里插入图片描述
可以看出，主要有用的标记为h1、h2、h3，将这些标记转为对应个数的#号＋空格，然后去除其余标记即可。
转换代码：

core = bs.select("article")[0]
    md = str(core)
    md = re.sub("<h1>","# ",md)
    md = re.sub("<h2>","## ",md)
    md = re.sub("<h3>","#### ",md)
    md = re.sub("</?[a-zA-Z]+[^<>]*>","",md)

完整源码

记得修改7-9行配置项

import re
import ssl
import urllib.request, urllib.error
import bs4
baseUrl = "https://www.luogu.com.cn/problem/P"
# 修改此处配置
savePath = "C:\\Users\\46361\\Documents\\洛谷习题\\problems\\"  # 保存路径
minn = 2001
maxn = 2010  # 最大题号


def main():
    print("计划爬取到P{}".format(maxn))
    for i in range(minn, maxn + 1):
        print("正在爬取P{}...".format(i), end="")
        html = getHTML(baseUrl + str(i))
        if html == "error":
            print("爬取失败，可能是不存在该题或无权查看")
        else:
            problemMD = getMD(html)
            print("爬取成功！正在保存...", end="")
            saveData(problemMD, "P" + str(i) + ".md")
            print("保存成功!")
    print("爬取完毕")


def getHTML(url):
    headers = {
        "user-agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 85.0.4183.121 Safari / 537.36"
    }
    request = urllib.request.Request(url=url, headers=headers)
    context = ssl._create_unverified_context()
    response = urllib.request.urlopen(request,context=context)
    html = response.read().decode('utf-8')
    if str(html).find("Exception") == -1:  # 洛谷中没找到该题目或无权查看的提示网页中会有该字样
        return html
    else:
        return "error"


def getMD(html):
    bs = bs4.BeautifulSoup(html, "html.parser")
    core = bs.select("article")[0]
    md = str(core)
    md = re.sub("<h1>", "# ", md)
    md = re.sub("<h2>", "## ", md)
    md = re.sub("<h3>", "#### ", md)
    md = re.sub("</?[a-zA-Z]+[^<>]*>", "", md)
    return md


def saveData(data, filename):
    cfilename = savePath + filename
    file = open(cfilename, "w", encoding="utf-8")
    for d in data:
        file.writelines(d)
    file.close()


if __name__ == '__main__':
    main()

实现效果

执行后，控制台输出：
在这里插入图片描述

保存文件夹：
在这里插入图片描述
打开效果
注：此为复制到csdn编写博客页面上的效果,如果用例如有道云笔记打开,数学公式需要用``括起来,在getMD方法添加替换的代码即可。

补充（单个转换）

如果需要快速将单个题目转为md格式,只要复制上述代码新建脚本然后做出如下改动即可.

baseUrl = "https://www.luogu.com.cn/problem/"       #去掉了P
#savePath = "C:\\Users\\46361\\Documents\\洛谷习题\\problems\\"


def main():
    pNum = input("请输入题目编号:")
    html = getHTML(baseUrl+pNum)
    if html == "error":
        print("爬取失败，可能是不存在该题或无权查看")
    else:
        problemMD = getMD(html)
        print("爬取转换完成！\nmd为：\n")
        print(problemMD)

【python爬虫】爬取洛谷习题并转为md格式

六月丶 • 2020 年 10 月 03 日

MrPython
October 7th, 2022 at 08:19 pm

请问爬取洛谷频率设置为多少合适呢

回复
1. 六月丶
  October 8th, 2022 at 12:57 pm
  
  @MrPython
  
  不用设置频率吧，修改配置项，爬取哪些题号就可以了
  
  回复

发表评论取消回复

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

勿忘初心
您好，看你的站做的挺不错的，有没有出手的打算，想出手的话，联系...
流量卡知识网
你好，看完你的博客文章，感觉很不错！希望与你网站首页友情链接流...
iiii520
向大佬学习
22攻略
你写得非常清晰明了，让我很容易理解你的观点。
00
我也在摆烂2333

【python爬虫】爬取洛谷习题并转为md格式

背景

逻辑分析

爬取逻辑

转为md逻辑

完整源码

实现效果

补充（单个转换）

2 条评论

发表评论取消回复

UE4常用蓝图Actions

学生管理系统

【python爬虫】爬取洛谷习题并转为md格式

[教程]字符动画制作

用代码实现解数独

[学习笔记]unity3d-物理引擎(一)

【虚幻引擎】实现锁定敌人与切换锁定

【虚幻引擎】实现惊险闪避触发时停效果

归并排序

[学习笔记]三维数学(3)-向量运算

【python爬虫】爬取洛谷习题并转为md格式

背景

逻辑分析

爬取逻辑

转为md逻辑

完整源码

实现效果

补充（单个转换）

2 条评论

发表评论 取消回复

【python爬虫】爬取洛谷习题并转为md格式

发表评论取消回复