Skip to content

澎湃新闻路由读取了新闻正文没出现的元素和多余元素 #21681

@HamadaMasatoshi

Description

@HamadaMasatoshi

路由地址

/thepaper/featured
/thepaper/sidebar/:sec?

完整路由地址

/thepaper/featured
/thepaper/sidebar/editorHandpicked

相关文档

https://docs.rsshub.app/zh/routes/thepaper

预期是什么?

移除新闻正文没出现的元素和不必要的元素,减少服务器资源消耗,提升路由可读性和不同阅读器的兼容性

实际发生了什么?

查看输出的订阅源代码,发现读取了新闻正文不存在的图片,查看图片文件后做对比,应该是读取了新闻列表页面在手机版网页和电脑版网页显示的缩略预览图

Image Image

多数阅读器把这些图片忽略了,但也有个别阅读器尝试显示,但出错,例如 Inoreader

Image

另外,几乎每篇文章的附件都有 mp3 文件,这是澎湃电脑版网页提供的“听全文”功能,手机版网页没有。

Image

而且实际都是 AI 读的,意义不大,正常人不会去听,真正的视障者通常也是用浏览器、阅读器和操作系统本身的屏幕阅读功能。读取这个元素,反而会让阅读器把订阅源当作播客来处理。

Image

部署

自建

部署相关信息

No response

额外信息

这不是重复的 issue

  • 我已经搜索了 现有 issue,以确保该错误尚未被报告。

Metadata

Metadata

Assignees

No one assigned

    Labels

    RSS bugSomething isn't working

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions