无图版
帮助
论坛首页
登录
注册
讨论区
搜索
社区服务
屏蔽配置
刷新黑名单
好奇模式
清空列表
管理列表
■
帖子 |
■
头像
社区论坛任务
用户名
UID
Email
认证码
点此显示验证码
热门版块:
茶馆
询问&求物
免空资源区
同人音声
网赚资源区
游戏资源
Soulplus
Wind
用户中心首页
编辑个人资料
查看个人资料
好友列表
用户权限查看
积分管理
积分转换
特殊组购买
收藏夹
我的主题
基本统计信息
到访IP统计
管理团队
管理统计
在线统计
会员排行
版块排行
帖子排行
个人首页
我的收藏
好友近况
南+ South Plus
茶馆
茶楼
分享可以免费白嫖某个福利网站的方法(更新了爬虫,有兴趣老哥可以尝试爬取资源)
漫区特设
Comic Market 103
Comic Market 102
サンクリ
Comic1☆
其他同人志
一般漫画
例大祭&紅楼夢
汉化本发布
旧物仓库
蜜柑计划
- 蜜柑计划 - Mikan Project
综合交流
ACG交流
轻小说
原创绘画
原创小说区
询问&求物
茶馆
AI交流 (beta)
免空资源区
网赚资源区
人民囧府
事务受理
上一主题
下一主题
新 帖
|
浏览器收藏
|
打印
keoki
作者资料
发送短消息
加为好友
UID:
1156494
精华:
0
发帖:
3258
HP:
0 点
SP币:
904 G
昵称: keoki
在线时间: 623(小时)
注册时间:
2019-06-22
最后登录:
2024-04-21
GF
2020-11-28 16:34
(一些脚本:https://bbs.imoutolove.me/read.php?tid=1353704)
全看
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
分享可以免费白嫖某个福利网站的方法(更新了爬虫,有兴趣老哥可以尝试爬取资源)
更新,爬虫贴出来了,试爬取了前100页列表的1000个资源,结果见帖中附件:
https://south-plus.net/u.php?action-topic-uid-1156494.html
https://www.flhk.xyz/
偶然发现这个福利网站的的资源下载链接存在于HTML源码中,只不过页面没有显示出来:
这里点击CTRL + U打开页面源码,可以看到在<meta>标签里有下载链接和解压密码:
下面这一行:
复制代码
<meta name="description" content="下载地址: https://pan.baidu.com/s/1gmKSva8pgMnwrr6vlD6_gw 提取码:nj26 解压密码:4956(下载完后缀名改成zip)">
这个站的资源还挺多的,如果哪位想的话,写个简单的爬虫就可以把整个站的资源都抓下来,不知道这个漏洞能用多久,毕竟挺低级的,估计站长不太懂技术,一键搭建WordPress网站。
各位抓紧了
更新爬虫,有兴趣老哥可以尝试爬取资源,测试爬取5页所有资源用时14秒。
复制代码
import asyncio
from lxml import etree
# import re
import aiohttp
import time
# import uvloop
import tqdm
base_url = 'https://www.flhk.xyz/page/{}'
# work_lst = []
# asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())
async def get_dir_page(page, session):
try:
async with session.get(url=base_url.format(page)) as resp:
text = await resp.text(encoding='utf-8')
return text
except:
return None
async def get_link_passwd(href, title, session):
async with session.get(href) as resp:
text = await resp.text(encoding='utf-8')
html = etree.HTML(text)
meta_descrp = html.xpath('//meta[@name="description"]/@content')
if meta_descrp:
link_and_passwd = meta_descrp[0]
print('Get link and passwd:\n{} \n {} {}'.format(
link_and_passwd, title, href))
return title, href, link_and_passwd
else:
print('No download link available for {} {}'.format(title, href))
async def Main():
start = time.time()
# global work_lst
async with aiohttp.ClientSession() as session:
tasks = [get_dir_page(page, session) for page in range(1, 5)]
for rslt in tqdm.tqdm(asyncio.as_completed(tasks), total=len(tasks)):
text = await rslt
if text:
html = etree.HTML(text)
ajax_load_divs = html.xpath(
'//div[@class="ajax-load-con content wow fadeInUp"]')
sub_tasks_lst = []
for div in ajax_load_divs:
h2 = div.xpath('.//h2')[0]
href = h2.xpath('./a/@href')[0]
title = h2.xpath('./a/@title')[0]
sub_tasks_lst.append((href, title, session))
sub_tasks = [get_link_passwd(*tp) for tp in sub_tasks_lst]
for f in asyncio.as_completed(sub_tasks):
rslt_tp = await f
if rslt_tp:
with open("link_passwds.txt", "a+",
encoding='utf-8') as file:
file.write(rslt_tp[1] + ": " + rslt_tp[0] + '\n')
file.write(rslt_tp[2] + '\n')
file.write('\n')
end = time.time()
total_secs = end - start
print('total_secs:', total_secs)
return 'done'
loop = asyncio.get_event_loop()
try:
rslt = loop.run_until_complete(Main())
print(rslt)
finally:
loop.close()
结果示意:
最后安利一下 (更新2020/11/28) 自己写的直播录制工具(支持斗鱼,b站, 虎牙), 可抓取显示弹幕
https://south-plus.net/read.php?tid-1017998.html
欢迎各位测试
顶端
回复
引用
分享
asskun
作者资料
发送短消息
加为好友
UID:
1354632
精华:
0
发帖:
2163
HP:
0 点
SP币:
17659 G
昵称: asskun
在线时间: 2358(小时)
注册时间:
2020-11-13
最后登录:
2024-05-15
B1F
2020-11-28 17:30
(00123)
全看
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
好兄弟 真有你的
顶端
回复
引用
分享
asskun
作者资料
发送短消息
加为好友
UID:
1354632
精华:
0
发帖:
2163
HP:
0 点
SP币:
17659 G
昵称: asskun
在线时间: 2358(小时)
注册时间:
2020-11-13
最后登录:
2024-05-15
B2F
2020-11-28 17:34
(00123)
全看
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
这。。。代码怎么用阿
顶端
回复
引用
分享
asskun
作者资料
发送短消息
加为好友
UID:
1354632
精华:
0
发帖:
2163
HP:
0 点
SP币:
17659 G
昵称: asskun
在线时间: 2358(小时)
注册时间:
2020-11-13
最后登录:
2024-05-15
B3F
2020-11-28 17:36
(00123)
全看
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
来个懂的老哥教教我 代码怎么用的 需要登陆账号码》
顶端
回复
引用
分享
asskun
作者资料
发送短消息
加为好友
UID:
1354632
精华:
0
发帖:
2163
HP:
0 点
SP币:
17659 G
昵称: asskun
在线时间: 2358(小时)
注册时间:
2020-11-13
最后登录:
2024-05-15
B4F
2020-11-28 17:39
(00123)
全看
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
回 27楼(李庄白肉) 的帖子
shabi 明明就在第7‘8 条 我居然看不见 搜不到
顶端
回复
引用
分享
asskun
作者资料
发送短消息
加为好友
UID:
1354632
精华:
0
发帖:
2163
HP:
0 点
SP币:
17659 G
昵称: asskun
在线时间: 2358(小时)
注册时间:
2020-11-13
最后登录:
2024-05-15
B5F
2020-11-28 17:54
(00123)
全看
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
希望某些人耗子喂汁
顶端
回复
引用
分享
asskun
作者资料
发送短消息
加为好友
UID:
1354632
精华:
0
发帖:
2163
HP:
0 点
SP币:
17659 G
昵称: asskun
在线时间: 2358(小时)
注册时间:
2020-11-13
最后登录:
2024-05-15
B6F
2020-11-28 18:18
(00123)
全看
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
时间到了 是不是该删掉了 太多了 太多了
顶端
回复
引用
分享
asskun
作者资料
发送短消息
加为好友
UID:
1354632
精华:
0
发帖:
2163
HP:
0 点
SP币:
17659 G
昵称: asskun
在线时间: 2358(小时)
注册时间:
2020-11-13
最后登录:
2024-05-15
B7F
2020-11-28 18:20
(00123)
全看
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
说实话 资源有点差的说
又是水印又是压缩的。00.
顶端
回复
引用
分享
上一主题
下一主题
南+ South Plus
茶楼
[-- 查看移动版 --]