vps交流

爬虫大佬们 帮我看看这个到底哪里没搞对


本帖最后由 花菜大魔王 于 2024-7-18 22:56 编辑

目的是根据电影名字爬取豆瓣ID  保存格式为文件夹名字  一个电影生产一个文件夹《电影名字,豆瓣ID》  
搞了好久都获取不到ID
下面还有一段 一起发说安全问题 发不出来…

  1. import requests
  2. from bs4 import BeautifulSoup
  3. import os
  4. import re
  5. import time
  6. # 搜索链接
  7. search_url = "https://search.douban.com/movie/subject_search?search_text={}&cat=1002"
  8. movies = [
  9.     "毒舌律师",
  10.     "满江红",
  11.     "倒数说爱你",
  12.     "别叫我“赌神”",
  13.     "银河护卫队3",
  14.     "温柔壳",
  15.     "盟约",
  16.     "检察风云",
  17.     "消失的她",
  18.     "蚁人与黄蜂女:量子狂潮",
  19.     "惊声尖叫6",
  20.     "荒原",
  21.     "无名",
  22.     "望道",
  23.     "龙与地下城:侠盗荣耀",
  24.     "小行星城",
  25.     "交涉",
  26.     "疾速追杀4",
  27.     "茶啊二中",
  28.     "中国乒乓之绝地反击",
  29.     "再见,我的灵魂伴侣",
  30.     "这么多年",
  31.     "星条红与皇室蓝",
  32.     "网络谜踪2",
  33.     "蜘蛛侠:纵横宇宙",
  34.     "变形金刚:超能勇士崛起",
  35.     "小美人鱼",
  36.     "我爱你!",
  37.     "长沙夜生活",
  38.     "人生路不熟"
  39. ]

复制代码

爬虫大佬们 帮我看看这个到底哪里没搞对

无语   后面一段发不出来  就图片了
代码交给gpt分分钟给你搞明白

Far 发表于 2024-7-18 23:01
代码交给gpt分分钟给你搞明白

就是gpt写的

数据在 window.__DATA__

wusir 发表于 2024-7-18 23:13
数据在 window.__DATA__

但是没获取到豆瓣ID

花菜大魔王 发表于 2024-7-18 23:18
但是没获取到豆瓣ID

  1. pattern = re.compile(r’https://movie.douban.com/subject/(d+)/’)
  2. douban_id = pattern.findall(response.text)


复制代码

注意我用 findall 返回的是一个 list 哦

2569138941 发表于 2024-7-18 23:36
注意我用 findall 返回的是一个 list 哦

老哥能给个全部的吗   搞一晚上没搞好  

花菜大魔王 发表于 2024-7-18 23:58
老哥能给个全部的吗   搞一晚上没搞好

就去soup直接正则匹配就好
https://paste.ubuntu.com/p/v7pFZsbs9m/