当前短讯！基于爬虫框架scrapy的bili爬虫_太平洋投资网

【资料图】

# 蜘蛛程序import scrapyfrom scrapy import Selectorfrom ..items import GetItem # 导入class BiliSpider(scrapy.Spider): name = 'bili' allowed_domains = ['bilibili.com'] start_urls = ['https://www.bilibili.com/'] # 爬取的页面 def parse(self, response): sel = Selector(response) list_items = sel.xpath('/html/body/div[2]/div[2]/main/div[2]/div/div[1]/div') for list_item in list_items: spider_item = GetItem() spider_item['title'] = list_item.css('h3::attr(title)').extract() # 标题 spider_item['author'] = list_item.css('span.bili-video-card__info--author::text').extract() # 作者 spider_item['time'] = list_item.css('span.bili-video-card__info--date::text').extract() # 时间 spider_item['link'] = list_item.css('h3 > a::attr(href)').extract() # 链接 yield spider_item

# items文件

# Define here the models for your scraped items## See documentation in:# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass GetItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title = scrapy.Field() author = scrapy.Field() time = scrapy.Field() link = scrapy.Field()

# 配置

在setting文件中打开cookies，添加请求头

# 命令行启动，保存为csv文件

scrapy crawl bili -o bili.csv

推荐内容

当前短讯！基于爬虫框架scrapy的bili爬虫

2023-03-17
美研究人员发现厌氧真菌可降解木质素|新动态

2023-03-17
焦点速递！2023珠海长隆企鹅馆暂停营运公告

2023-03-17
前沿资讯!神州高铁：3月16日融资买入822.67万元，融资融券余额2.5亿元

2023-03-17
恒指夜期收盘(3.17)︱恒生指数夜期(3月)收报19374点高水170点

2023-03-17
淮阴区为企业稳健运营保驾护航

2023-03-17
河北乐亭：发展设施农业助力乡村振兴

2023-03-16
西部牧业：公司下属天山云牧乳业积极拓展疆外市场，开发经销商，该合同系乳制品经销合同|环球微速讯

2023-03-16
太原公租房外地户口可以申请吗？

2023-03-16
莱茵生物：公司桂林综合提取生产基地通过智能终端控制系统已基本实现全自动化

2023-03-16
步步高Y15s（步步高y19t）

2023-03-16
萨里：不知道什么是正确选择，踢完欧联杯米林还得前往国家队

2023-03-16
最新：开建文旅产业项目逾10个鹿城泰顺山海协作显成效

2023-03-16
建议两会解决人民头上的三座大山

2023-03-16
速看：[ES三周年]如何使用SpringBoot 整合ES

2023-03-16
【环球新要闻】脸大的女生适合什么短发_脸大的女生适合什么发型

2023-03-15
全球新消息丨吉林省体育局将全面扶持大众卓越女足“发展建设”

2023-03-15
世界热点评！拉锁拉不上去（拉锁拉不上怎么办）

2023-03-15
武陟首个非遗文创产品学院成立

2023-03-15
两月内接连确诊轻症，大童好赔通过专业理赔服务协助客户快速理赔|全球滚动

2023-03-15
全球消息！建设高标准农田、铺设智能滴灌系统……各地春耕备耕有序推进

2023-03-15
叮！您有一份消费提示，请查收｜3·15 国际消费者权益日

2023-03-15
渤海银行（09668.HK）：3月14日南向资金增持8.65万股

2023-03-15
环球热资讯！生命诚可贵，酗酒不可取，喝酒的误区有哪些？

2023-03-15
垫江新型冠状病毒肺炎疫情:3月14日垫江疫情最新消息今天数据统计情况通报

2023-03-14
继续引援！南通支云官方：新疆队中场佧米然-哈力穆拉提加盟

2023-03-14
篮彩大势：掘金主客场差距悬殊利拉德出战存疑

2023-03-14
春的课文朗读（春的课文）-世界播资讯

2023-03-14
每日热讯!贤惠是什么意思求解释_贤惠是什么意思

2023-03-14
哥伦比亚政府宣布启动与前“哥武”剩余分支成员的和谈

2023-03-14
罗泽：哈兰德丰富了曼城的进攻手段瓜帅是世界最佳教练之一-当前看点

2023-03-14
中超遭重创！三镇泰山的头号克星，竟无人问津，远走劲敌不妥协！-世界速读

2023-03-14
【新要闻】131452网址导航hubeiweishi_131452网址导航

2023-03-13
全球滚动:A50ETF: 华夏基金管理有限公司关于华夏MSCI中国A50互联互通交易型开放式指数证券投资基金流动性服务商的公告

2023-03-13
欧陆通（300870）3月13日主力资金净卖出2634.48万元世界快播报

2023-03-13
前沿热点：1872.4万人次！长三角铁路3月来客发量超2019年同期

2023-03-13
玩转绿色消费！多家银行推出这类信用卡消费可兑多种权益-世界新视野

2023-03-13
热文：券商观点|电力设备与新能源行业周观察：中汽协公布2月新能源汽车产销，辽西首个海风漂浮式测风塔完成施工安装

2023-03-13
电动机工作制有几种（工作制有哪些）|世界视讯

2023-03-13
观速讯丨韩媒批林孝埈拒绝采访:无视规定夺银牌也保持沉默

2023-03-12
焦点速递！甩脂机的危害和好处_甩脂机

2023-03-12
AC米兰小将卡卢卢将被法国队征召，马尔蒂尼和伊布... 今日精选

2023-03-12
【环球聚看点】姨字的拼音怎么读_姨字的拼音怎么写的

2023-03-12
全国人大代表罗振华：加快若尔盖国家公园周边地区交通基础设施建设天天微动态

2023-03-12
abac的四字词语有哪些二年级_abac的四字词语

2023-03-12
长盛中证金融地产指数基金(LOF)连续50个工作日基金资产净值低于5000万元

2023-03-11
焦点速讯：联合国特别报告员：加拿大原住民寄宿学校历史令人震惊

2023-03-11
全球视讯！喷水马里奥手机版_喷水马里奥

2023-03-11
盐城新闻网_全球时讯

2023-03-11
科力昂喷剂_科力昂_报道

2023-03-11