博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据结构化与保存
阅读量:5780 次
发布时间:2019-06-18

本文共 1785 字,大约阅读时间需要 5 分钟。

1.结构化:

  • 单条新闻的详情字典:news
  • 一个列表页所有单条新闻汇总列表:newsls.append(news)
  • 所有列表页的所有新闻汇总列表:newstotal.extend(newsls)

2.转换成pandas的数据结构DataFrame

3.从DataFrame保存到excel

4.从DataFrame保存到sqlite3数据库

import requestsimport reimport pandasfrom bs4 import BeautifulSoupurl = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'res = requests.get(url)res.encoding = 'utf-8'soup = BeautifulSoup(res.text, 'html.parser')def getclick(newurl):    id = re.search('_(.*).html', newurl).group(1).split('/')[1]    clickurl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(id)    click = int(requests.get(clickurl).text.split(".")[-1].lstrip("html('").rstrip("');"))    return clickdef getdetail(listurl):    res = requests.get(listurl)    res.encoding = 'utf-8'    soup = BeautifulSoup(res.text, 'html.parser')    news={}    news['url']=url    news['title']=soup.select('.show-title')[0].text    info = soup.select('.show-info')[0].text    #news['dt']=datetime.strptime(info.lstrip('发布时间')[0:19],'%Y-%m-%d %H:%M:')    #news['source']=re.search('来源:(.*)点击',info).group(1).strip()    news['content']=soup.select('.show-content')[0].text.strip()    news['click']=getclick(listurl)    return (news)def onepage(pageurl):    res = requests.get(pageurl)    res.encoding = 'utf-8'    soup = BeautifulSoup(res.text, 'html.parser')    newsls=[]    for news in soup.select('li'):        if len(news.select('.news-list-title')) > 0:            newsls.append(getdetail(news.select('a')[0]['href']))    return(newsls)newstotal=[]for i in range(2,3):    listurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'    newstotal.extend(onepage(listurl))df =pandas.DataFrame(newstotal)df.to_excel('gzccnews.xlsx')#with aqlite3.connect('gzccnewsdb2.sqlite') as db:#df.to_sql('gzccnewdb2',con=db)

转载于:https://www.cnblogs.com/bb437601841/p/7688611.html

你可能感兴趣的文章
python常用模块
查看>>
主流Java开源商业智能BI框架及其比较
查看>>
MVVM计算器(下)
查看>>
C++中指针和引用的区别
查看>>
簡單分稀 iptables 記錄 udp 微軟 138 端口
查看>>
wiindows 2012R2+11gR2RAC(11204)多节点传送检查报PRVG-11134
查看>>
Java重写equals方法和hashCode方法
查看>>
Spark API编程动手实战-07-join操作深入实战
查看>>
H3C-路由策略
查看>>
centos 修改字符界面分辨率
查看>>
LNMP之Mysql主从复制(四)
查看>>
阅读Spring源代码(1)
查看>>
nagios一键安装脚本,nagios监控被监控主机上的应用服务mysql数据库
查看>>
grep 命令
查看>>
JS二维数组的声明和使用
查看>>
v$archive_gap dg dataguard 断档处理 scn恢复
查看>>
问责IT风险管理:CIO需关注两个重点
查看>>
Winform打包发布图解
查看>>
PDF文件怎么编辑,超简单的方法
查看>>
EasyUI基础入门之Easyloader(载入器)
查看>>