博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据存储 csv
阅读量:4983 次
发布时间:2019-06-12

本文共 2377 字,大约阅读时间需要 7 分钟。

#

# 保存csv格式的数据 import csvcsvFile = open('test.csv','w+',newline='')  #文本方式可读写try:    writer = csv.writer(csvFile)    writer.writerow(('num','num+2','num*2'))    for i in range(10):        writer.writerow((i,i+2,i*2))finally:    csvFile.close()

#

# mysql python操作import pymysql  #导包conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', password=None, db='mysql',chaset='utf8') #创建连接cur = conn.cursor() #创建游标cur.execute("USE scraping") #执行 使用库cur.execute("SELECT * FROM pages WHERE id=1") #执行语句print(cur.fetchone())  #获取单条数据cur.close()  #游标关闭conn.close() #连接关闭

#

str = bytes(value=b'', encoding=None)  #指定编码
from urllib.request import urlopenfrom io import StringIO  #字符串的缓存import csvdata = urlopen("http://pythonscraping.com/files/MontyPythonAlbums.csv").read().decode('ascii', 'ignore')dataFile = StringIO(data)csvReader = csv.reader(dataFile)for row in csvReader:    print("The album \""+row[0]+"\" was released in "+str(row[1]))
#pdfminer3kfrom pdfminer.pdfinterp import PDFResourceManager, process_pdffrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom io import StringIOfrom io import openfrom urllib.request import urlopendef readPDF(pdfFile):    rsrcmgr = PDFResourceManager()    retstr = StringIO()    laparams = LAParams()    device = TextConverter(rsrcmgr, retstr, laparams=laparams)    process_pdf(rsrcmgr, device, pdfFile)    device.close()    content = retstr.getvalue()    retstr.close()    return contentpdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")outputString = readPDF(pdfFile)print(outputString)pdfFile.close()

 

from zipfile import ZipFile  #docxfrom urllib.request import urlopenfrom io import BytesIOfrom bs4 import BeautifulSoupwordFile = urlopen("http://pythonscraping.com/pages/AWordDocument.docx").read()wordFile = BytesIO(wordFile)document = ZipFile(wordFile)xml_content = document.read('word/document.xml')wordObj = BeautifulSoup(xml_content.decode('utf-8'), "lxml-xml")textStrings = wordObj.findAll("w:t")for textElem in textStrings:    closeTag = ""    try:        style = textElem.parent.previousSibling.find("w:pStyle")        if style is not None and style["w:val"] == "Title":            print("

") closeTag = "

" except AttributeError: #不打印标签 pass print(textElem.text) print(closeTag)

 

转载于:https://www.cnblogs.com/zhangchen-sx/p/11160882.html

你可能感兴趣的文章
json数组转数组对象
查看>>
KMP算法详解 转帖
查看>>
Struts2+Hibernate+Spring+Webservice 项目从Tomcat到WebLogic遇到问题的解决方法
查看>>
C# 代理/委托 Delegate
查看>>
笨方法学python--参数,解包,变量
查看>>
android 加载本地图片与网络图片
查看>>
易经读书笔记17 泽雷随
查看>>
oracle正则表达式函数 匹配
查看>>
jmeter --自动化badboy脚本开发技术
查看>>
Linux驱动:LCD驱动测试
查看>>
Mark Down 尝试
查看>>
第三节:使用Log4net和过滤器记录异常信息,返回异常给前端
查看>>
fedora的选择
查看>>
AlphaPose论文笔记《RMPE: Regional Multi-person Pose Estimation》
查看>>
模糊查询和聚合函数
查看>>
[批处理]批量将文件名更名为其上级目录名
查看>>
如何查找ORACLE中的跟踪文件
查看>>
SQL Server将一列的多行内容拼接成一行
查看>>
Spring Controller RequestMapping
查看>>
socket
查看>>