Archive for python

1 、Apache安装配置 下载http://httpd.apache.org/download.cgi 一路next  我是直接用的wamp的 2、Python安装 直接过了 3、Django安装 下载:https://www.djangoproject.com/download/ 在解压出的目录下执行: python setup.py install ,django就自动安装到了C:\Python25\Lib\site-packages 这个目录下了。 Python25/script/目录下有<strong>Django</strong>-admin.py  在该目录 下执行命令:<strong>Django</strong>-admin.py startproject testbb 创建一个工程 看到Python25/script/下多一个testbb目录,里面有文件。 testbb目录下执行manage.py runserver,打开浏览器:http://127.0.0.1:8000/ 可以看到内容,哈哈。

Continue

在网上一搜解决了,抄下解决方法: 前提安装python和相应的Wxpython版本,我安装的是 python:Python 2.5.4 on win32 Wxpython:wxPython2.9-win32-2.9.1.1-py25.exe <pre lang="python"> >>> import wx Traceback (most recent call last): File "<pyshell#0>", line 1, in <module> import wx ImportError: No module named wx >>> import wxversion >>> wxversion.select('2.9') >>> import wx >>> </pre> 选择相应版本就行了。

Continue

今天用到Simplejson,提示"ImportError: No module named Simplejson"。 网上看到集中安装方法,选择其中一种开工了。 windows xp环境下,总共3个步骤: 1。 下载 http://pypi.python.org/pypi/simplejson/ 2。解压 例如:下面例子解压到:D:/simplejson 3。安装 如下内容为Simplejson安装过程… D:/simplejson>python setup.py install OVER 开始提示”Python不是内部或外部命令命令“ 添加环境变量就行了。添加到path。

Continue

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首 先,我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块,然后,我们论述如何使用Python模块来迅速解析在HTML文 件中的数据,从而处理特定的内容,如链接、图像和Cookie等。最后,我们会给出一个规整HTML文件的格式标签的例子,通过这个例子您会发现使用 python处理HTML文件的内容是非常简单的一件事情。 <h3><strong>一、解析URL</strong></h3> 通过Python所带的urlparse模块,我们能够轻松地把URL分解成元件,之后,还能将这些元件重新组装成一个URL。当我们处理HTML 文档的时候,这项功能是非常方便的。 <div> <pre>  import urlparse   parsedTuple = urlparse.u

Continue

对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中,我们介绍了一个可以帮助简化打开 位于本地和Web上的HTML文档的Python模块。在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的 内容,如链接、图像和Cookie等。同时还会介绍如何规范HTML文件的格式标签。 <strong>一、从HTML文档中提取链接</strong> Python语言还有一个非常有用的模块HTMLParser,该模块使我们能够根据HTML文档中的标签来简洁、高效地解析HTML文档。所以,在处理HTML文档的时候,HTMLParser是最常用的模块之一。 <div> <div>import HTMLParser import urllib class parseLinks(HTMLParser.HTMLParser): def handle_s

Continue

简单的抓取网页: <div> <pre>import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象 page=response.read()</pre> </div> 直接将URL保存为本地文件: &nbsp; <div> <pre>import urllib.request url="http://www.xxxx.com/1.jpg" urllib.request.urlretrieve(url,r"d:\temp\1.jpg")</pre> </div> &nbsp; POST方式: &nbsp; <div> <pre>import urllib.parse import urllib.request url="http://liuxin-blog.appspot.com/messageboard/add" values={"content":"命令行发出网页请求测

Continue

<pre lang="python">#-*-coding:utf-8-*- import urllib2, urllib, cookielib import re import getpass import sqlite3 import random import time class Discuz: def __init__(self,user,pwd,args): self.username = user self.password = pwd self.args = args self.regex = { 'loginreg':'', 'replyreg':'', 'tidreg': '[\s\S]+?' } self.conn = None self.cur = None self.islogin = False

Continue

对于大部分论坛,我们想要抓取其中的帖子分析,首先需要登录,否则无法查看。 这是因为 HTTP 协议是一个无状态(Stateless)的协议,服务器如何知道当前请求连接的用户是否已经登录了呢?有两种方式: 在URI 中显式地使用 Session ID; 利用 Cookie,大概过程是登录一个网站后会在本地保留一个 Cookie,当继续浏览这个网站的时候,浏览器会把 Cookie 连同地址请求一起发送过去。 Python 提供了相当丰富的模块,所以对于这种网络操作只要几句话就可以完成。我以登录 QZZN 论坛为例,事实上下面的程序几乎所有的 PHPWind 类型的论坛都是适用的。 <pre lang="python"># -*- coding: GB2312 -*- from urllib import urlencode import cookielib, urllib2 # cookie cj = cookielib.LWPCookieJar() opener = urllib2.build_opener(urllib2.HTTPCookiePr

Continue

<pre lang="python"> # -*- coding: utf-8 -*- import re import urllib import urllib2 import cookielib #获取CSDN博客标题和正文 url = "http://blog.csdn.net/[username]/archive/2010/07/05/5712850.aspx" sock = urllib.urlopen(url) html = sock.read() sock.close() content = re.findall('(?<=blogstory">).*(?=<p class="right artical)', html, re.S) content = re.findall('<script.*>.*</script>(.*)', content[0], re.S) title = re.findall('(?<=<title>)(.*)-.* - CSDN.*(?=

Continue

&nbsp; 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。 - 这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不用重复劳动了。 <strong>1.最基本的抓站</strong> <pre lang="python">import urllib2 content = urllib2.urlopen(‘http://XXXX’).read()</pre> <strong>2.使用代理服务器</strong> 这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。 <pre lang="python">import urllib2 proxy_support = urllib2.ProxyHa

Continue