Archive for python

python进程注入，查看gc状态

Python | 2015-12-01 21:44:34 | 0 COMMENT

java有一个jstat 可以查看gc的情况等数据。可以看一下如何注入python进程获取gc每一代的次数。主要使用gdb 首先ps找一个python进程的pid。 ps aux| grep python 1264 然后执行 gdb -p 1264 -batch -eval-command='call PyGILState_Ensure()' -eval-command='call PyRun_SimpleString("exec(\"import gc\\nprint(gc.get_count())\")")' -eval-command='call PyGILState_Release($1)' 你会发现 1264启动日志输出一个元祖(492, 8, 0)，分别代表每一代gc的次数。同样也可以进行手动gc，或者查看线程数等操作。或者执行任意代码。

DHT爬虫站-芭蕉细雨

Python | 2015-04-29 13:29:52 | 0 COMMENT

资源多一点了，现在不到150万。种子搜索的速度不是太快，这一版和我之前用python写的不一样，之前用python写的再没做优化，内存占用还是高，不过速度快一点。芭蕉细雨使用sphinx做分词搜索种子信息，数据库使用postgresql，使用了redis。开始的时候使用postgresql自带的搜索进行搜索，速度已经非常好了，不过还是慢，换成专业搞搜索的就快了好多。开始长的要一两秒，到后来资源多了，需要十秒，我就从逻辑上进行优化，从开始就没有使用offset，我用id进行查询的分割，这种对于资源多的种子检索很好用，但是对于资源少的还是没办法。换成sphinx，postgresql不需要单独使用一个表存储搜索字段，硬盘占用会少一点。python程序也不需要分词包，一下子占用内存少了很多。sphinx资源占用也少，并且速度就需要几十毫秒。

python contextlib

Python | 2015-01-31 21:54:10 | 0 COMMENT

看这个模块要先看with as的用法，最常用的方法就是打开一个文件： with open("filename") as f: f.read() with可以调用一个上下文管理器,产生运行时的上下文环境。上下文管理器主要定义两个方法，__enter__，__exit__。__enter__返回上下文里操作的对象，如f。__exit__是销毁对象和异常处理。 contextlib模块对外有三个接口， contextmanager装饰器，装饰的函数必须是一个生成器。然后返回一个函数，在函数调用的时候返回一个上下文管理器。 nested为了一次调用多个上下文管理器的时候用，将所有上下文管理器里的__enter__放到vars里，一次yield返回，然后unpack。就产生多个对象了。__exit__都放到exits列表里，在finally里统一调用，这些__exit__在调用上下文管理器产生异常时，如何处理。如果返回false,将会把异常继续抛出，返回true则不会抛出异常。 closing，这个用过，没想到的是竟然是个类，而不是个函数。就是把有close方法却没有__exit__方法的对象变成一个上下文管理器。代码很简单：

class closing(object):
    def __init__(self, thing):
        self.thing = thing
    def __enter__(self):
        return self.thing
    def __exit__(self, *exc_info):
        self.thing.close()

python的slots

Python | 2015-01-05 11:42:41 | 0 COMMENT

看python社区大妈组织的内容里边有一篇讲python内存优化的，用到了__slots__。然后查了一下，总结一下。感觉非常有用 python类在进行实例化的时候，会有一个__dict__属性，里边有可用的实例属性名和值。声明__slots__后，实例就只会含有__slots__里有的属性名。

# coding: utf-8


class A(object):
    x = 1

    def __init__(self):
        self.y = 2

a = A()
print a.__dict__
print(a.x, a.y)
a.x = 10
a.y = 10
print(a.x, a.y)


class B(object):
    __slots__ = ('x', 'y')
    x = 1
    z = 2

    def __init__(self):
        self.y = 3
        # self.m = 5  # 这个是不成功的


b = B()
# print(b.__dict__)
print(b.x, b.z, b.y)
# b.x = 10
# b.z = 10
b.y = 10
print(b.y)


class C(object):
    __slots__ = ('x', 'z')
    x = 1

    def __setattr__(self, name, val):
        if name in C.__slots__:
            object.__setattr__(self, name, val)

    def __getattr__(self, name):
        return "Value of %s" % name


c = C()
print(c.__dict__)
print(c.x)
print(c.y)
# c.x = 10
c.z = 10
c.y = 10
print(c.z, c.y)
c.z = 100
print(c.z)

{'y': 2}
(1, 2)
(10, 10)
(1, 2, 3)
10
Value of __dict__
1
Value of y
(10, 'Value of y')
100

服务器ssh密码验证错误次数太多进行iptables屏蔽

Linux Python | 2014-12-02 18:55:04 | 1 COMMENT

额早就想写这么个脚本了。这次有点时间写了一下，借助shell下的工具和python还是可以很快写好。发现总有人爆破我ssh密码，我修改了端口还是跑。是盯上了还是怎么。如果关闭密码登录会好，但是每次换电脑就要添加公key，感觉还是密码方便一点。

# coding: utf-8
import os
import time


def lo():
    ban_ip_list = []

    output = os.popen("""grep "Failed password for root" /var/log/auth.log | awk {'print $11'} | uniq -c | sort -rn""")
    for l in output.readlines():
        count, ip = l.split()
        if int(count) > 5 and ip not in ban_ip_list:
            ban_ip_list.append(ip)
    print ban_ip_list

    iptables_ban_ip_list = []
    output = os.popen("""iptables -L -n|grep "DROP" | awk {'print $4'} """)
    for l in output.readlines():
        iptables_ban_ip_list.append(l.split()[0])

    print iptables_ban_ip_list
    iplist = list(set(ban_ip_list) - set(iptables_ban_ip_list))
    print iplist
    for ip in iplist:
        os.popen("""iptables -I INPUT -s {} -j DROP """.format(ip))


#iptables -L -n --line-numbers
#iptables -D INPUT 8


while 1:
    lo()
    time.sleep(1)
    break

代码还可以改进，比如后边set了前边就不用判断ip在不在列表里了。我是用服务器上另一个脚本用vim复制后按思路写的。功能跑通就不想改了。加入crontab搞定。以后有时间改成只屏蔽10分钟，这样实用性就强一点了。想法就是要记录下错误时间，错误时间加十分钟就是解禁时间。

pyrasite项目总结为一条命令

系统 Python | 2014-08-12 15:09:15 | 0 COMMENT

今天领导推荐这个项目，中午看了一下，核心就是一个函数一条命令。最后精简为 gdb -p 9252 -batch -eval-command='call PyGILState_Ensure()' -eval-command='call PyRun_SimpleString("exec(open(\"/home/a0x55aa/code/toto/hello.py\").read())")' -eval-command='call PyGILState_Release($1)' 如果提示“ptrace: 不允许的操作.”执行命令：echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope就好了。用到gdb和python gil相关知识，不怎么懂，感觉就是与正在运行的进程争抢python虚拟机，执行完文件里的代码，over。正好在grep ps命令的时候，看到执行python manager.py runserver 的进程有两个（为啥两个读源码里读到）。然后我查了一下ps命令的stat字段都是什么意思。 D 不能中断的进程（通常为IO） R 正在运行中的进程 S 已经中断的进程，通常情况下，系统中大部分进程都是这个状态 T 已经停止或者暂停的进程，如果我们正在运行一个命令，比如说sleep 10，如果我们按一下ctrl -z 让他暂停，那么我们用ps查看就会显示T这个状态 W 这个好像是说，从内核2.6xx 以后，表示为没有足够的内存页分配 X 已经死掉的进程（这个好像从来不会出现） Z 僵尸进程，杀不掉，打不死的垃圾进程，占系统一小点资源，不过没有关系。如果太多，就有问题了。一般不会出现。下面一些是BSD风格的参数 < 高优先级进程 N 低优先级进程 L 在内存中被锁了内存分页 s 主进程 l 多线程进程 + 代表在前台运行的进程以前也没用gdb调试过python程序，要学习一下。

whitespace的python实现

编程 Python | 2014-07-22 21:23:03 | 2 COMMENT

汗，简直是无奇不有，在lisp群里看到他们说这个语言。当时就感觉很有意思，然后搜索看了一下wiki和官网。当时只是看了wiki的表格，那些文字没看。就感觉和草泥马语言一个东西，挺简单的，于是想自己实现一个python版的。然后没几天就写完了。主要借助wiki的中文介绍，官方的例子程序和下载的haskell源代码。haskell以前没看过，然后发现看代码一点不费劲。在lisp群里说，妮神说他和erlang差不多，我才意识到可能是以前看过erlang的原因。parser是编写边测试正确的，vm是一口气写完再测的，然后就不想测了，但是开始官方的例子有的跑不通，没办法，就一个指令一个指令的写功能测试到基本正确。然后能跑通官方例子，大部分指令都测过基本功能，除了流程的没写。说说这个语言，只有三个字符：空格，tab，换行。写完就是一片空白，说是有助于防止别人将代码打印带走。我去真蛋疼。让我写我会用“\n\t”代替，用代码再生成，不会用真的空白，那样怎么看。编辑器还好，可以将空格和tab的背景颜色修改一下，换行就是最后的换行。github上就是整个一片白。说这个和草泥马语言差不多，其实我把三个字符换成草泥马三个字，也就真的差不多了。是换行符的坏处就是，可能一行不是一个完整的语句，下一行又是两个语句。下意识的总喜欢把一行想成一个基本完整意思的代码。所以这个换行符很带疼，其实可能也是指令设计的不好。项目地址：python-whitespace

pygments 首行是空行，自动过滤

Python | 2014-06-12 16:02:20 | 0 COMMENT

搜索找到lexer都有个参数stripnl=False，默认是True。 HtmlFormatter的时候还是不行，哪一个空行还是会过掉。然后我就判断开头是'\n'的时候，在前边加上一个空格，然后格式就对了

linux系统键盘输入-hook?

Linux Python | 2014-05-28 11:33:25 | 0 COMMENT

开始想用python做一个键盘记录的工具，搜索linux keyboard hook，发现找不到东西。后来发现原来linux直接读设备文件就行了，才恍然大悟。 /dev/input/下有十多个event。要找到键盘对应的event，查看grep keyboard /proc/bus/input/devices -A 12。然后找到一点资料，自己写了一段程序：

# coding: utf-8
import os
import struct

fmt = "llHHI"
size = struct.calcsize(fmt)
filename = "/dev/input/event3"

fd = os.open(filename, os.O_RDWR)
while 1:
    op = os.read(fd, size)
    timeval, suseconds, typ, code, value = struct.unpack(fmt, op)
    print typ, code, value

最后又找到两个库，用来读或模拟键盘按键的(或别的设备)。python-evdev和python-uinput。

python源码阅读感想

C语言 Python | 2014-05-23 23:19:29 | 0 COMMENT

啃了python源代码，从python.c开始慢慢看到token获取，学到很多东西，但是我看到python源代码也有很多可以优化的地方。很多参数、变量可以不要的，同样的判断在不同地方使用的不同方法，我靠看的我晕头转向。一到晕头转向的时候，我就重新从有疑问的地方再走一遍，认真看关键代码，然后才能看懂这一部分的功能。语言的基本语法想个差不多了，天马行空了一下，与开始想的差距太大。