这段时间在学习python,网上有篇博文建议初学者学python一段时间之后,就去找一个叫《python challenge》的练习来做。
这个练习还真挺有趣的,而且能学习到很多东西。
除了第0题,从第1题开始就要用正则表达式,而正则表达式就是我得软肋。
好了,再说说这个第4题。
地址是:http://www.pythonchallenge.com/pc/def/linkedlist.php
经过2、3题,自然而然就去翻源码看看有什么东西没,结果空白一片。但是在源码里发现图片带了链接,点进去之后是一句话"and the next nothing is 44827",而地址是http://www.pythonchallenge.com/pc/def/linkedlist.php?nothing=12345
,不用说肯定是代数字进去了。估计后面是好多个同样的东西让你带,我手动试了下,果然。
这种麻烦的事情当然是让计算机来做。要实现这个东西其实很简单,主要部分就是那段正则表达式了。而事实证明,写好表达式。走遍天下那啥~
1、用urllib.request
的urlopen
模块来获取页面内容。我学的是python3,python2用urllib2
2、看上去每个页面只有一句话,而一句话中只有一串数字。
3、先动手试试。
from urllib import request
import re
nothing = "12345"
i = 1
while True:
req = request.urlopen("http://www.pythonchallenge.com/pc/def/linkedlist.php?nothing=%s"%nothing)
html = req.read().decode()
req.close()
# nothing = 正则表达式
if not nothing.isdigit():
break
print(nothing, "\t----%d"%i)
i+=1
我首先想到的是,取字符串的后5位就完事了。
nothing = html[-5:]
没到一阵子就出现4位数的,nothing含有非数字字符。程序中断。
用万能的正则表达式。
re.findall('[0-9]', html)
返回的是一个list,所以得合并一下,''.join(re.findall('[0-9]', html))
就行了~
好了,把框框写好了运行就是~让程序慢慢跑,喝杯水~
在运行到85次的时候,页面的内容是"Yes. Divide by two and keep going.",除以2再跑就是
在运行到139次的时候,又来一个干扰"There maybe misleading numbers in the text. One example is 82683. Look only for the next nothing and the next nothing is 63579",表达式又失效了,
由于是[0-9]
,所以检索到的数字是8268363579
。期间我聊QQ去了,程序已经跑到500多了,显然,作者故意设置的干扰,不能指望出结果了。
再改,''.join(re.findall('nothing is (\d+)', html))
,运行。第249次的时候,再次中断,不过这次是出来结果了peak.html
。
最后把程序修改修改。
from urllib import request
import re nothing = "12345"
i = 1
while True:
req = request.urlopen("http://www.pythonchallenge.com/pc/def/linkedlist.php?nothing=%s"%nothing)
html = req.read().decode()
req.close()
nothing = ''.join(re.findall('nothing is (\d+)', html))
if not nothing.isdigit():
nothing = input(html, "input the result :")
continue
print(nothing, "\t----%d"%i)
i+=1