南开24秋学期(高起本:1809-2103、专升本高起专:2103)《网络爬虫与信息提取》在线作业(标准答案)
一、单选题 (共 20 道试题,共 40 分)
1.Python中若定义object=(1, 2, 3, 4, 5),则print(object[1:3])输出( * )
A.12
B.123
C.23
D.234
2.如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个( * )
A.列表
B.元组
C.字典
D.集合
3.Redis中如果不删除列表中的数据,又要把数据读出来,就需要使用关键字( * )
A.range
B.lrange
C.srange
D.pop
4.使用UI Automator打开微信的操作是获取相应图标后使用命令( * )
A.touch
B.click
C.push
D.hover
5.Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( * )
A.列表
B.元组
C.字典
D.集合
6.使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( * )
A.swipe
B.move
C.scroll
D.fly
7.MongoDB中数据存储的形式类似于( * )
A.列表
B.元组
C.字典
D.集合
8.通常使用( * )工具来模拟浏览器进行爬虫请求
A.Selenium
B.Chrome
C.ChromeDriver
D.WebDriver
9.下列哪项不是HTTP的请求类型( * )
A.GET
B.POST
C.PUT
D.SET
10.Redis中写数据到列表中,使用关键字( * )
A.push
B.append
C.lpush
D.lappend
11.Redis中读取数据语句lrange chapter 0 3,那么表示读列表中( * )个值
A.2
B.3
C.4
D.5
12.查看网站请求一般在Chrome开发者模式下的( * )选项卡中查看
A.Console
B.Sources
C.Network
D.Performance
13.在Python中,为了使用XPath,需要安装一个第三方库( * )
A.lxml
B.xml
C.xpath
D.path
14.Python中Object=(1, 2, 3, 4, 5),则Objcet是( * )
A.列表
B.元组
C.字典
D.集合
15.使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令( * )
A.wakeup
B.light
C.bright
D.sleep
16.当爬虫运行到yield scrapy.Request( * )或者yield item的时候,下列哪个爬虫中间件的方法被调用?
A.process_spider_output( * )
B.process_spider_exception( * )
C.process_spider_input( * )
D.process_start_ requests( * )
17.HTTP状态码401表示
A.请求报文中可能存在语法错误
B.请求需要通过HTTP认证
C.请求资源的访问被拒绝
D.服务器上没有请求的资源
18.windows中创建定时任务的命令为
A.task
B.schtasks
C.createtasks
D.maketasks
19.Python中若定义object=[1, 2, 3, 4, 5],则print(object[-4])输出( * )
A.NULL
B.2
C.4
D.程序报错
20.在Scrapy的目录下,哪个文件负责存放爬虫文件?( * )
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
二、多选题 (共 10 道试题,共 20 分)
21.在配置ios使用Charles的操作中,正确的有( * )
A.对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上。
B.选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888
C.输入完成代理以后按下苹果设备的Home键,设置就会自动保存。
D.安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任
22.一个可行的自动更换代理的爬虫系统,应该下列哪些功能?
A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中
B.在发现某个请求已经被设置过代理后,什么也不做,直接返回
C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用
D.周期性验证数据库中的无效代理,及时将其删除
23.HTTP常用状态码表明表明客户端是发生错误的原因所在的有( * )
A.403
B.404
C.500
D.503
24.cookies的缺点是
A.实现自动登录
B.跟踪用户状态
C.http中明文传输
D.增加http请求的流量
25.requests中post请求方法的第二个参数可以为( * )
A.字典
B.列表
C.json数据
D.字符串
26.Python中( * )容器有推导式
A.列表
B.元组
C.字典
D.集合
27.以下HTTP状态码表示服务器没有正常返回结果的是
A.200
B.301
C.404
D.500
28.如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( * )
A.非法侵入计算机系统罪
B.非法获取计算机信息系统数据罪
C.非法获取计算机数据罪
D.非法获取系统罪
29.Python中通过Key来从字典object中读取对应的Value的方法有( * )
A.object[key]
B.object.get(key)
C.object.pop(key)
D.object.pop( * )
30.Python中一个函数可以有( * )个return语句
A.0
B.1
C.多个
D.2
三、判断题 (共 20 道试题,共 40 分)
31.Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open('文件路径', '文件操作方式', encoding='utf-8') as f
32.使用异步加载技术的网站,被加载的内容可以在源代码中找到
33.cookies在http请求中是明文传输的。
34.上课传纸条中,传递纸条的人就可以发起中间人攻击。
35.如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司,从而获得销售收入。这是合法的。
36.在有spiders何setting.py这两项的情况下,可以写出爬虫并且保存数据,items.py和pipelines.py文件是原作者的失误而导致的冗余文件。
37.当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入"163.com"就可以了
38.当使用Charles监控iOS设备或者Android设备的数据包以后,打开微信小程序,小程序的数据包不能自动被Charles抓住,需要另作处理。
39.HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源
40.通用网络爬虫通常采用串行工作方式
41.为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。
42.中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术
43.Scrapy的工程名字不能使用"scrapy",否则爬虫会无法运行。除此以外工程名不受限制。
44.通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配
45.Python中写CSV文件的writerows方法参数为字典类型
46.中间人攻击也是抓包的一种。
47.验证码必须通过手动填充识别。
48.XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。
49.Linux环境中,Virtualenv创建的虚拟Python环境中,执行pip命令安装第三方库就不需要使用sudo命令了。
50.使用AJAX技术,可以在不刷新网页的情况下更新网页数据