南开19秋学期(1709、1803、1809、1903、1909)《网络爬虫与信息提取》在线作业
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.启动MongoDB使用命令mongod --() usr/local/etc/mongod.conf
A.config
B.install
C.start
D.begin
2.下列哪项不是HTTP的请求类型()
A.GET
B.POST
C.PUT
D.SET
3.以下哪个命令是利用URL语法在命令行下工作的文件传输工具()
A.curl
B.tar -zxvf
C.mkdir
D.cp
4.HTTP常用状态码表明服务器内部资源出故障了的是()
A.500
B.503
C.403
D.404
5.windows中创建定时任务的命令为
A.task
B.schtasks
C.createtasks
D.maketasks
6.Python中若定义object=(1, 2, 3, 4, 5),则print(object[:3])输出()
A.345
B.34
C.45
D.123
7.打开终端,输入(),屏幕上会出现Python的路径
A.python path
B.path python
C.which python
D.python which
8.在Scrapy的目录下,哪个文件负责数据抓取以后的处理工作?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
9.下面Python代码输出为(): def default_para_trap(para=[], value=0): para.append(value) return para print('第一步:{}'.format(default_para_trap(value=100))) print('第二步:{}'.format(default_para_trap(value=50)))
A.第一步:[100] 第二步:[100,50]
B.第一步:[100] 第二步:[50]
C.第一步:[100] 第二步:[]
D.第一步:[100] 第二步:[100]
10.以下哪个HTML标签表示定义 HTML 表格中的标准单元格()
A.
B.
C.
D.
11.使用Xpath构造属性值包含相同字符串的路径采用()方法
A.contain
B.contains
C.include
D.includes
12.以下表示请求正常处理的HTTP状态码为
A.200
B.301
C.404
D.500
13.Scrapy_redis是Scrapy的“()”,它已经封装了使用Scrapy操作Redis的各个方法
A.组件
B.模块
C.控件
D.单元
14.HTTP状态码401表示
A.请求报文中可能存在语法错误
B.请求需要通过HTTP认证
C.请求资源的访问被拒绝
D.服务器上没有请求的资源
15.使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()
A.exist
B.exists
C.isnull
D.contains
16.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个()
A.列表
B.元组
C.字典
D.集合
17.Python中以下哪个容器里的元素不能重复()
A.列表
B.元组
C.字典
D.集合
18.Python正则表达式模块的findall方法返回结果为()
A.列表
B.元组
C.字典
D.集合
19.使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()
A.content
B.text
C.title
D.body
20.以下表示请求资源重定向的HTTP状态码为
A.200
B.301
C.404
D.500
二、多选题 (共 10 道试题,共 20 分)
21.常用的会话跟踪技术是
A.session
B.cookies
C.moonpies
D.localstorage
22.如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司
A.服务器日志
B.数据库日志记录
C.程序日志记录
D.服务器监控
23.PyMongo删除操作有()
A.delete
B.delete_all
C.delete_one
D.delete_many
24.以下哪些方法属于Python写CSV文件的方法()
A.writeheaders
B.writeheader
C.writerrows
D.writerow
25.使用Selennium获取网页中元素的方法有
A.find_element_by_name
B.find_element_by_id
C.find_elements_by_name
D.find_elements_by_id
26.在配置ios使用Charles的操作中,正确的有()
A.对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上。
B.选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888
C.输入完成代理以后按下苹果设备的Home键,设置就会自动保存。
D.安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任
27.cookies的缺点是
A.实现自动登录
B.跟踪用户状态
C.http中明文传输
D.增加http请求的流量
28.Python中()容器有推导式
A.列表
B.元组
C.字典
D.集合
29.一个可行的自动更换代理的爬虫系统,应该下列哪些功能?
A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中
B.在发现某个请求已经被设置过代理后,什么也不做,直接返回
C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用
D.周期性验证数据库中的无效代理,及时将其删除
30.Python中通过Key来从字典object中读取对应的Value的方法有()
A.object[key]
B.object.get(key)
C.object.pop(key)
D.object.pop()
三、判断题 (共 20 道试题,共 40 分)
31.XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。
32.在对XPath返回的对象再次执行XPath的时候,子XPath开头需要添加斜线
33.robots.txt是一种规范,在法律范畴内
34.PyMongoDB中排序方法sort第二个参数1表示降序
35.在使用多线程处理问题时,线程池设置越大越好
36.requests中post请求方法的使用为requests.post('网址', data=data)
37.在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server
38.device.sleep()方法是使用UI Automatorr关闭屏幕的命令
39.通用网络爬虫通常采用串行工作方式
40.如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程
41.在Windows中下若要运行Redis可以运行redis-server /usr/local/etc/redis.conf
42.使用AJAX技术,可以在不刷新网页的情况下更新网页数据
43.当Charles抓包以后,在Mac OS系统下可以按Command+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索
44.如果MongoDB运行在所在的计算机上,MONGODB_HOST应该写成"192.168.0.1"
45.Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本
46.在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装
47.Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。
48.Python中条件语句在使用and连接的多个表达式中,只要有一个表达式不为真,那么后面的表达式就不会执行。
49.PyMongoDB中排序方法sort第二个参数-1表示升序
50.一般来说在页面都通过GET将用户登录信息传递到服务器端。