AWS Lambda(Python3)でSelenium + Chrome Headless + でwebスクレイピングする

2018/07/07 2018/09/04

インターネット上に公開されている情報をDynamoDBにつっこみたいだけなので、VPC内のLambdaからVPN経由で会社のシステムのAPIやデータベースとやりとりするよりも、VPC外のLambdaからwebスクレイピングをしてしまったほうがてっとり早いかなと。

以前まではPhantomJSを使ってましたがどうやら開発が止まるらしいので、今回からChrome Headlessを使ってみようということで少しエラーが出たりしたので備忘録として書いておきます。

とりあえずやってみる

ダウンロードして展開したheadless-chromiumとchromedriverをbinディレクトリを作って格納。

pip install selenium -t  .

1 2	pip install selenium -t .

でSeleniumをダウンロードして、zipで固めてLambdaを作成して早速実行。

※ アクセスしたページのタイトルをリターンするだけのサンプルコードです。
※ urlは実際には何らかのURが入ります。

from selenium import webdriver

def lambda_handler(event, contxt):
    options = webdriver.ChromeOptions()
    options.binary_location = "./bin/headless-chromium"
    options.add_argument("--headless")

    driver = webdriver.Chrome(
        executable_path="./bin/chromedriver",
        chrome_options=options
    )

    driver.get(url)
    return driver.title

from selenium import webdriver

def lambda_handler(event, contxt):

options = webdriver.ChromeOptions()

options.binary_location = "./bin/headless-chromium"

options.add_argument("--headless")

driver = webdriver.Chrome(

executable_path="./bin/chromedriver",

chrome_options=options

)

driver.get(url)

return driver.title

最新バージョンのドライバだと下記エラーが発生。

File "/var/task/lambda_function.py", line 44, in lambda_handler
chrome_options=options
File "/var/task/selenium/webdriver/chrome/webdriver.py", line 68, in __init__
self.service.start()
File "/var/task/selenium/webdriver/common/service.py", line 76, in start
stdin=PIPE)
File "/var/lang/lib/python3.6/subprocess.py", line 707, in __init__
restore_signals, start_new_session)
File "/var/lang/lib/python3.6/subprocess.py", line 1326, in _execute_child
raise child_exception_type(errno_num, err_msg)
OSError: [Errno 8] Exec format error

File "/var/task/lambda_function.py", line 44, in lambda_handler

chrome_options=options

File "/var/task/selenium/webdriver/chrome/webdriver.py", line 68, in __init__

self.service.start()

File "/var/task/selenium/webdriver/common/service.py", line 76, in start

stdin=PIPE)

File "/var/lang/lib/python3.6/subprocess.py", line 707, in __init__

restore_signals, start_new_session)

File "/var/lang/lib/python3.6/subprocess.py", line 1326, in _execute_child

raise child_exception_type(errno_num, err_msg)

OSError: [Errno 8] Exec format error

なので、こちら
AWS Lambda上のheadless chromeをPythonで動かす
を参考にさせていただき、以下からダウンロードして使用。

https://github.com/adieuadieu/serverless-chrome/releases/download/v1.0.0-37/stable-headless-chromium-amazonlinux-2017-03.zip

https://chromedriver.storage.googleapis.com/2.37/chromedriver_linux64.zip

結果はエラーとなりましたので発生エラーと、解消のために追加したオプションを次に記載します。

エラー対応

selenium.common.exceptions.WebDriverException: Message: unknown error: Chrome failed to start: exited abnormally

options.add_argument("--no-sandbox")

1 2	options.add_argument("--no-sandbox")

selenium.common.exceptions.WebDriverException: Message: unknown error: unable to discover open pages

options.add_argument("--single-process")

1 2	options.add_argument("--single-process")

エラーはこの2つだけでした。

他にもパラメータオプションは色々あるようですが、必要最低限のものだけ設定しておきます。

結果、次のようなコードになりました。

from selenium import webdriver

def lambda_handler(event, contxt):
    options = webdriver.ChromeOptions()
    options.binary_location = "./bin/headless-chromium"
    options.add_argument("--headless")
    options.add_argument("--no-sandbox")
    options.add_argument("--single-process")

    driver = webdriver.Chrome(
        executable_path="./bin/chromedriver",
        chrome_options=options
    )

    driver.get(url)
    return driver.title