xK.memo @xkansan - Tumblr Blog

アイテム: 大炎上 - データベース: AutoPagerize - wedata

https://twitter.com/Tanookirby/status/510983731335933952

https://twitter.com/jigendaddy/status/511119078811914240

https://twitter.com/tmhwq/status/511049560274132992

この辺の原因になっていた（と思われる）、urlの正規表現に間違いのあったSITEINFOを修正した。

AutoPagerize動かないという人は、SITEINFOを更新すると正常にページを継ぎ足すようになるはず。 Firefox Add-on版の場合は、「ツール」→「アドオン」からAutoPagerizeの「詳細」を開き、「Open AutoPagerize preferences」から「update siteinfo」という手順でSITEINFOを更新できる。

xkansan

とはいえ正規表現を少し間違えることが AutoPagerize 全体の動きに影響するというのは、気軽に SITEINFO を投稿する妨げになる気がする。なのでそうならないように変更したものを pull request として投げたところその日のうちに merge された（ありがとうございました）。というわけで、 0.9.17 以降の AutoPagerize では、仮に url の正規表現に構文エラーが含まれていても全体の動作が止まるということはなくなった。一応ここで報告。

#autopagerize #firefox

アイテム: 大炎上 - データベース: AutoPagerize - wedata * https://twitter.com/Tanookirby/status/510983731335933952 * https://twitter.com/jigendaddy/status/511119078811914240 * https://twitter.com/tmhwq/status/511049560274132992 この辺の原因になっていた（と思われる）、urlの正規表現に間違いのあったSITEINFOを修正した。 AutoPagerize動かないという人は、SITEINFOを更新すると正常にページを継ぎ足すようになるはず。 Firefox Add-on版の場合は、「ツール」→「アドオン」からAutoPagerizeの「詳細」を開き、「Open AutoPagerize preferences」から「update siteinfo」という手順でSITEINFOを更新できる。

#autopagerize #regexp

typeof (new XMLHttpRequest).responseURL !== "undefined" // in Chrome

XMLHttpRequest.prototype.responseURL が Firefox に引き続いて Google Chrome でも実装された。Chrome Canary で確認できるようになっていたので紹介。

該当のissue: https://code.google.com/p/chromium/issues/detail?id=377583

「今のところ responseURL は Firefox Nightly のみの実装ではあるのだけれど」と書いた半月後に Chrome にも実装されるとは思っていなかった。yhiranoさんに感謝。

#xhr #chrome

IRC logs: freenode / #whatwg / 20140526 XMLHttpRequest#responseURL への反響を受けての WHATWG IRC での1コマ

#xhr #whatwg

XMLHttpRequest#responseURL について

今年の2月に WHATWG の XMLHttpRequest (XHR) の仕様に追加された responseURL プロパティが、先日 Firefox に実装された (https://bugzil.la/998076) のでそのことについて書く。

responseURL は XHR のリクエストに対するレスポンスの URL を文字列で返すプロパティで、リダイレクトが発生した場合は最終的なリダイレクト先の URL を返すようになっている。つまり Greasemonkey の GM_xmlhttpRequest にある finalUrl で取得できる情報と同じものを取得できるプロパティだと言える。

responseURL が XHR の仕様に追加される以前の状態でも、 xhr.responseType === "document" の場合に xhr.response.URL 経由で finalUrl と同じ情報を取得できることは 1年前に書いた通り。ただ、xhr.response.URL と比較して xhr.responseURL には以下のような利点があると考えている。

XHR で取得したレスポンスの形式によらず取得できる

xhr.response.URL は xhr.responseType が "document" の場合のみ取得可能で、その他の場合には使用できない。一方で xhr.responseURL の場合は xhr.responseType の設定によらずレスポンスの URL を取得可能になっている。

機能が実装されているかを調べるのが楽

xhr.responseURL の場合、最近になって仕様に追加されたことから "responseURL" in (new XMLHttpRequest()); の様にしてプロパティの存在が確認できれば、その UA では機能が仕様通り実装されていることを期待できる。一方で xhr.response.URL の場合、Document オブジェクトに URL プロパティが存在するのは当然なので、機能が仕様通り実装されているかどうかを調べるにはその存在を確認しただけでは不十分で、実際に適当な URL に XHR でリクエストして調べる必要がある。

今のところ responseURL は Firefox Nightly のみの実装ではあるのだけれど。XHR でリクエストした際の URL と xhr.responseURL の比較によってリダイレクトを検出できるので、リダイレクトについての情報を提供しない壊れたAPI と言われていた XHR が、ようやく仕様と実装を含めてまともになり始めた、と言えるのではないかと思っている。

ところで https://bugzil.la/998076 の実装担当は自分なので、「responseURL プロパティが、先日 Firefox に実装された」みたく他人事として書くのは虚偽記述法っぽい。まあなんというか、そういう感じ。

#xhr

859095 – URL property of document returned by XMLHttpRequest does not follow the spec Firefoxへのはじめてのパッチが取り込まれてゆく様子を撮影した貴重なスクリーンショット

#firefox #xhr #bugzilla

近況

XMLHttpRequest (XHR) の結果を Document として受け取る場合に、 xhr.response.URL が GM_xmlhttpRequest で言うところの finalUrl 相当の値を返すように（仕様上は）なっている、という話をこれまで何回か書いてきたのだけれど、気がついたら Editor's Draft だけでなく Working Draft にも反映されていた。

これは XMLHttpRequest Living Standard にも同じく反映されている。

そのこと自体を喜ばしく思う一方で、現時点ではどのブラウザもこの仕様を反映してはいないようだ。

というわけで手始めに Firefox にバグとして報告して、ついでにパッチも書いた。Bug 859095

ただしこれまでブラウザ拡張では xhr.response.URL が cross origin へのリクエスト時でも same origin の URL を返すことを利用して same origin の Document を読み込んだのかを判定する、ということがそれなりに行われてきた（らしい）ので、Bug 859095 による挙動の変更を受け入れても大丈夫かどうかを Mozilla 側で判断している、というのが近況。

このバグの中で意見を求められている Jonas さんは今 Boot2Gecko まわりの作業で忙しいようなので、結論が出るまでまだ時間がかかりそう。

はやく xhr.response.URL が仕様どおりの値を返すようになるといいと思っている。

というのは、仕様どおりの値を返すようになれば XHR のリクエストが別 origin にリダイレクトしたかどうかを判定できるようになるので、 jQuery Mobile を使っているドメインにオープンリダイレクタがあったら XSS の問題が発生する (http://subtech.g.hatena.ne.jp/mala/20110711/1310391177) だとか、Rails の Turbolinks (https://github.com/rails/turbolinks/issues/195) の様な問題を、オープンリダイレクタがある場合も含めて JavaScript 側で対処できるようになると考えているからだ。

現状では、オープンリダイレクタとリダイレクトの情報を提供しない壊れた API を掛け合わせて最強の XSS をつくろう、といった風になってしまっているので、そこは早く XHR の実装を仕様に合わせて解決させていく方がいいのでは、と思っている。

#xhr

文章書いた

Greasemonkey 版の AutoPagerize の 0.0.58 から 0.0.59、および Firefox 版の 0.8.4 から 0.8.6 にかけてのアップデートの理由に関するもの。諸事情を考えて GitHub で公開。 -> https://github.com/xKerman/memorandum/blob/master/autopagerize_cookie_issue.md

もし何か間違っていたら issues や pull requests でお知らせください。

#autopagerize

Chrome Extension の content script 内での XHR で finalUrl 相当を得る方法

Chrome 13 から， Chrome Extension の content script の中でも XMLHttpRequest (XHR) で cross origin リクエストが行えるようになっている (http://code.google.com/chrome/extensions/xhr.html)．これは Cross Origin Resource Sharing (CORS) とは関係なく（要するにリクエスト先のレスポンスヘッダに Access-Control-Allow-Origin: * のような指定があるかどうかとは無関係で）， manifest.json で許可しさえすれば良い． Chrome Extension のドキュメントには

content scripts can make cross-origin requests to the same servers as the rest of the extension.

と書いてあって，自分はてっきり manifest.json の permissions で指定した先のみ XHR で cross origin リクエストできるのかと思っていたのだけれど，実際は content_script の matches に指定した先についても cross origin リクエストが許可される．実験したときのスクリプトはこれ -> https://bitbucket.org/xKairouan/test_chrome_extension_xhr/src． http://www.yahoo.com/ などのページから，https://twitter.com/ と http://www.google.co.jp/ に対して XHR でリクエストを出してそのレスポンスを読み取れることが確認できると思う．

なので，もともと content script が任意のページで動く様に matches を設定していた Chrome Extension では，意図せず cross origin リクエストが可能な XHR が content script の中で使用されるようになっていた，という状況があり得る．特に XHR のリクエスト先を外部入力により決定してそのコンテンツを表示するような Chrome Extension の場合，このことにより same origin policy を破るセキュリティ上の問題が生じることが考えられる．そこで XHR によるリクエストを same origin のものに制限する必要がでてくる場合があるのだけれど，その場合リクエストを出す前にリクエスト先が same origin か確認するだけでは不十分で，リクエストが cross origin にリダイレクトしていないか確かめる必要がある．そして都合の悪いことに，今のところ XHR 単体で cross origin へのリダイレクトを検出したり禁止する方法はない．

followRedirects プロパティは XHR の working draft から消えてしまった（理由はhttp://lists.w3.org/Archives/Public/public-webapps/2010OctDec/0812.html）ので使えない

将来的には

var req = new XMLHttpRequest(); req.addEventListener('load', function (e) { var doc = e.target.response; if (!isSameOrigin(location.href, doc.URL)) { // isSameOrigin は適当に実装する doSomethingForError(); return; } doSomething(); }, false); req.open('GET', url); req.responseType = 'document'; req.send(null);

という感じで， doc.URL をチェックすることでリダイレクトが検出できるようになるだろうけど（http://dvcs.w3.org/hg/xhr/raw-file/tip/Overview.html#document-response-entity-bodyに

8. Set document's URL to request URL.

とあり， request URL にはリダイレクト時に Location ヘッダで指定された URL が代入されることになっているので）， req.responseType = 'document' が使える Chrome 18 (現在の beta)で試したところ doc.URL はリクエスト元の location.href と同じだった．なのでこの方法も現時点では使うことができない．

Web Requests を使って finalUrl を得る

ようやく本題．それでは content script の XHR が cross origin にリクエストしたかを検出できないかというとそうではなくて， Chrome Extension では Web Requests を使うことでリダイレクトを監視できる (http://code.google.com/chrome/extensions/webRequest.html#event-onBeforeRedirect) ので，これを使って GM_xmlhttpRequest における finalUrl と同じ情報を得ることができる．従ってこの情報を確認することで cross origin へのリクエストが発生したかどうかを検出できる．具体的にはこういう感じ -> https://bitbucket.org/xKairouan/finalurl_for_chrome_extension/src.

上の拡張をインストールした上で，

http://misc-xkyrgyzstan.dotcloud.com/aptests/redirect/ng/cors （別ドメインへのリダイレクト用テスト）

http://misc-xkyrgyzstan.dotcloud.com/aptests/redirect/ok （リダイレクトして same origin に戻る用のテスト）

などのページを開くと動作を確認できる． User-Agent: Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.11 (KHTML, like Gecko) Ubuntu/10.04 Chromium/17.0.963.65 Chrome/17.0.963.65 Safari/535.11 で確認した．

流れとしては，

background page のスクリプトで chrome.webRequest.onBeforeRedirect を使って XMLHttpRequest のリダイレクトを監視し，もともとのリクエスト URL とリダイレクト先の URL を記録する

content script から XHR するときに， req.onload などのイベントハンドラの中で chrome.extension.sendRequest を使ってリクエスト時の URL に対する finalUrl 相当の情報を問い合わせる

background page のスクリプトからリクエスト時の URLに対する finalUrl 相当を content script 側に送る

content script ではこの結果を受け取り， cross origin へリクエストしたかどうかを確認する

という感じ．

Content Security Policy (CSP) で cross origin XHR を禁止できるのでは？

Chrome Extension では manifest.json の content_security_policy で CSP を指定できる(http://code.google.com/chrome/extensions/trunk/contentSecurityPolicy.html)．で， CSP の仕様には XHR のリクエスト先を制限するための connect-src がある (http://dvcs.w3.org/hg/content-security-policy/raw-file/tip/csp-specification.dev.html#connect-src) ので，これを使えば上に書いたような面倒なことをせずに content script 中の XHR が cross origin リクエストを出すことを禁止できるように思える．

しかし，この制限は content script の XHR に対しては適用されないため， CSP では content script 中の XHR が cross origin リクエストを出すことを禁止することができない．確認するために用いたスクリプトはこれ -> https://bitbucket.org/xKairouan/chrome_csp_test/src.

http://misc-xkyrgyzstan.dotcloud.com/aptests/external/ng/cors （別ドメインに対するリクエスト用テスト）

http://misc-xkyrgyzstan.dotcloud.com/aptests/redirect/ng/cors （別ドメインへのリダイレクト用テスト）

http://misc-xkyrgyzstan.dotcloud.com/aptests/redirect/ok （リダイレクトして same origin に戻る用のテスト）

などのページを開くと動作を確認できる． User-Agent: Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.54 Safari/535.19 を用いて確認した． connect-src 'self' を指定した場合でも， content script の XHR が cross origin リクエストを行うのを止められないことが確認できると思う（一方で background page のスクリプトからの XHR には CSP が適用されることがわかるが，この場合 'self' が chrome-extension://#{拡張のID} 形式の URL を指すので， http:// や https:// に対してリクエストできない）．

まとめ

Chrome 13 から content script から cross origin XMLHttpRequest が利用できるようになった関係で，意図せず cross origin へリクエストを行ってしまう場合がある

リダイレクトまで考慮すると，現時点では cross origin に対するリクエストを検出・禁止することが， content script の XMLHttpRequest 単体ではできない

Web Request を使えば GM_xmlhttpRequest の finalUrl 相当の情報を得ることができ，リダイレクトを含めて XMLHttpRequest の cross origin へのリクエストを検出できる

Content Security Policy は content script の XMLHttpRequest に対して適用されない

参考文献

http://subtech.g.hatena.ne.jp/mala/20101021/1287670869

#xhr #chrome

XMLHttpRequest で same origin から cross origin にリダイレクトする際の挙動について

現時点では XMLHttpRequest を使った際に same origin から cross origin へリダイレクトが発生するリクエストがエラーにならないのは， Firefox と IE10 (Platform Preview 4) くらいだけれど (参考：http://samples.msdn.microsoft.com/ietestcenter/#cors)，その2つの間にも若干挙動の違いがあったのでメモ．

確認の為に用いたのは，

Firefox 10: Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0.1) Gecko/20100101 Firefox/10.0.1

Internet Explorer 10: Windows Internet Explorer Platform Preview, version 2.10.8103.0 (Internet Explorer version 10.0.8103.0)

具体的に違いがあるのは，カスタムヘッダを追加してリクエストを出したり， XMLHttpRequestUpload オブジェクトにイベントリスナを登録しているような場合．要は CORS で preflight が必要だとされている条件を満たしている場合．

いろいろ説明するよりも，実際に試した方が早いのでテストケースを挙げる． -> http://misc-xkyrgyzstan.dotcloud.com/xhr/redirect-from-same-origin

このページが何をするかというと，アクセスした際に

カスタムヘッダなし， XMLHttpRequestUpload オブジェクトにイベントリスナが登録されていない場合

X-Requested-With: XMLHttpRequest というカスタムヘッダを追加してリクエストした場合

req.upload.addEventListener('load', function (e) {}, false) として XMLHttpRequestUpload オブジェクトにイベントリスナを登録してからリクエストを出した場合

のそれぞれで， XMLHttpRequest のリクエスト先が same origin から cross origin へリダイレクトする場合の挙動を調べている．リダイレクト先のページは， Access-Control-Allow-Origin: * をヘッダに出力し，またリクエストの際に Access-Control-Request-Headers で与えられたヘッダに対して Access-Control-Allow-Headers で許可を出すようにしている．

Firefox でのアクセスした結果は，

normal (w/o custom header, w/o upload event):success with custom header:failure with upload event:failure

となった． X-Requested-With: XMLHttpRequest のようなカスタムヘッダが付いていたり， req.upload.addEventListener('load', funciton (e) {/* do something */}, false) のように XMLHttpRequestUpload オブジェクトにイベントリスナが登録されている状態で，リクエスト先が same origin から cross origin へリダイレクトした場合にエラーが生じるようになっている．また，カスタムヘッダ付きだったり XMLHttpRequestUpload オブジェクトにイベントリスナが登録されている場合には，リダイレクト先に preflight リクエストを送っていない（OPTIONS メソッドによるリクエストが発生していない）．

一方 Internet Explorer 10 では，

normal (w/o custom header, w/o upload event):success with custom header:success with upload event:success

となり，いずれの場合もリクエストが成功する．カスタムヘッダが付いていたり，XMLHttpRequestUpload オブジェクトにイベントリスナがついている場合は， GET -> リダイレクト先に OPTIONS (preflight) -> リダイレクト先に GET，という流れでリクエストが処理される．

どちらの挙動が正しいのか

調べた限りでは，

preflight が必要な cross origin に対するリクエストがリダイレクト時にエラーになることは CORS の working draft に書いてあるけれど(http://www.w3.org/TR/2010/WD-cors-20100727/#cross-origin-request-with-preflight0)， preflight が必要な条件を満たしている same origin から cross origin に対するリクエストがエラーになるのかは書かれていない．

XMLHttpRequest では， same origin から cross origin にリダイレクトした場合は Location ヘッダで指示されている URL を request URL として CORS の cross-origin request を行うように書かれていて(http://www.w3.org/TR/XMLHttpRequest2/#infrastructure-for-the-send-method)，そのリクエストが preflight が必要な条件を満たしている場合のことは特に書かれていない．

といった感じで， same origin から cross origin に対するリダイレクトが発生した場合にエラーにする理由を見つけられなかった．

あと，Firefox の XMLHttpRequest 周りのコードも見たのだけれど， https://hg.mozilla.org/mozilla-central/file/78fde7e54d92/content/base/src/nsXMLHttpRequest.cpp#l3238には

// Disable redirects for preflighted cross-site requests entirely for now // Note, do this after the call to CheckChannelForCrossSiteRequest // to make sure that XML_HTTP_REQUEST_USE_XSITE_AC is up-to-date if ((mState & XML_HTTP_REQUEST_NEED_AC_PREFLIGHT)) { return NS_ERROR_DOM_BAD_URI; }

とあり，コメントでは実際に preflight が発生した場合に cross origin へのリダイレクトをやめるように書いてあるけれど，コードでは preflight が必要な条件を満たしているのかをチェックしていて， preflight が行われたのかどうかはチェックしていない．なのでコメントとコードが一致していないように思えた．

という訳で，自分は IE 10 の挙動が正しいのではないかと考えている．

以下，あまり関係のない話を書く．

もし Firefox の挙動が正しいのであれば， XMLHttpRequest のリクエスト先を外部入力により決定してその内容を表示するような場合に，リクエスト先が same origin であることを確認してカスタムヘッダを追加しさえすれば，たとえオープンリダイレクタがあったとしても cross origin のリソースを読み込みを禁止できるわけなので， Firefox の挙動が正しい方が嬉しい場合が多いのではないかとは思っている．

現在の XMLHttpRequest の editor's draft を見る限りでは， req.responseType = 'document' の場合であれば， XMLHttpRequest で取得した document の URL プロパティを確認することで，リダイレクトのチェックができるようになると思う． http://dvcs.w3.org/hg/xhr/raw-file/tip/Overview.html#document-response-entity-body に

8. Set document's URL to request URL.

とあるので．なので，カスタムヘッダを付けたりしても same origin から cross origin へのリダイレクトがエラーにならない場合でも，将来的にはリダイレクトしたかを確認すれば済む話になりそう．

#xhr

Learning System Browser Checker

#thomason

AutoPagerize :: Add-ons for Firefox

now in AMO

参考: https://github.com/swdyh/autopagerize_for_firefox/pull/8#issuecomment-3254217

#autopagerize

pixiv.js AutoPagerize 系の拡張・ユーザスクリプトへの対応イベント購読のタイミングが window.onload から DOM 構築後に

#pixiv #autopagerize

勝手に添削: pixiv.js (AutoPagerize で2ページ目以降のサムネイルが表示されない件)

添削というよりも、「pixiv.js をこう変更したら AutoPagerize が継ぎ足した2ページ目でもサムネイルが表示されるのでは」という提案。

Twitter などで、「pixiv では AutoPagerize によって継ぎ足された2ページ目以降のページでサムネイルが表示されない」という声があったので。

一例：

http://twitter.com/unnrifek/status/108946597483790336

http://twitter.com/kaya_purple/status/109249965133533184

http://twitter.com/ichimonji/status/109311057348145152

http://twitter.com/monomemo/status/109432635008364544

http://twitter.com/itoukaito/status/109740190007955456

http://twitter.com/suteno04/status/109896082309398529

確認

用いた環境

UA: Mozilla/5.0 (X11; Linux i686; rv:6.0.1) Gecko/20100101 Firefox/6.0.1

Add-on: AutoPagerize 0.8.9 (ただし MIN_REQUEST_INTERVAL を 2000 から 1 に変更して読み込みを早くしたもの)

http://www.pixiv.net/search.php?s_mode=s_tag&word=%E3%82%86%E3%82%8B%E3%82%86%E3%82%8A を開いてすぐ下へスクロールして10ページくらい継ぎ足す、というやり方で確認した感じでは、

1ページ目のサムネイルは表示される

2〜4ページ目のサムネイルは表示されない

5ページ目以降のサムネイルは表示される

といった状態だった。

この現象の原因

pixiv では pixiv.js (http://source.pixiv.net/source/js/pixiv.js) によってサムネイルを表示させるようにしている。それでソースコードを少し読んだところ、どうやらサムネイルを表示させる関数が AutoPagerize_DOMNodeInserted イベントを購読するタイミングが遅いために2ページ目以降ではサムネイルが表示されていない場合があるように思えた。

どういうことかというと、

pixiv でページを開く

DOM の構築が終わって AutoPagerize が動作を開始

AutoPagerize によって2ページ目が継ぎ足される

window.onload が実行され、サムネイルを表示する関数が AutoPagerize_DOMNodeInserted イベントを購読

AutoPagerize によってページが継ぎ足され AutoPagerize_DOMNodeInserted イベントが発火、継ぎ足されたページでサムネイルを表示する関数が実行される

という感じ。 http://hibari.2ch.net/test/read.cgi/software/1315045479/3 で提案された Greasemonkey スクリプトで問題が解消している(http://hibari.2ch.net/test/read.cgi/software/1315045479/4-9) ことから考えても、そう外していないと思う（Greasemonkey スクリプトは DOMContentLoaded で実行されるので）。

なので CocProxy を使って手元で pixiv.js に手を加えてみた。問題が解消したように思えるので diff を公開。

--- pixiv.js.orig 2011-09-05 20:25:09.000000000 +0900 +++ pixiv.js 2011-09-05 20:41:25.000000000 +0900 @@ -351,6 +351,19 @@ .dispatch(); pixiv.scrollView.setup(); + // AutoPagerize, AutoPatchWork, AutoPager + try { + document.body.addEventListener('AutoPagerize_DOMNodeInserted', function(e) { + pixiv.scrollView.add('.ui-scroll-view', e.target); + }); + document.body.addEventListener('AutoPatchWork.DOMNodeInserted', function(e) { + pixiv.scrollView.add('.ui-scroll-view', e.target); + }); + document.body.addEventListener('AutoPagerAfterInsert', function(e) { + pixiv.scrollView.add('.ui-scroll-view', e.target); + }); + } + catch (e) {} }, setupLoad: function() { @@ -362,14 +375,6 @@ pixiv.widget.twitterWidget(); }) .dispatch(); - - // AutoPagerize - try { - document.body.addEventListener('AutoPagerize_DOMNodeInserted', function(e) { - pixiv.scrollView.add('.ui-scroll-view', e.target); - }); - } - catch (e) {} }, setupUnload: function() {

一応

AutoPagerize (0.8.9) on Firefox

AutoPatchWork (1.9.3) on Google Chrome

AutoPager (0.7.0.0) on Firefox

で継ぎ足された2ページ目以降でもサムネイルが表示されることを確認した。

変更した部分について

AutoPagerize_DOMNodeInserted イベントを購読するタイミングを早くした

AutoPagerize だけに対応しているようだったので、 AutoPatchWork や AutoPager でも 2ページ目以降のサムネイルが見られるようにした

AutoPagerAfterInsert については http://www.teesoft.info/content/view/111/1/lang,en/ に詳細がある（ただしこのイベントが使えるのは AutoPager 0.7.0.0 から）。

まあ、 pixiv は AutoPagerize の Microformats を利用しているので、「AutoPagerize で継ぎ足された2ページ目以降のサムネイルが表示されない」という今回の現象は近いうちに対応されると思う。

追記: 対応されたことを確認した http://xkansan.tumblr.com/post/9894651074/pixiv-js-autopagerize

#pixiv #autopagerize

Re: XPathの動作にまつわる試行錯誤

http://d.hatena.ne.jp/t_f_m/20110321/1301004931 のエントリに関して。

<div class="pagerModule"> <ul> <li> <a href="../../../affairs/photos/110320/dst11032019130076-p1.htm">< 前の写真</a> </li> <li> <a href="../../../affairs/news/110320/dst11032018460075-n1.htm">記事を読む</a> </li> <li> <a href="../../../affairs/photos/110320/dst11032018460075-p2.htm">次の写真 ></a> </li> </ul> </div>

この例だと、dst以降の数字を上手く比較できれば解決できるはず……と考えて、次のようなXPathを書いた。実際に比較に使っているのは/photos/、/news/以降。

nextLink: 'id("MainContent")/div[@class="pager"]/div/ul/li[substring-before(substring-after(self::li/a/@href,"/photos/"),"-p") = substring-before(substring-after(preceding-sibling::li/a/@href,"/news/"),"-n")]/a',

が、しかし、動かない……！　何故か記事を読むのリンクが選択され、真っ当な読み込みがなされない。なんとなく、絶対パスで指定して比較すれば成功するのでは、と思ってそれっぽいXPathを試してみても、やっぱりダメ。

という部分を読んで、自分はこの XPath の挙動が理解できなかったので、詰め XPath 気分で調べてみた。

調査

実験のために以下の用な HTML と JavaScript を用意した。

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html xml:lang="ja" lang="ja" xmlns="http://www.w3.org/1999/xhtml"> <head> <title>xpath test</title> <style type="text/css"> #xpath { width: 85%; } #error { color: red; } .selected-by-xpath { border: 3px solid rgba(0, 95, 249, 0.5); } </style> </head> <body> <h1>xpath test</h1> <ul id="target-ul"> <li><a href="0000p"><前の写真</a></li> <li><a href="0001n">記事を読む</a></li> <li><a href="0001p">>次の写真</a></li> </ul> <hr /> <form id="xpath-form" action=""> <p> <input type="text" id="xpath" name="xpath" value="" /> <input type="submit" value="show XPath result" /> </p> </form> <p id="error"></p> <script src="xpath_test.js" type="text/javascript"></script> </body> </html>

xpath_test.js はこのように。

// -*- coding: utf-8 -*- "use strict"; (function() { var form = document.getElementById('xpath-form'); var reset = function() { var forEach = Array.prototype.forEach; var error = document.getElementById('error'); forEach.call(document.querySelectorAll('.selected-by-xpath'), function(elem) { elem.classList.remove('selected-by-xpath'); }); error.innerHTML = ''; }; var show_error_message = function(msg) { var error = document.getElementById('error'); var text = document.createTextNode('Error: ' + msg); error.appendChild(text); }; var show_xpath_result = function(event) { event.preventDefault(); reset(); var xpath = document.getElementById('xpath').value; var nodes; if (!xpath) { return; } try { nodes = document.evaluate(xpath, document, null, XPathResult.ORDERED_NODE_SNAPSHOT_TYPE, null); } catch (e) { show_error_message('Invalid XPath!'); return; } var target; var i; var len = nodes.snapshotLength; if (!len) { show_error_message('No element found!'); return; } for (i = 0; i < len; ++i) { target = nodes.snapshotItem(i); target.classList.add('selected-by-xpath'); } }; form.addEventListener('submit', show_xpath_result, false); }());

こんな感じでフォームに入力した XPath によって選択されるノードを調べた。

まずは上で引用したエントリで t_f_m さんが書いているのと同様の XPath を試した。

id("target-ul")/li[substring-before(self::li/a/@href, "p") = substring-before(preceding-sibling::li/a/@href, "n")]/a => 「記事を読む」の a ノード

t_f_m さんの場合と同じく、「>次の写真」の a ノードではなく、「記事を読む」の a ノードが選択されることが確認できた。

この XPath で、述語のコンテキストノードと選択結果の関係を明らかにするために、以下の XPath を試した。

id("target-ul")/li[1][substring-before(self::li/a/@href, "p") = substring-before(preceding-sibling::li/a/@href, "n")]/a => なにも選択されない

id("target-ul")/li[2][substring-before(self::li/a/@href, "p") = substring-before(preceding-sibling::li/a/@href, "n")]/a => 「記事を読む」の a ノード

id("target-ul")/li[3][substring-before(self::li/a/@href, "p") = substring-before(preceding-sibling::li/a/@href, "n")]/a => なにも選択されない

この結果を見て疑問に思ったことは、

id("target-ul")/li[2][substring-before(self::li/a/@href, "p") = substring-before(preceding-sibling::li/a/@href, "n")]/a という XPath で「記事を読む」の a ノードが選択されるのはなぜか

id("target-ul")/li[3][substring-before(self::li/a/@href, "p") = substring-before(preceding-sibling::li/a/@href, "n")]/a という XPath でなにも選択されないのはなぜか

という2点。

1. について

これは、 li[2] の述語で空文字同士の比較が行われているため。以下の2つの XPath とその結果を見比べればわかると思う。

id("target-ul")/li[2][substring-before(self::li/a/@href, "p") = substring-before(preceding-sibling::li/a/@href, "n")]/a => 「記事を読む」の a ノード

id("target-ul")/li[2][substring-before(self::li/a/@href, "p") = substring-before(preceding-sibling::li/a/@href, "n") and substring-before(self::li/a/@href, "p") = "" ]/a => 「記事を読む」の a ノード

述語の substring-before(self::li/a/@href, "p") の部分は、 self::li/a/@href のコンテキストノードが li[2] なので substring-before("0001n", "p") となり、 "0001n" に "p" は含まれないので結果的に空文字が返される。

同じく substring-before(preceding-sibling::li/a/@href, "n") の部分も、 preceding-sibling::li/a/@href のコンテキストノードが li[2] であり、その兄ノードは1番目の li ノードしかないので、 substring-before("0000p", "n") となり空文字が返される。

結果として id("target-ul")/li[2][substring-before(self::li/a/@href, "p") = substring-before(preceding-sibling::li/a/@href, "n")]/a は、 id("target-ul")/li[2]["" = ""]/a となるため、「記事を読む」の a ノードが選択される。

2. について

id("target-ul")/li[3][substring-before(self::li/a/@href, "p") = substring-before(preceding-sibling::li/a/@href, "n")] の述語を詳しく見てみる。

まず substring-before(self::li/a/@href, "p") は、述語のコンテキストノードが li[3] なので self::li/a/@href => "0001p" となり、結果 substring-before("0001p", "p") => "0001" となる。

次に substring-before(preceding-sibling::li/a/@href) だけれど、述語のコンテキストノードが li[3] なので preceding-sibling::li/a/@href で選択される属性ノードは

li[3] の1つ手前にある li ノード下の a ノードの href (つまり id("target-ul")/li[3]/preceding-sibling::li[1]/a/@href)

li[3] の2つ手前にある li ノード下の a ノードの href (つまり id("target-ul")/li[3]/preceding-sibling::li[2]/a/@href)

の2つになる。

これまでは substring-before の中でノードセットが文字列に変換される際には1つのノードしかノードセットに含まれなかったのでノードセットの文字列化について特に触れなかったのだけれど、この場合のように複数のノードを含むノードセットはどのように文字列化されるのか。

これは http://www.w3.org/TR/xpath/#section-String-Functions に書いてある。

A node-set is converted to a string by returning the string-value of the node in the node-set that is first in document order.

文書順で一番最初のノードの文字列値がノードセットの文字列値になるとある。この場合にあてはめると

li[3] の1つ手前にある li ノード下の a ノードの href (つまり id("target-ul")/li[3]/preceding-sibling::li[1]/a/@href)

li[3] の2つ手前にある li ノード下の a ノードの href (つまり id("target-ul")/li[3]/preceding-sibling::li[2]/a/@href)

の二つの属性ノードのうち文書順で一番最初のものは li[3] の2つ手前にある li ノード下の a ノードの href であるから、 preceding::li/a/@href を文字列に変換すると "0000p" になり、 substring-before("0000p", "n") は空文字になる。

したがって id("target-ul")/li[3][substring-before(self::li/a/@href, "p") = substring-before(preceding-sibling::li/a/@href, "n")]/a は id("target-ul")/li[3]["0001" = ""]/a となり、この XPath で選択されるノードはないことになる。

感想とか

たぶん一番問題だったのは、 XPath におけるノードセットから文字列への変換の部分だと思う。

なのでノードセットを文字列化するときには、そのノードセットに1つのノードのみが含まれているようにするのがよいのでは。

というわけで t_f_m さんが書こうとしていた XPath は、 id("MainContent")/div[@class="pager"]/div/ul/li[substring-before(substring-after(self::li/a/@href,"/photos/"),"-p") = substring-before(substring-after(preceding-sibling::li [1] /a/@href,"/news/"),"-n") and substring-before(substring-after(self::li/a/@href,"/photos/"),"-p") != "" ]/a みたいに書いたらいいのではないか、と思う。少し不格好かもしれないけれど。

あるいは、ページ構造によっては id("MainContent")/div[@class="pager"]/div/ul/li [last()] [substring-before(substring-after(self::li/a/@href,"/photos/"),"-p") = substring-before(substring-after(preceding-sibling::li [1] /a/@href,"/news/"),"-n")]/a と書けるかもしれない。

#xpath

Yahoo!検索（リアルタイム）を AutoPagerize のように閲覧するための user.js

かつての Google リアルタイム検索では AutoPagerize 用の SITEINFO があり (http://wedata.net/items/48597)、自動的に次のページが継ぎ足されて便利だった。

なので Yahoo! のリアルタイム検索でも同様に AutoPagerize を有効にするために SITEINFO を作成しようとしたのだけれど、 nextLink (「さらに読み込む」ボタン) が javascript: のリンクであるため、SITEINFO を作成しても無駄という状態だった。

ただ、「さらに読み込む」ボタンを押しさえすれば勝手にページの継ぎ足しが行われるので、ページのスクロールを監視して適当なタイミングで「さらに読み込む」ボタンの JavaScript を実行するスクリプト書けば別に SITEINFO 作らなくても良さそうだった。

という経緯で以下の user.js を書いた。

-> https://bitbucket.org/xKairouan/autopagerize-for-yahoo-realtime-search/

Firefox 5.0 + Scriptish 0.1.3 で動作確認済み。

追記： Bitbucket から user.js をインストールするためのリンクを探すのが面倒なので、 user.js インストール用のリンクを貼っておく。 https://bitbucket.org/xKairouan/autopagerize-for-yahoo-realtime-search/raw/default/autopagerize_for_yahoo_realtime_search.user.js

アドオン版 AutoPagerize のメモリリークに関する調査

Firefox4 用アドオンの AutoPagerize がメモリリークしているという話があった。

http://twitter.com/#!/zapa/statuses/52351101382557697

http://www.goinkyo.jp/isaoa/?i=2011/04/02-221540

http://lufesu.blog3.fc2.com/blog-entry-54.html

http://d.hatena.ne.jp/ima314/20110413/1302712902

http://twitter.com/#!/Dita_69/status/59039558909706240

http://twitter.com/#!/nagas/statuses/65150690221236224

アドオン版の AutoPagerize を使うとメモリが大量に使用されるが、代わりに Greasemonkey 版を使ったところメモリの使用量が減った、なので Greasemonkey 版を使った方が良さそう、という意見が多い。

メモリリークの検証

http://lufesu.blog3.fc2.com/blog-entry-54.html などでアドオン版の AutoPagerize はメモリリークしてると書いてあるのだけれど、他に入れてる拡張が挙げられていなかったり、新規にプロファイル作ったのかどうかが謎だったりで、検証が雑だなと感じたので調査した。

なお検証には Firefox 4.0.1 (Mozilla/5.0 (X11; Linux i686; rv:2.0.1) Gecko/20100101 Firefox/4.0.1)を用いた。

検証方法

準備:

https://bitbucket.org/xKairouan/apmemleaktest のスクリプトと適当な画像 (http://blog-imgs-44-origin.fc2.com/d/a/n/danboruparty/20110424005.jpg など)を同じディレクトリに入れる

https://bitbucket.org/xKairouan/apmemleaktest のスクリプトを python apmemleaktest.py 100 として実行

検証:

Firefox をプロファイルを指定して起動

about:memory を開く

別のタブで http://localhost:8080/ を開く

AutoPagerize が 100 ページまで読み込んで停止するまでスクロールする

30秒待つ

about:memory を更新して memory in use を記録

http://localhost:8080/ を開いていたタブを閉じる

3 に戻る

3-8 を 5 回実行した後に Firefox を閉じる

以上を検証用の各プロファイルについて行った。

検証に使用した各プロファイルは以下の通り。

profile-A: 新しく作成したプロファイルにアドオン版 AutoPagerize 0.7.2 をいれ、ページの読み込み間隔を早くするためにプロファイル中にある extensions/jid0-tKjnEA5X3eBoP5HnqjBYQ4U3AcM@jetpack/resources/jid0-tkjnea5x3ebop5hnqjbyq4u3acm-autopagerize-data/autopagerize.user.js の MIN_REQUEST_INTERVAL を 1 に変更したもの

profile-B: 新しく作成したプロファイルに Greasemonkey 0.9.3 と AutoPagerize for Greasemonkey 0.0.58 をいれたもの

実行した結果の memory in use の値は以下のようになった。

profile-A:

1回目: 68,454,936

2回目: 79,872,508

3回目: 89,678,316

4回目: 99,641,002

5回目: 109,578,684

profile-B:

1回目: 86,942,136

2回目: 53,991,244

3回目: 85,488,772

4回目: 86,714,816

5回目: 85,739,944

Greasemonkey 版の AutoPagerize を使用した方 (profile-B) では memory in use の値が 85 MB 付近で安定している (ただ 2 回目が memory in use が極端に減っているのはよくわからない。とりあえずメモリリークとは関係なさそう) のに対して、アドオン版の AutoPagerize を使用した方 (profile-A) では 1回の実行ごとに memory in use の値が 10MB ほど増加している。この結果からアドオン版の AutoPagerize はメモリリークしており、 Greasemonkey 版よりもメモリを多く使用してしまうことがわかる。

メモリリークの原因

アドオン版も Greasemonkey 版も、ページの継ぎ足しなどの AutoPagerize のコアの機能はだいたい同じスクリプトを使用している。なのでアドオン版のみメモリリークしているとすれば Jetpack 側の問題ではないかと思い、 Jetpack Add-on SDK のバグレポートを調べたところ次のような報告があった。 https://bugzilla.mozilla.org/show_bug.cgi?id=607601

これによると Jetpack が提供する page-mod モジュールを使ったアドオンではメモリリークが発生する、ということだった。そしてアドオン版の AutoPagerize はこのpage-mod モジュールを使用してページの継ぎ足し等を処理している (https://github.com/swdyh/autopagerize_for_firefox/blob/master/lib/main.js)。なのでこの page-mod モジュールのバグがアドオン版 AutoPagerize のメモリリークの原因だと考えられる。

この page-mod モジュールのメモリリークは Add-on SDK 1.0b5 で既に修正されている。 2011-05-14 現在配布されているアドオン版の AutoPagerize 0.7.2 は Add-on SDK 1.0b3 でビルドされている (これはプロファイル中の extensions/jid0-tKjnEA5X3eBoP5HnqjBYQ4U3AcM@jetpack/harness-options.json の sdkVersion の値からわかる) ので、 page-mod モジュールのバグが影響して結果的にメモリリークが発生している可能性が高い。なので 1.0b5 で xpi をビルドすればメモリリークに関しては解決するのではないかと思う。

一応 Add-on SDK 1.0b5 を使って xpi をビルドして、メモリリークが解消されるかを調べてみた。 cfx xpi でビルドする前に cfx run で動かしてみて、 Add-on SDK のduprecated warning が出ていた箇所を機械的に修正し、その後 cfx xpi でビルドした xpi を新しく作ったプロファイルにいれた。このプロファイルを profile-C とする。

profile-C: ダウンロードしたアドオン版 AutoPagerize のソースコードを duprecated warning が出ないように修正して Add-on SDK 1.0b5 でビルドし、出来上がった xpi を新しく作成したプロファイルにいれ、その後 profile-A と同様に extensions/jid0-tKjnEA5X3eBoP5HnqjBYQ4U3AcM@jetpack/resources/jid0-tkjnea5x3ebop5hnqjbyq4u3acm-autopagerize-data/autopagerize.user.js の MIN_REQUEST_INTERVAL を 1 に変更したもの

上で実行したのと同様に profile-C の memory in use の値を調べた結果は以下の通り。比較のため上の profile-A と profile-B の結果も一緒に並べている。

profile-A:

1回目: 68,454,936

2回目: 79,872,508

3回目: 89,678,316

4回目: 99,641,002

5回目: 109,578,684

profile-B:

1回目: 86,942,136

2回目: 53,991,244

3回目: 85,488,772

4回目: 86,714,816

5回目: 85,739,944

profile-C:

1回目: 68,808,860

2回目: 68,900,826

3回目: 69,095,090

4回目: 69,219,782

5回目: 69,226,282

profile-C の memory in use の値が少し増加する傾向にあるのが気になるが、増加量が一定していないことと、 profile-A と比較して profile-C の memory in use の値の増加は小さくなっていることから、メモリリークは解消されたとみてよいのではないかと思う。

結論

2011-05-14 現在配布されているアドオン版の AutoPagerize を使用するとメモリリークが発生する

AutoPagerize がメモリリークしているのは、 AutoPagerize 自体の問題ではなく Jetpack Add-on SDK 側の問題

このメモリリークを引き起こす Add-on SDK のバグは 1.0b5 で既に修正されている

なので新しい Add-on SDK で xpi を作成すればメモリリークに関しては問題が解決するだろう

作者が Add-on SDK 1.0b5 or later でアドオン版 AutoPageize をビルドして配布してくれるのを待てばよい

という感じ。

#autopagerize

Trending Blogs

Recently Viewed Blogs

xK.memo