AIツール(NotebookLMなど)がウェブページを読み取れずに
「URLが空」「読めません」と返すケースが増えています。
これは単なる技術的な失敗ではなく、サイト側の意図的な制御やポリシー対応が関係しているようです。

 

ざっと以下調べてみました。
技術的防御が進化している
ウェブサイト側では、AIや自動取得を抑止する対策が増えています。
robots.txt:クローラーへの制御を指定
CAPTCHA・認証ゲート:人間以外の取得を妨げる
Anti-bot技術:アクセス元をブロック
JavaScript依存の表示:単純URL取得では内容が出ない
こうした措置により、AIがURLを投入してもコンテンツ自体が取得できないケースが増えています。

 

ポリシーと禁止タグの影響
技術的制御だけでなく、利用規約やメタタグによる明示的な制限も効いています。
著作権や利用条件で自動抽出を禁止
<meta name=”robots” content=”noai”> のようなAI利用制限タグ
これらをサイト側が設置すると、AIは方針として処理を止めることがあります。
NotebookLMなどは「慎重な取得」に振れる
NotebookLMはGoogle系の仕様に沿い、
ログイン/会員制ページ
動的に生成されるコンテンツ

 

AI利用禁止の指定
に対しては積極的に控える動きがあります。
これは単なる“読めない”ではなく、ポリシー尊重の結果と見るべきです。
管理部門が押さえるべきポイント
実務でWeb情報を扱う場合は、次の点を押さえると安全です。
ブラウザで人が読めるかどうか
ログインや会員制の有無
利用規約で自動取得をどう扱っているか
社内利用で保存・加工が許されるか
特に業務で要約や分析を行うなら、単純にURLをAIに渡すより
HTMLやPDFを取得してから処理する方が管理上の説明責任が明確になります。

 

実務インパクト
単純なURL投入は「読めない」という結果になることが増えた
取得できても、権利・利用条件が複雑化している
管理部門としては調達前の前提確認と保存方法の設計が必要